主要内容

本节主要介绍一些基本术语。

术语	中文解释
data set	数据集，通常指一组现有的数据。
instance/sample	示例/样本，用于描述是数据集中的单条数据。
attribute/feature	属性/特征，反映示例（样本）在某一个方面的表现或一个性质。
attribute value	属性的值。
attribute space/sample space/input space	属性空间/样本空间/输入空间，多个不同的属性张成的空间，如两个特征构成平面空间。
feature vector	特征向量，一个样本在属性空间中的坐标表示。
dimensionality	维数，即属性的数量或特征向量的维度。
learning/training	学习/训练，即从数据中得到模型的过程。
training data	训练数据，是data set的子集，供训练用。
training sample	训练样本，训练数据中的单条数据。
training set	训练集，一份训练集可以拆成多份训练数据训练多轮，因此data set > training set > training data。
hypothesis	假设，训练完成的模型学到的数据规律称为假设。
ground-truth	真相，指数据自身真实的数据规律，学习和训练的过程就是让假设和真相无限接近的过程。
learner	学习器，学习算法在给定数据集和参数空间上的一个实例化。
prediction	预测，模型根据自身的假设为某条数据假设一个结果的过程。
label	标记，样本对应的真相或模型预测的结果。
example	样例，example = sample + label，即有标记的样本。
label space/ output space	标记空间/输出空间，即所有标记的全集，模型预测的结果一定是标记空间中的一个点。
classification	分类任务，指模型预测的label space是离散值，如A，B，C。
regression	回归任务，指模型预测的label space是连续值，如 y = x。
binary classification/positive class/negative class	二分类任务/正类/反类，模型预测结果只有两个离散值构成，分别被称为正类和反类。
multi-class classification	多分类任务，离散值有多个的分类任务。
testing	测试，使用训练完成的模型得到的假设，对测试数据进行预测的过程。
testing sample	测试样本。
clustering	聚类任务，指标记空间由模型预测得到，事前不用指定标记空间。
cluster	簇，即聚类任务的标记空间中的一个标记。
supervised learning/unsupervised learning	监督学习和非监督学习，根据训练数据是否有标记划分，分类和回归任务是监督学习的典型代表，聚类是非监督学习的典型代表。
generalization	泛化，指的是模型在新样本的表现。
distribution	分布，整个数据集中的样本服从一个未知的分布。
independent and identically distributed	独立同分布，采集的单个样本都是独立的存在于这个分布中，因此训练样本越多，越接近训练样本的分布；但训练样本的分布并不一定是最合理的，因此样本的选择至关重要。