主要内容

本节主要介绍一些基本术语。

术语 中文解释
data set 数据集,通常指一组现有的数据。
instance/sample 示例/样本,用于描述是数据集中的单条数据。
attribute/feature 属性/特征,反映示例(样本)在某一个方面的表现或一个性质。
attribute value 属性的值。
attribute space/sample space/input space 属性空间/样本空间/输入空间,多个不同的属性张成的空间,如两个特征构成平面空间。
feature vector 特征向量,一个样本在属性空间中的坐标表示。
dimensionality 维数,即属性的数量或特征向量的维度。
learning/training 学习/训练,即从数据中得到模型的过程。
training data 训练数据,是data set的子集,供训练用。
training sample 训练样本,训练数据中的单条数据。
training set 训练集,一份训练集可以拆成多份训练数据训练多轮,因此data set > training set > training data。
hypothesis 假设,训练完成的模型学到的数据规律称为假设。
ground-truth 真相,指数据自身真实的数据规律,学习和训练的过程就是让假设和真相无限接近的过程。
learner 学习器,学习算法在给定数据集和参数空间上的一个实例化。
prediction 预测,模型根据自身的假设为某条数据假设一个结果的过程。
label 标记,样本对应的真相或模型预测的结果。
example 样例,example = sample + label,即有标记的样本。
label space/ output space 标记空间/输出空间,即所有标记的全集,模型预测的结果一定是标记空间中的一个点。
classification 分类任务,指模型预测的label space是离散值,如A,B,C。
regression 回归任务,指模型预测的label space是连续值,如 y = x。
binary classification/positive class/negative class 二分类任务/正类/反类,模型预测结果只有两个离散值构成,分别被称为正类和反类。
multi-class classification 多分类任务,离散值有多个的分类任务。
testing 测试,使用训练完成的模型得到的假设,对测试数据进行预测的过程。
testing sample 测试样本。
clustering 聚类任务,指标记空间由模型预测得到,事前不用指定标记空间。
cluster 簇,即聚类任务的标记空间中的一个标记。
supervised learning/unsupervised learning 监督学习和非监督学习,根据训练数据是否有标记划分,分类和回归任务是监督学习的典型代表,聚类是非监督学习的典型代表。
generalization 泛化,指的是模型在新样本的表现。
distribution 分布,整个数据集中的样本服从一个未知的分布。
independent and identically distributed 独立同分布,采集的单个样本都是独立的存在于这个分布中,因此训练样本越多,越接近训练样本的分布;但训练样本的分布并不一定是最合理的,因此样本的选择至关重要。