主要内容
本节主要介绍一些基本术语。
| 术语 | 中文解释 |
|---|---|
| data set | 数据集,通常指一组现有的数据。 |
| instance/sample | 示例/样本,用于描述是数据集中的单条数据。 |
| attribute/feature | 属性/特征,反映示例(样本)在某一个方面的表现或一个性质。 |
| attribute value | 属性的值。 |
| attribute space/sample space/input space | 属性空间/样本空间/输入空间,多个不同的属性张成的空间,如两个特征构成平面空间。 |
| feature vector | 特征向量,一个样本在属性空间中的坐标表示。 |
| dimensionality | 维数,即属性的数量或特征向量的维度。 |
| learning/training | 学习/训练,即从数据中得到模型的过程。 |
| training data | 训练数据,是data set的子集,供训练用。 |
| training sample | 训练样本,训练数据中的单条数据。 |
| training set | 训练集,一份训练集可以拆成多份训练数据训练多轮,因此data set > training set > training data。 |
| hypothesis | 假设,训练完成的模型学到的数据规律称为假设。 |
| ground-truth | 真相,指数据自身真实的数据规律,学习和训练的过程就是让假设和真相无限接近的过程。 |
| learner | 学习器,学习算法在给定数据集和参数空间上的一个实例化。 |
| prediction | 预测,模型根据自身的假设为某条数据假设一个结果的过程。 |
| label | 标记,样本对应的真相或模型预测的结果。 |
| example | 样例,example = sample + label,即有标记的样本。 |
| label space/ output space | 标记空间/输出空间,即所有标记的全集,模型预测的结果一定是标记空间中的一个点。 |
| classification | 分类任务,指模型预测的label space是离散值,如A,B,C。 |
| regression | 回归任务,指模型预测的label space是连续值,如 y = x。 |
| binary classification/positive class/negative class | 二分类任务/正类/反类,模型预测结果只有两个离散值构成,分别被称为正类和反类。 |
| multi-class classification | 多分类任务,离散值有多个的分类任务。 |
| testing | 测试,使用训练完成的模型得到的假设,对测试数据进行预测的过程。 |
| testing sample | 测试样本。 |
| clustering | 聚类任务,指标记空间由模型预测得到,事前不用指定标记空间。 |
| cluster | 簇,即聚类任务的标记空间中的一个标记。 |
| supervised learning/unsupervised learning | 监督学习和非监督学习,根据训练数据是否有标记划分,分类和回归任务是监督学习的典型代表,聚类是非监督学习的典型代表。 |
| generalization | 泛化,指的是模型在新样本的表现。 |
| distribution | 分布,整个数据集中的样本服从一个未知的分布。 |
| independent and identically distributed | 独立同分布,采集的单个样本都是独立的存在于这个分布中,因此训练样本越多,越接近训练样本的分布;但训练样本的分布并不一定是最合理的,因此样本的选择至关重要。 |