6 分类和预测
目录
概念
分类&预测是有监督学习,聚类是无监督学习。
包含了决策树,神经网络相关的博客
KNN 算法
KNN 算法是一种分类算法,它的思想是:如果一个样本在特征空间中的 K 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
决策树
决策树 – Decision tree | 产品经理的人工智能学习库
ID3 算法
ID3 算法的核心思想是:每次选择信息增益最大的特征作为节点,递归地生成决策树。
信息熵:表示随机变量不确定性的度量,即随机变量的不确定性越大,信息熵越大。
信息增益:表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。
信息增益越大,表示特征 X 对于类 Y 的区分能力越强。
缺点
- 信息增益偏向于选择取值较多的特征,比如 ID,每个样本的 ID 都不同,那么信息增益就会很大,但是 ID 对于分类没有任何帮助。
C4.5 算法
C4.5 使用信息增益率来选择特征,信息增益率是信息增益除以特征的熵。解决了 ID3 算法的缺点。
CART 算法
CART 使用 Gini 系数来选择特征,Gini 系数是衡量数据集纯度的指标,即数据集中随机抽取两个样本,其类别标签不一致的概率。
贝叶斯算法
朴素贝叶斯算法
朴素贝叶斯算法的前提:假设每个特征之间相互独立,即每个特征都是独立的,不会因为其他特征的变化而变化。
核心思想:
即,当给定一个未分类样本 X 时,计算它属于每个类别的概率,哪个概率大,就把它归为哪个类别。
直接寻找
使用
在实际计算中,因为
贝叶斯信念网络算法
神经网络算法
生成式和判别式模型
一张图介绍判别式和生成式模型,左边是判别式模型,右边是生成式模型,判别式模型是直接对后验概率进行建模,生成式模型是对联合概率进行建模,然后通过贝叶斯公式求后验概率。
支持向量机算法 SVM
分类准确率评估
优化
装袋
把多个分类器/预测器组合起来