由于模型的特有学习方式,通过逻辑回归所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出基本原理的问题十分有用。
与线性回归一样,当你移除与输出变量无关的属性以及彼此非常相似(相关)的属性时,逻辑回归确实会更好。这是一个快速学习和有效处理二元分类问题的模型。
3、线性判别分析Linear Discriminant Analysis
传统的逻辑回归仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(Linear Discriminant Analysis,简称LDA)是首选的线性分类技术。
LDA的表示非常简单。它由你的数据的统计属性组成,根据每个类别进行计算。对于单个输入变量,这包括:
- 每类的平均值。
- 跨所有类别计算的方差。

LDA通过计算每个类的判别值并对具有最大值的类进行预测来进行。该技术假定数据具有高斯分布(钟形曲线),因此最好先手动从数据中移除异常值。这是分类预测建模问题中的一种简单而强大的方法。
4、分类和回归树Decision Tree
决策树是机器学习的一种重要算法。
决策树模型可用二叉树表示。对,就是来自算法和数据结构的二叉树,没什么特别。每个节点代表单个输入变量(x)和该变量上的左右孩子(假定变量是数字)。
树的叶节点包含用于进行预测的输出变量(y)。预测是通过遍历树进行的,当达到某一叶节点时停止,并输出该叶节点的类值。
决策树学习速度快,预测速度快。对于问题也经常预测准确,并且你不需要为数据做任何特殊准备。
