机器学习的三大类算法

 二维码
作者:云聚创客来源:www.yunjuchuangke.com网址:http://www.yunjuchuangke.com

机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

预测是从一组输入变量来预估输出变量的值的过程。预测问题可以分为两大类:

回归问题:其中要预测的变量是数字的;

分类问题:其中要预测的变量是“是/否”的答案。

机器学习最突出、最常用的方法可以分为三大类:线性模型方法、基于树的模型、神经网络。

线性模型方法

线性模型使用简单的公式,通过一组数据点找到“最佳拟合”的行。这一方法非常简单,所以对统计学很有用。你想要预测的变量(因变量)被表示为你已经知道的变量(自变量)的方程,因此预测只是一个输入自变量,然后算出方程的答案的问题。

线性回归

线性回归,又被称为最小二乘回归,是线性模型的最标准形式。线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。

在统计学中,线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

对于回归问题,线性回归是最简单的线性模型。一个缺点是模型容易过拟合,也就是说,模型完全适应已进行训练的数据,而牺牲了推广到新数据的能力。因此,机器学习中线性回归通常是“正则化”的,这意味着模型有一定的惩罚来防止拟合。另一个缺点是,由于非常简单,所以当输入变量不独立时,不容易预测更复杂的行为。

逻辑回归

逻辑回归是线性回归对分类问题的适应,是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。逻辑回归的缺点与线性回归相同,但是逻辑函数对分类问题非常好,因为它引入了阈值效应。

基于树的模型

决策树

决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。简单来说,决策时是使用分支方法显示决策的每一个可能的结果的图示。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

随机森林

随机森林是许多决策树的平均,其中每个决策树都用随机的数据样本进行训练。随机森林中的每个树都比一个完整的决策树弱,但是将所有树放在一起,由于多样性的优势,我们可以获得更好的整体性能。

随机森林是当今机器学习中非常流行的算法。随机森林的训练很容易,而且表现相当好。它的缺点是相对于其他算法,随机森林输出预测可能会很慢,所以在需要快速预测时,可能不会选择随机森林。

梯度提升

梯度提升,像随机森林那样,也是由“弱”决策树组成的。梯度提升与随机森林最大的区别是,在梯度提升中,树是一个接一个被训练的。每个后面的树主要由前面的树识别错误的数据来训练。这令梯度提升较少关注易于预测的情况,而更多地关注困难的情况。

梯度提升的训练也很快,表现也非常好。但是,训练数据集的小小变化可以令模型发生根本性的变化,因此它产生的结果可能不是最可行的。

神经网络

神经网络是指大脑中彼此交换信息的相互联系的神经元组成的生物学现象。这个想法现在被适用到机器学习领域,被称为 ANN(人工神经网络)。人工神经网络是一种模拟动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。

人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法。

友情链接:
weixiaov