1.统计学习

       赫尔伯特·西蒙曾对学习给出以下定义:

如果一个系统能够通过执行某个过程改进它的性能,这就是学习。

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

2.统计学习三要素

3.实现统计学习方法的步骤

4.统计学习的分类

5.一些基本概念

6.损失函数

损失函数或代价函数用来度量模型一次预测的好坏,常用的损失函数有如下几种:

sl1_lossf

损失函数越小,模型就越好。

7.风险

学习的目标是选择期望风险最小的模型。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。

sl1_risk1

但实际中样本数量有限,甚至很小。因此需要对经验进行一定的矫正,这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

sl1_risk2

8.正则化

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化会罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。如,回归问题中,损失函数是平方损失,正则化项的参数向量的L1和L2范数表示:

sl1_regularization

9.交叉验证

交叉验证是一种模型选择方法,基本思想是重复的使用数据。

10.生成模型与判别模型

生成模型:

判别模型:


参考文档:

       1. 统计学习方法              李航 著