之前总结过不同正则化方法的关系【不过那篇文章被吞了】当时看的资料里面提到了一句话就是：正则化等价于对模型参数引入先验分布，而L1正则化相当于参数中引入拉普拉斯分布先验，而L2分布则相当于引入了高斯分布先验。当时这这句话不是很理解，今天又找了一下相关的资料研究了一下。

贝叶斯学派和频率学派

要解释上面的问题，需要先区别一下贝叶斯学派和频率学派的区别。
本质上频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。

频率学派

认为需要推断的参数 $θ$ 视作未知的定值，而样本X是随机的，其着眼点在样本空间，有关的概率计算都是针对 $X$ 的分布。频率学派认为参数虽然我们不知道，但是它是固定的，我们要通过随机产生的样本去估计这个参数，所以才有了最大似然估计这些方法。

贝叶斯学派

把参数 $θ$ 也视作满足某一个分布的随机变量，而样本X是固定的，其着眼点在参数空间，重视参数 $θ$ 的分布，固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

P (θ | X) = P ( X | θ ) * P ( θ ) P ( X )

$P(\theta|X) = \frac{P(X|\theta)*P(\theta)}{P(X)}$
上面这个就是贝叶斯的经典公式，想一想朴素贝叶斯的求解过程，不就是把每个类别的标签看成上面的参数

θ $\theta$ ，然后用样本去推测出标签的分布。

贝叶斯概率论假设观察者对某事件处于某个知识状态中（例如：有一个袋子里面装了红球和黑球，已知这个袋子里面是5黑5红的概率是0.8，是10黑5红的概率是0.2），之后观察者开始新的观测或实验（有放回抽取100次，得到80次黑的，20次红的）。经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念（即观测者一开始认为袋子里是5黑5红的可能性更大，但是经过了上面的事实之后，修正了原有的信念，认为是10黑5红可能性更大）。
上面的例子用贝叶斯概率论的语言来描述，就是观察者持有某个前置信念（prior belief），通过观测获得统计证据（evidence），通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」，从而得出后置信念（posterior belief）来最好的表征观测后的知识状态（state of knowledge）。

贝叶斯学派强调人的先验的作用，即人以往认知的作用。并且通过不断增添新的知识，来更新以往的认知。
下面是https://xkcd.com/1132/ 里面一个贝叶斯学派嘲笑频率学派的笑话。晚上的时候，一个人我们来猜猜太阳爆炸没，这里有个中微子探测器，它内部投掷两个骰子，如果都是6的话则它会说谎。然后这个中微子勘测器说：太阳爆炸了。频率学派的人说p<0.05则太阳真的爆炸了，贝叶斯学派的人说，我跟你赌50太阳没爆炸。

还有两点要说的就是：
1. 因为贝叶斯学派很多时候需要去估计先验的分布，所以如果估计的不好的话，效果也不好
2. 当实验次数足够多的时候（趋于正无穷时），人先验的影响几乎不存在了。详见【2】里面的推导。

正则化与先验

有了前面的理解我们就非常容易理解正则化项跟先验的关系了，因为我们要求满足模型的参数 $\omega$ 的分布 $P(\omega|X,y)$ ，而

P (ω | X, y) = P ( y | X , ω ) * P ( ω ) P ( X )

$P(\omega|X,y) = \frac{P(y|X,\omega)*P(\omega)}{P(X)}$
因为分子都一样，所以只看分母，而

P(y|X,ω) $P(y|X,\omega)$ 这一部分单独拿出来的话，做最大似然估计就是不加正则化的结果，而再乘以

P(ω) $P(\omega)$ 就是加入了一个参数

ω $\omega$ 的先验认知。
而参数

ω $\omega$ 的先验可以是高斯分布或者拉普拉斯分布。
以下都用 线性回归来推导

先验是高斯分布

看上面的式子去掉无关项不就是二次损失函数加上一个L2正则化项嘛。【看知乎上那个回答说，这个叫Ridge Regression】

先验是拉普拉斯分布

f (x | μ, b) = 1 2 b e x p (- | x - μ | b)

$f(x|\mu,b) = \frac{1}{2b}exp(-\frac{|x-\mu|}{b})$
所以讲上述先验带入到函数中求得

即为二次损失函数加上一个L1正则化项

总结

可以看到通过对模型的参数加上一个先验分布，使得参数较大时惩罚较大，来约束约束模型参数的规模。而L1正则化更倾向于让模型更稀疏，而L2正则则会对参数较大的值惩罚更大，倾向于让模型参数都小小的。

【机器学习】贝叶斯角度看L1，L2正则化