为什么L1范数可以保证稀疏性

16 December 2018 - Beijing

稀疏性这个问题其实不单单在损失函数的范畴内被讨论比较多,其实在人脸识别的问题里面一个人脸的字典的稀疏的表示也是一个很重要的问题。因为当人脸的数目大于整个图像的像素的时候,就会有不止一种表示方法,此时的结其实是无穷的,所以我们希望得到一个最稀疏的解,便于得到最后的表示。

在损失函数的优化问题中就是说我们希望得到稀疏的参数,这些参数可以很好地拟合我们的目前的问题

注意,这里面出现了两个关键词,一个是很好地拟合,一个是稀疏的模型,也就是说在给定拟合误差的基础上,我们最小化范数可以使得参数稀疏,那么其实这个问题就变成了带限优化的问题,用数学表达来表达就是:

其中为给定的拟合误差,而待优化项和限制项的和就是平时常见的损失函数的形式了。我们知道范数的图像在高维空间内是超立方体,而且是围绕原点中心对称的,因此,我们逐渐扩大这个立方体的时候,我们的立方体在刚触碰到限制函数所形成的的超平面的时候会得到最优解,这一点可以通过作图得到,而这个最优解是角点,因此在诸多的可行解中选择了稀疏的解。这也是为什么可以保证稀疏的一个重要的原理。

Written on December 16, 2018