立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 1036|回复: 0

分类为什么用CE而不是MSE

[复制链接]
发表于 2024-9-23 19:41 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
先放结论:

  • MSE作为分类的损失函数会有梯度消失的问题。
  • MSE是非突的,存在很多局部极小值点。
我们就以最简单的分类模型:逻辑回归来举例子:f_{w,b}(x)=\sigma(\sum_{i}^{}w_{i}x_{i}+b)\\

训练数据 (x^{n},y^{n}) ,y^{n} =0表示类别0,y^{n} =1表示类别1
当采用MSE作为损失函数的时候,有
L=\frac{1}{2}\sum_{}^{n}{(y_{n}-f_{w,b}(x_{n}))^2}\\
对 w 进行求导有
\frac{\vartheta (y_{i}-f_{w,b}(x_{i}))}{\vartheta w_{i}}^2=2(y_{i}-f_{w,b}(x_{i}))f_{w,b}(x_{i})(1-f_{w,b}(x_{i}))x_{i}\\
当 y_{i}=1  的时候,
如果 f_{w,b}(x_{i})=1 ,那么 \frac{\vartheta L}{\vartheta w_{i}}=0
如果 f_{w,b}(x_{i})=0 ,那么 \frac{\vartheta L}{\vartheta w_{i}}=0
当 f_{w,b}(x_{i}) 越接近于 y_{i}  的时候,梯度越接近于0,发生了梯度消失。

当采用CE作为损失函数的时候,有
L=-ylogf_{w,b}(x)\\
求导
\frac{\vartheta L}{\vartheta w_{i}}=-\frac{y}{f_{w,b}(x)}f_{w,b}(x)(1-f_{w,b}(x))x_{i}=-y(1-f_{w,b}(x))x_{i}\\
没有任何问题!
softmax也是一样的意思,详情看参考2
参考:

原文地址:https://zhuanlan.zhihu.com/p/114438894
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表