sigmoid,softmax;
交叉熵损失,样本不均衡的focalloss损失;
0x01 sigmoid
求导
0x02 softmax
求导,并且简单推导下只有一层hidden layer加softmax的多分类神经网络
x为输入,z为中间隐层神经元,a为最终输出结果
损失函数
对某个参数进行求导
对于划线部分,分为两种情况
softmax实质是将,最后一层的、数量与预测种类相同的神经元的输出,转化为概率。
0x03 Cross-Entropy与logsoftmax
先说LogSoftmax
,
logsoftmax省了一个指数计算,省了一个除法,数值上相对稳定一些。
其实 Softmax_Cross_Entropy
里面也是这么实现的。这也就引出了交叉熵与softmax的关系。
cross-entropy 不是机器学习独有的概念,本质上是用来衡量两个概率分布的相似性的。
cross-entropy 公式为:
其中预测概率q(k)就对应着softmax所输出的值,前边是log,所以,一般都直接采用logsoftmax节省计算。
P.S. 相对熵 KL散度
0x04 Focal-Loss
何恺明 Kaiming 团队
交叉熵
Appendix
师弟手绘 FUJUFILM