leafy's blog

Archives · 2023

Home

About

Archives

loading..
Interesting Things

交叉熵损失函数和KL散度

当助教的时候遇到一个同学提出了这个问题 关于这个问题,stackexchange上有类似的回答 他解释的是关于工程相关的,意思是说不能直接得到分布,在 minibatch 采样的时候交叉熵更稳定 但实际上在我的印象中,显著性任务或一些与分布相关的任务例如 t-SNE 同样也会使用KL散度作为损失函数。KL可以用来计算损失,但是计算比较麻烦,一般假设训练集分布等价于真实值分布,而且训练集分布是给定不变的,所以这种情况下,KL散度等价于交叉熵,而且交叉熵计算比较好算,所以就用交叉熵了。

Read more