机器学习中你可能需要的数学基础
机器学习中你可能需要的数学基础
ZENG声明:本文并非0基础向,更类似于个人的学习笔记,对于比较常见易懂的概念不会介绍,如链式求导法则等。
[TOC]
1.线性代数篇
1.1 范数篇
范数的一般形式如下:
1.2 矩阵求导
1.2.1 直接记忆的公式
对向量求导:
对矩阵求导的情况:
1.2.2 原理篇
求导原理过长本文不做赘述,有兴趣可参见下文知乎链接。这里只给出常用推导
这里根据这些法则给出
2.概率论与信息论
2.1信息熵、交叉熵与相对熵(KL散度)
信息熵代表对事件不确定性的度量,不确定性越高信息熵越大。信息熵的公式代表着所有事件信息量的期望。
同时这三种熵也可以用编码长度来解释。信息熵代表完美编码长度,交叉熵代表错误估计下的编码长度。而相对熵(KL散度)则是二者之差,因此必定大于0,可由吉布斯不等式证明。
参考文献:
https://luweikxy.gitbook.io/machine-learning-notes/calculus/hilbert-space
https://zhuanlan.zhihu.com/p/24709748