机器学习中你可能需要的数学基础

声明:本文并非0基础向,更类似于个人的学习笔记,对于比较常见易懂的概念不会介绍,如链式求导法则等。

[TOC]

1.线性代数篇

1.1 范数篇

范数的一般形式如下: 注意绝对值的存在,所以得到范数为各项的绝对值之和,范数为平方和再开根号

1.2 矩阵求导

1.2.1 直接记忆的公式

对向量求导:

对矩阵求导的情况:

1.2.2 原理篇

求导原理过长本文不做赘述,有兴趣可参见下文知乎链接。这里只给出常用推导

这里根据这些法则给出的计算过程作为例子: 先通过微分计算求导,换算为迹 ,再利用迹的交换律,最后根据 得到最终结果。

详细求导过程可参见知乎

矩阵求导计算器

2.概率论与信息论

2.1信息熵、交叉熵与相对熵(KL散度)

信息熵代表对事件不确定性的度量,不确定性越高信息熵越大。信息熵的公式代表着所有事件信息量的期望。

同时这三种熵也可以用编码长度来解释。信息熵代表完美编码长度,交叉熵代表错误估计下的编码长度。而相对熵(KL散度)则是二者之差,因此必定大于0,可由吉布斯不等式证明

参考文献:

https://luweikxy.gitbook.io/machine-learning-notes/calculus/hilbert-space

https://zhuanlan.zhihu.com/p/24709748