第三章 概率密度函数的估计
一、参数估计
1. 估计的评估标准
无偏性
有效性
一致性
2. 最大似然估计
(1) 最大似然估计的方法
最大化联合概率密度。注意均匀分布的特殊情况,此时需要与的约束。
(2) 正态分布下的最大似然估计
一维情况:
假设样本为,则
多维情况:
假设样本为,则
是一致的,也是无偏的;是一致的,但是不是无偏的,无偏估计是
3. 贝叶斯估计
(1) 贝叶斯估计的方法
确定或猜测的先验密度
求样本联合密度分布
求参数的后验概率密度
求参数估计值
如果损失函数为,则参数估计值就是后验概率的期望
或者可以直接求概率密度函数
(2)
一维正态分布时的贝叶斯估计
假设样本为,,。其中,只有是未知的估计量,其他都是已知的,则
(3) 贝叶斯学习
贝叶斯学习是通过递推获得参数的后验概率密度,递推公式如下:
二、非参数估计
1. 直方图方法
(1)
直方图方法的概率密度估计值
假设把样本的每个分量分割成等间隔的小窗,分割后每个小小区域的 ...
第二章 统计决策方法
一. 三种贝叶斯决策
1.最小错误率贝叶斯决策
本质计算后验概率,因分母相同等价于联合概率密度。后验概率计算形式如下:
1.判别函数: 对于类, 2.判别规则: 若则 3.决策面: 4.同时对于二类情况,判别有如下特殊形式 若,则
其中, 叫似然度,叫似然比
2.最小风险贝叶斯决策
1.判别规则:
若,则决策 其中, 后验概率乘对应风险项,选取最小化风险的行为
2.对于两类的判别
判别规则: 若,则 其中, ,即实际情况为时决策为的风险。
3.Neyman-Pearson决策
即固定一类错误率的情况下最小化另一类错误率。
判别规则如下 若,则
由固定的一类错误率计算出,假设固定第二类错误率(假阴性)为,则决策边界保证
似然比为似然比密度函数为
通过数值解法得到。本质上三种决策的不同代表似然比阈值选取的不同。
二.正态分布下的统计决策
1.多元正态分布概率密度公式
式中,是 维列向量;
是 维均值向量; 是 维协方差矩阵,是 的逆短阵,是 的行列式。
2.正态分布下的最小错误率贝叶斯决策
...
声明:本文并非0基础向,更类似于个人的学习笔记,对于比较常见易懂的概念不会介绍,如链式求导法则等。
[TOC]
1.线性代数篇
1.1 范数篇
范数的一般形式如下: 注意绝对值的存在,所以得到范数为各项的绝对值之和,范数为平方和再开根号
1.2 矩阵求导
1.2.1 直接记忆的公式
对向量求导:
对矩阵求导的情况: 若为对称阵
1.2.2 原理篇
求导原理过长本文不做赘述,有兴趣可参见下文知乎链接。这里只给出常用推导
与形状相同
这里根据这些法则给出的计算过程作为例子:
先通过微分计算求导,换算为迹 ,再利用迹的交换律,最后根据
得到最终结果。
详细求导过程可参见知乎
矩阵求导计算器
2.概率论与信息论
2.1信息熵、交叉熵与相对熵(KL散度)
信息熵代表对事件不确定性的度量,不确定性越高信息熵越大。信息熵的公式代表着所有事件信息量的期望。
同时这三种熵也可以用编码长度来解释。信息熵代表完美编码长度,交叉熵代表错误估计下的编码长度。而相对熵(KL散度)则是二者之差,因此必定大于0,可由吉布斯不等式证明。
参考文献:
https ...
竞赛总结
未读[TOC]
nlp分类比赛trick总结
数据清洗+合理的模型架构+优秀的基模才是关键
模型选择
中文:roberta,ernie-3.0-xbase-zh,nezha
英文:deberta
利用llm做数据增强
利用大模型生成更多数据,本质上是利用大模型的先验知识。
冻结参数
123456789101112131415from transformers import BertForSequenceClassification# 加载预训练的bert模型,这里我们使用'bert-base-uncased'作为例子model = BertForSequenceClassification.from_pretrained('bert-base-uncased')# 先将所有参数设置为不可训练for param in model.parameters(): param.requires_grad = False# 然后将最后两层的参数设置为可训练for param in model.bert.encoder.layer[-2:].parameters(): pa ...