![聊天机器人:入门、进阶与实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/672/26785672/b_26785672.jpg)
1.4 概率分布与参数估计
总体:我们把研究对象的整体经过试验所可能出现结果的集合称为总体。
样本:从研究的总体中抽取部分作为研究的对象,称为总体的样本。
参数估计:利用从总体中抽取样本的方法估计得到总体分布中未知参数的方法,叫作参数估计。一般来说它分为点估计和区间估计两类。常见的参数估计方法有:矩估计方法、最小二乘估计方法、最大似然估计方法。
最小二乘估计方法:利用一元线性方程拟合一组样本Xi、Yi,让预测值和观察值Yi残差εi的平方和最小的估计方法叫作最小二乘法估计。估计的参数表示为:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/008-i.jpg?sign=1739088394-HVSN3x73wPFEhBSCdWSeNAt9WAORUBMG-0-2bbcb48c4d7a713fcbd926be5e1b10a6)
通过利用最小二乘法,找出如表1-3所示的测量数据的一元回归方程。
表1-3 样本Xi、Yi的数值表
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/b1-3.jpg?sign=1739088394-IdyI7UtkXi5Aq7t3y5pwbkpMCPSCWkw3-0-a4750f549dac2aa30f6219418f9e6f69)
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/008-2-i.jpg?sign=1739088394-W05rrhxkHJfM4fPfPygH1UkNDSs8P3V8-0-1aef37a1ea1ad7588ac26a74996d37e3)
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/009-i.jpg?sign=1739088394-zrXDBJUgDQrH2DOK2eMyIHIDdIPFplkq-0-0a1a44b24028769004c51490cb1da51c)
二项分布:假设一个可重复的实验只有A或者A两种结果发生,如果试验重复n次,出现k次A结果的概率为:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/009-2-i.jpg?sign=1739088394-loSq0bOlnWYcPjjHYhvE46UPSivIvzzU-0-e97331b9a5c23c77992b4f436aeed656)
正态分布:随机变量X服从均值为μ,且方差为σ2的分布称为正态分布或高斯分布,记为:
X~N(μ,σ2)
概率密度函数为:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/009-3-i.jpg?sign=1739088394-8LCXIczpVQnpBbtI0KUPlI4fhie9XWsK-0-5fca0c8d6b3c16124b259a41a419f4a0)
由图1-1可知,均值决定了曲线的位置,方差决定了曲线的高矮。
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/t1-1.jpg?sign=1739088394-oZazBYw8j5PK9R2iRHgQ0yU65slcVbTx-0-d8d14b429ac18431763f595c4fcaa67e)
图1-1 正态分布曲线
当μ=0,σ=1时称为标准正态分布,公式简化为:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/009-4-i.jpg?sign=1739088394-i0TqNDVFAaODpNxvgDB7RSzPvBlzmc3n-0-f3b2429138fe032095ac4076ef59a4b5)
最大似然估计方法:假设样本是Xi={X1,X2,…,Xn},未知的估计参数为θ,待优化的目标函数为f(X1,X2,…,Xn|θ)。如果能够从总体中抽取几种样本的组合,使得样本组合的概率最大,那么参数估计问题就可以简单地转换成如下的最优化问题。
1)假设样本Xi={X1,X2,…,Xn}是独立同分布的,L(X1,X2,…,Xn|θ)为包含估计参数的似然函数:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/t1-1.jpg?sign=1739088394-oZazBYw8j5PK9R2iRHgQ0yU65slcVbTx-0-d8d14b429ac18431763f595c4fcaa67e)
图1-1 正态分布曲线
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/010-i.jpg?sign=1739088394-Jq10ynlVsZ4noaHmLTzwv9hm82g5Gh3x-0-da2d4a37a06b4a1175fc8a29c19e5efe)
2)令方程的两边取对数,简化方程的运算复杂度得:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/010-2-i.jpg?sign=1739088394-Z7qk7N1C9OwNM6kixsu71zgNUkkbdYJJ-0-bffb85781f1a9cac272b27b65f682b6b)
3)对方程两边的算式求导(如果该似然函数的导数存在),令另一侧等于0:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/010-3-i.jpg?sign=1739088394-MsHSPCh0lfXHbnXcHvOmsCpu6Qdqljm7-0-500fc875ed62cb12d79cbbaf9050e894)
4)求解似然方程得到L(θ)的估计值。
最大似然函数的思想可以基本理解为:
·已知某个总体下的随机样本满足某种概率分布。
·概率分布的参数是未知的。
·经过反复试验某个参数值能够使得样本出现的概率最大,那么就把这个参数值当作最大似然估计近似值。
例题
如果一个总体服从正态分布X~N(μ,σ2),其中μ,σ2是未知的参数。假设X是来自于总体的一个抽样样本,它的值可以表示为x1,x2,…,xn。用极大似然函数来求解未知参数。
解:X的概率密度可以表示为:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/011-i.jpg?sign=1739088394-TSFjrzJ2ei8AbqsFDOfmwLMqKOvVOZjC-0-f9f694c3a51066ffb382d29974a7f4a4)
得到似然函数
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/011-2-i.jpg?sign=1739088394-ZhgJW48AuJKCQgEKpvNmi5ctOemM3YdT-0-5980e9b94b1ce34720ad872b13be8c2a)
方程两边取对数
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/011-3-i.jpg?sign=1739088394-GjRV4HGM1SEPOwmhcfaekwcjXV1SNHih-0-649e334e557ca7c37f95f7fca45eec7b)
对两个参数μ,σ2求导
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/011-4-i.jpg?sign=1739088394-NIZIIOXIhd7WM0wtDKMhL1IJnOn03yZk-0-51d3079b18c9ac059f6d4bf22bd60aa0)
得到极大似然估计结果:
![](https://epubservercos.yuewen.com/137793/15246377705907106/epubprivate/OEBPS/Images/011-5-i.jpg?sign=1739088394-9JAFWOt5px3ZAC0J2vKKZFZIDPa98Ix0-0-ed23fd0076f3bf5837983db2e54063a6)