假设有一个模式样本集,其概率密度函数是单变量正态分布N(θ,σ2),均值θ待求,即:
p(x∣θ)=2πσ1exp[−21(σ2x−θ)2] 给出N个训练样本{x1,x2,…,xN},用贝叶斯学习计算其均值估计量。
对于初始条件,设 p(θ)=N(θ0,σ02),p(x1∣θ)=N(θ,σ2),由贝叶斯公式可得:
p(θ∣x1)=a⋅p(x1∣θ)p(θ)=a⋅2πσ1exp[−21(σ2x−θ)2]⋅2πσ01exp[−21(σ02x−θ0)2] 其中a是一定值。由贝叶斯法则有:
p(θ∣x1,…,xN)=∫φp(x1,…,xN∣θ)p(θ)dθp(x1,…,xN∣θ)p(θ) 此处ϕ表示整个模式空间,由于每一次迭代是逐个从样本子集中抽取,因此N次运算是独立的,上式由此可以写成:
p(θ∣x1,…,xN)=a⋅{k=1∏Np(xk∣θ)}p(θ)=a⋅{k=1∏N2πσ1exp[−21(σ2xk−θ)2]}⋅2πσ01exp[−21(σ02x−θ0)2]=a′exp[−21{k=1∑N(σxk−θ)2}+(σ02x−θ0)2]=a′′exp[−21{(σ2N+σ021)θ2−2(σ21k=1∑Nxk+σ02θ0)θ}] 将上式中所有与θ无关的变量并入常数项a′和a′′,则p(θ∣x1,…,xN)是θ平方函数的指数集合,仍是正态密度函数,写为N(θN,σN2)的形式,有:
p(θ∣x1,…,xN)=2πσN1exp[−21(σNθ−θN)2]=a′′′exp[−21(σN2θ2−2σN2θNθ)] 上述两式相比较,可得:
σ21σN2θN=σ2N+σ021=σ21k=1∑Nxk+σ02θ0=σ2Nm^+σ02θ0 解出θN和σN,得:
θNσN2=Nσ02+σ2Nσ02m^N+Nσ02+σ2σ2=Nσ02+σ2σ02σ2 即根据对样本的观测,求得均值θ的后验概率密度p(θ∣xi)为N(θN,σN2),其中:
θN是先验信息(θ0,σ02,σ2)与训练样本所给信息(N,m^)适当结合的结果,是N个训练样本对均值的先验估计θ0的补充
σN2是对这个估计的不确定性的度量,随着N的增加而减少,因此当N→∞时,σN→0,代入上式可知只要σ0=0,则当N数量足够大时,θN趋于样本均值的估计量m^