廖辰益
摘要:兩百多年前英國數(shù)學(xué)家貝葉斯提出的貝葉斯定理,經(jīng)過不斷地發(fā)展,現(xiàn)在已經(jīng)成為現(xiàn)代社會某些重要領(lǐng)域的基礎(chǔ)。貝葉斯定理廣泛運(yùn)用于人工智能、機(jī)器學(xué)習(xí)、金融、醫(yī)療等領(lǐng)域,為這些領(lǐng)域提供了發(fā)展的基礎(chǔ)。本文從貝葉斯定理的起源開始,緊接著對有關(guān)貝葉斯定理的基本概念進(jìn)行闡述和對相關(guān)公式進(jìn)行解釋與推導(dǎo),再對貝葉斯定理在醫(yī)療與過濾信息的應(yīng)用進(jìn)行簡單分析,最后根據(jù)貝葉斯定理的優(yōu)缺點(diǎn)對貝葉斯定理進(jìn)行評價。
關(guān)鍵詞:貝葉斯定理 ? 全概率公式 ? 聯(lián)合概率 ? 假陽性問題 ? 過濾垃圾短信
一、貝葉斯定理的提出
貝葉斯定理最早是由英國的學(xué)者托馬斯·貝葉斯(1702~1763)提出來的。他在生前主要研究概率論方面的知識,成功歸納出了概率統(tǒng)計的基本理論。他死后,他的朋友理查德·普萊斯將他的著作《幾率性問題得到解決》發(fā)表了出去,但因?yàn)樨惾~斯定理的應(yīng)用不夠完善,幾個世紀(jì)以來都沒有被廣泛接受[1]。但是,隨著科學(xué)技術(shù)的發(fā)展,計算機(jī)的出現(xiàn)和發(fā)展,社會的進(jìn)步與發(fā)展,貝葉斯定理的重要性日益增加,現(xiàn)在已經(jīng)廣泛應(yīng)用于金融、人工智能等方面。
貝葉斯定理的提出最早是用來解決逆向概率問題的。概率問題分為正向概率問題和逆向概率問題,正向概率問題就是像“箱子里有5個大小相同,質(zhì)量相等的小球,2個黃球,3個紅球,隨機(jī)摸出一個,得到紅球的概率為多少”這樣的問題,而逆向概率問題相反,就變?yōu)榱恕皬南渥与S機(jī)摸出一個得到紅球的概率為40%,問箱子里有多少球”,很明顯,后者的難度遠(yuǎn)遠(yuǎn)大于前者。
二、貝葉斯定理
(一)貝葉斯公式
貝葉斯公式又稱貝葉斯定理、貝葉斯規(guī)則,是概率統(tǒng)計中的應(yīng)用所觀察到的現(xiàn)象對有關(guān)概率分布的主觀判斷進(jìn)行修正的標(biāo)準(zhǔn)方法,如下所示為貝葉斯公式[2]:
先驗(yàn)概率,人們在對事件進(jìn)行主觀判斷中得到的概率,用P(A)表示。后驗(yàn)概率,即在客觀調(diào)查的基礎(chǔ)上所修正的概率,也稱為條件概率。B事件發(fā)生情況下A事件發(fā)生的概率,A在B的條件下的概率,用P(A|B)表示。調(diào)整因子,是從先驗(yàn)概率到后驗(yàn)概率的修正,若先驗(yàn)概率為P(A),后驗(yàn)概率為P(A|B),則調(diào)整因子為P(B|A)/P(B)。當(dāng)調(diào)整因子=1時,事件A發(fā)生的概率與不受事件B影響,當(dāng)調(diào)整因子<1時,先驗(yàn)概率被削弱,當(dāng)調(diào)整因子>1時,先驗(yàn)概率得到增強(qiáng)。聯(lián)合概率,是指多個事件發(fā)生的情況下,另外一件事發(fā)生的概率[3]。聯(lián)合概率的計算公式為:
(二)貝葉斯公式的推導(dǎo)
設(shè)有事件A、B,且P(B)>0,則由條件概率公式可得:
由全概率公式可得:
將兩式聯(lián)立,即可得到貝葉斯公式
三、貝葉斯公式的應(yīng)用
(一)假陽性問題
醫(yī)療檢測是我們生活中常見的一個問題,醫(yī)療正確檢測率關(guān)乎到每個人的生命安全。運(yùn)用貝葉斯公式可以解決醫(yī)療檢測的概率問題?,F(xiàn)假設(shè)某種醫(yī)療設(shè)備的報錯率為1%,而被檢測人員只能檢測出陰性和陽性兩種情況。在被檢測人員中,有90%的人呈陰性,還有10%的人呈陽性,判斷假陽性的概率。
我們先假設(shè)事件A為呈陽性,事件B為呈陰性,則事件A的先驗(yàn)概率P(A)=10%,事件B的先驗(yàn)概率P(B)=90%。
設(shè)事件S為陽性檢出事件??傻?/p>
在檢測人員呈陰性的條件下陽性檢出的概率P(S|B)=1%
在檢測人員呈陽性的條件下陽性檢出的概率P(S|A)=99%
由全概率公式可得
陽性檢出的先驗(yàn)概率P(S)=P(S|B)P(B)+P(S|A)P(A)=1%×90%+99%×10%=10.8%
最后由貝葉斯公式可得
P(B|S)=P(B)P(S|B)/P(S)=90%×1%/10.8%=8.333333%
P(B|S)是檢測出陽性的條件下被檢測人員為陰性的發(fā)生概率,即為假陽性的概率。
由此可見,我們直覺判斷的概率與實(shí)際的概率相差甚遠(yuǎn),貝葉斯公式對于醫(yī)療檢測具有重要意義[4]。
(二)過濾垃圾短信
隨著手機(jī)的使用越來越普及與廣泛,手機(jī)短信成為了我們獲取信息的一種重要方式??墒窃谌粘5纳钪校覀儏s時常碰到這樣的問題:手機(jī)信息一大堆,有許多還是垃圾短信,而對自己有用的信息卻不知怎么找,那我們該如何解決這樣的問題呢?
現(xiàn)在的手機(jī)很多都有過濾垃圾短信的功能。只要設(shè)置了這個功能,垃圾短信問題就能迎刃而解。而這個功能實(shí)質(zhì)上就是用貝葉斯公式為基礎(chǔ)來實(shí)現(xiàn)的。通過對垃圾短信特定的詞眼的分析,找到垃圾短信的標(biāo)志,從而過濾垃圾短信。再加上不斷地修正,使過濾垃圾短信的準(zhǔn)確率不斷提高。
假設(shè)現(xiàn)在有一條短信,含有“ox”詞,它為垃圾短信或正常短信,由手機(jī)的數(shù)據(jù)庫可得,在不知道有無“ox”一詞的情況下短信為垃圾短信的概率為90%,短信為垃圾短信時出現(xiàn)“ox”這個詞的概率為90%,短信為正常短信時出現(xiàn)“ox”這個詞的概率為90%,要計算出這條短信是垃圾短信的概率,就先設(shè)垃圾短信為S,正常短信為H,而用A表示出現(xiàn)“ox”這個詞的事件。
可得正常短信的先驗(yàn)概率P(H)=1-90%=10%
垃圾短信的先驗(yàn)概率P(S)=90%
在短信為垃圾短信時出現(xiàn)“ox”這個詞的概率P(A|S)=90%
短信為正常短信時出現(xiàn)“ox”這個詞的概率P(A|H)=90%
由全概率公式可得,出現(xiàn)“ox”這個詞的概率為P(A)=P(A|S)P(S)+P(A|H)P(H)=90%
由貝葉斯公式可得,在出現(xiàn)“ox”這個詞時短信為垃圾短信的概率,即這條短信是垃圾短信的概率為
P(S|A)=P(S)P(A|S)/P(A)=90%×90%/90%=90%
再結(jié)合其他詞出現(xiàn)的概率,通過聯(lián)合概率進(jìn)行再計算,手機(jī)短信正確判定率會有所提高。
假設(shè)有另外一個詞“l(fā)eap”,其中,短信為垃圾短信時出現(xiàn)“l(fā)eap”這個詞的概率為50%,短信為正常短信時出現(xiàn)“l(fā)eap”這個詞的概率為30%。
我們可以設(shè)出現(xiàn)“l(fā)eap”這個詞的事件P(B).
那么短信為垃圾短信時出現(xiàn)“l(fā)eap”這個詞的概率P(B|S)=50%,短信為正常短信時出現(xiàn)“l(fā)eap”這個詞的概率P(B|H)=30%
由全概率公式可得P(B)=P(B|S)P(S)+P(B|H)P(H)=50%×90%+30%×10%=48%
再由聯(lián)合概率公式可得,短信為垃圾短信的概率
P=P(A)P(B)/{P(A)P(B)+[1-P(A)][1-P(B)]}=90%×48%/[90%×48%+(1-90%)×(1-48%)]=89.2562%
通過計算聯(lián)合概率,修正了短信為垃圾短信的概率。以此類推,再結(jié)合其他詞在垃圾短信和正常短信中出現(xiàn)的概率,利用全概率公式算出這些詞的先驗(yàn)概率,再用聯(lián)合概率公式求出短信為垃圾短信的概率,對概率進(jìn)行不斷修正,提高手機(jī)過濾垃圾短信的準(zhǔn)確率。
四、貝葉斯定理的優(yōu)劣
貝葉斯定理相比于傳統(tǒng)的經(jīng)典估計,以主觀性為切入點(diǎn),有著很大優(yōu)勢。能重復(fù)估計概率并不斷修正概率,從而使概率的準(zhǔn)確率提高。貝葉斯公式的創(chuàng)造,推動了概率統(tǒng)計學(xué)的發(fā)展,并廣泛運(yùn)用于現(xiàn)代社會,在以后的社會還會有更大的用途。
但貝葉斯定理也存在著一定的局限性,因?yàn)槭且灾饔^判斷為前提,帶有較強(qiáng)的主觀性[5]。由于每個人對先驗(yàn)信息的解讀不同,得出來的先驗(yàn)概率不同,從而得出的后驗(yàn)概率也是千差萬別,這種估計的概率缺乏科學(xué)的客觀性。
五、結(jié)語
貝葉斯定理的發(fā)現(xiàn),大大推動了概率統(tǒng)計學(xué)的發(fā)展,由原本的無法修正概率的傳統(tǒng)概率估計到可對概率進(jìn)行不斷修正的貝葉斯定理,提高了概率統(tǒng)計的實(shí)用性與可更新性。貝葉斯定理相對于傳統(tǒng)概率估計是概率統(tǒng)計學(xué)中一扇新的大門。貝葉斯定理從提出開始就在不斷的發(fā)展中,特別是到了我們今天日新月異的現(xiàn)代社會,它的用途越來越廣泛。貝葉斯定理廣泛運(yùn)用于金融、醫(yī)療、人工智能等領(lǐng)域,像貝葉斯網(wǎng)絡(luò)、貝葉斯機(jī)器學(xué)習(xí)等都得益于貝葉斯定理才能迅速發(fā)展并運(yùn)用人工智能領(lǐng)域中,為我們的生活帶來了諸多新奇與便利。隨著社會的發(fā)展,貝葉斯定理也會不斷地發(fā)展,從而貝葉斯定理也將會更好的運(yùn)用于其他領(lǐng)域和更多的新領(lǐng)域。
參考文獻(xiàn):
[1]王麗.淺析貝葉斯公式及其在概率推理中的應(yīng)用[J].科技創(chuàng)新導(dǎo)報,2010,(24):136-136.
[2]陶永祥.淺談全概率公式和貝葉斯公式的應(yīng)用[J].牡丹江大學(xué)學(xué)報,2009,(04):132+135.
[3]謝宏斌.貝葉斯公式的應(yīng)用和推廣[J].數(shù)學(xué)學(xué)習(xí)與研究,2017,(10):8-8.
[4]張秀英,陳梅華.貝葉斯(Bayes)公式及其在統(tǒng)計決策中的應(yīng)用[J].河南廣播電視大學(xué)學(xué)報,2000,(01):44-46.
[5]楊靜,陳冬,程小紅.貝葉斯公式的幾個應(yīng)用[J].大學(xué)數(shù)學(xué),2011,27(02):166-169.
(作者單位:廣東梅縣東山中學(xué))