精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
貝葉斯統計

1 概率論和統計學的區別

簡單來說,概率論和統計學解決的問題是互逆的。假設有一個具有不確定性的過程(process),然后這個過程可以隨機的產生不同的結果(outcomes)。則概率論和統計學的區別可以描述為:

概率論(probability theory)中,我們已知該過程的概率模型,該模型的不確定性由相應的概率分布來描述;概率論要回答的問題是該過程產生某個結果的可能性有多大這類問題。

統計學(statistics)中,該過程的概率模型對我們來說是未知的,但是我們有一系列該過程產生的結果的觀測值;我們希望通過這些觀測值來推斷出這個過程中的不確定性是什么樣的。

總結來說就是:通過已知的概率模型來精確的計算各種結果的可能性就是概率論;根據觀測的結果來推斷模型的不確定性就是統計學。

如果上面的描述依然晦澀,請看下面這個例子。假設桶里面有 100 個小球,小球分為白色和黑色。如果已知桶里面一共有 30 個白球和 70 個黑球,想回答隨機從桶中摸出一個白球(或者黑球)的概率是多少這樣的問題,這就屬于概率論的范疇。而如果已知通過有放回的采樣抽出了 10 個球并且其中 4 個白球 6 個黑球,想要推斷的是小桶里面白球(或者黑球)的百分比(這些對我們來說是未知的),這就是統計學的范疇。

對于概率論來說,每一個問題都有唯一的答案。通過相關計算,總可以計算出我們關心的結果發生的概率。反觀統計學,它更像是一門藝術。因為要推斷的模型是未知的,因此很難說哪種推斷方法就優于另一種方法,或者哪種推斷結果就比其他結果更加正確。就拿上面的例子來說,雖然觀測到的 10 個球中有 4 個白球和 6 個黑球,但我們仍不能斷言桶里白球占 40% 的推斷就一定比桶里白球占 50% 或者 30% 的推斷更加準確。

2 古典統計學和貝葉斯統計學

統計學領域中有兩大學派:古典統計學(classical)和貝葉斯統計學(Bayesian,以英國數學家托馬斯·貝葉斯命名)。古典統計學又稱為頻率論(frequentist)。

關于這倆大學派孰優孰劣已有一個世紀的爭論。它們的本質區別在于對待未知模型或者參的方法是不同的:

古典統計學認為,未知的模型或者參數是確定的,只不過我們不知道它確切的形式或者取值。

貝葉斯統計學認為,未知的模型或者參數變量是不確定的,但是這種不確定性可以由一個概率分布來描述

古典統計學通過進行大量重復實驗并統計某個特定結果出現的頻率作為對未知參數的估計。以猜桶中白球的比例為例,頻率論者會進行大量的帶放回的獨立抽取實驗(實驗可以做到天荒地老海枯石爛),然后計算所有結果中白球出現的頻率,以此作為對小球中白球比例的推斷。古典統計學的核心在于通過大量的實驗來消除模型或者參數估計中的不確定性(因為它假設未知模型或者參數是確定的)。

貝葉斯統計學則截然不同。貝葉斯統計學“使用概率的方法來解決統計學問題”。如前所述,貝葉斯統計學認為未知的模型或者參數是不確定的、符合某個概率分布。特別的,我們會首先根據主觀判斷或者過去的經驗,對這個概率分布有一個猜測,稱為先驗分布(prior distribution);然后根據越來越多的觀測值(new data 或者 new evidence)來修正對該概率分布的猜測,最后得到的概率分布稱為后驗分布(posterior distribution)貝葉斯統計學中的“概率”的概念可以被解釋為我們對未知變量不同取值的信心程度的測度(measure of confidence)。貝葉斯統計不消除未知變量的不確定性,而是通過越來越多的新的觀測點來持續更新我們對于該未知變量不確定性的認知,提高我們對不確定性的判斷的信心。

對于上面這個例子,假設在觀測值出現之前,我們猜測桶中有 50% 的白球和 50% 的黑球。因此 50% 是我們對白球比例的先驗信仰(prior belief)。隨著不斷進行抽取實驗,我們會根據得到的觀測值更新我們的信仰。假設 10 次抽取后得到 4 個白球和 6 個黑球,那么此時我們對白球比例的信仰就會從最初的 50% 減少一些,這是因為我們結合新的證據(即觀測的 10 個球中僅有 40% 是白球)更新了猜測。假設 100 次抽取后得到了 35 個白球和 65 個黑球,那么此時我們對白球比例的信仰又會繼續更新。隨著越來越多的觀測值,我們會持續更新猜測,并且對該猜測的信心程度也會越來越高,即未知變量(在這里是白球比例)后驗分布的標準差會越來越小(后面會通過一個扔硬幣的例子說明)。

貝葉斯統計學派被古典統計學派詬病的核心問題是對于未知變量的先驗分布是非常主觀的。顯然,哪怕是一個最簡單的問題,不同的人也會有不同的考慮。比如桶中白球比例這個例子。一個普通人會同意 50% 是一個合理的先驗猜測。但是,極端的人也許會使用 0% 或者 100% 白球作為他的先驗猜測。不過,盡管不同人可以有不同的先驗分布,但是隨著他們結合新的觀測點來更新自己的信仰,我們會發現他們最終得到的后驗分布是會逐漸收斂的。此外,對很多生活中的實際問題,使用一個合理的猜測(educated guess)作為先驗是很有好處的。

3 為什么要學習貝葉斯統計

貝葉斯統計在生活以及量化投資中有著廣泛的應用。從下面兩個意義上說,相對古典統計,貝葉斯統計有明顯的優勢:

1. 雖然在上面抽小球的例子中我們進行大量重復性的實驗并計算白球的頻率(古典統計學手段),但對于是在生活中的很多實際問題,大量重復實驗是不現實的。比如我們想推斷川普當選美國總統的概率。顯然,我們沒法讓美國人進行成千上萬次不同的投票選舉,然后計算川普獲勝的頻率。即便是通過民意調查的方式,進行成千上萬次也是不切實際的(簡單從成本的角度考慮就不可能)。因此,對于這個問題我們只能有非常有限的幾次民意調查結果。我們當然可以只通過這些有限的結果利用古典統計學對川普獲勝的概率做出估計,但是可以想象的是這個估計的誤差會非常大。而貝葉斯統計則提供了新的視角。

2. 合理的先驗分布對未知量的估計是非常有益的。對生活中很多實際問題的判斷都和人們的學識、經驗、見識有關。在這種情況下,如果我們把有限和觀測數據和根據知識和經驗得到的先驗結合起來,會得到對未知量更好的推斷。就拿對股票收益率的預測這件事來說,我們之前的文章《收益率預測的貝葉斯收縮》中提到了使用貝葉斯統計可以得到更小的估計誤差。而高盛著名的 Black–Litterman 收益率模型就是將從市場均衡假設推出的資產收益率作為先驗,將基金經理的主觀判斷作為觀測值,通過把它們兩者結合來得到后驗判斷。它的本質也是貝葉斯統計。

可見,掌握貝葉斯統計并且使用它做推斷,即貝葉斯推斷(Bayesian inference),十分重要。貝葉斯統計框架的核心無疑就是貝葉斯定理(Bayes’ rule)

4 貝葉斯定理

本節簡要介紹貝葉斯定理,它是貝葉斯推斷的核心。(對數學不感興趣的讀者可以跳過本節,這么做不會影響對后文的理解。)

貝葉斯定理的推導始于條件概率。條件概率可以定義為:在事件 B 發生的前提下,事件 A 發生的概率。數學上用 P(A|B) 來表示這個條件概率。

生活中條件概率屢見不鮮。比如在沒有趕上 8 點這趟地鐵,上班遲到的概率是多少?

條件概率 P(A|B) 的數學定義為:

這個公式的白話解釋為:“當 B 發生前提下 A 發生的概率”等于“A 和 B 同時發生的概率”除以“B 發生的概率”。用我們的例子來說,那就是“在沒有趕上 8 點這趟地鐵的前提下,上班遲到的概率”等于“沒趕上 8 點這趟地鐵且上班遲到的概率”除以“沒趕上 8 點這趟地鐵的概率”。將這個式子左右兩邊同時乘以 P(B) 得到 P(B)P(A|B) = P(A∩B)。

類似的,我們也可以求出 P(B|A),即在 A 發生的前提下,B 發生的概率是多少。在上面例子中,這對應著“在上班遲到的前提下,沒有趕上 8 點這趟地鐵的概率是多少”?(上班遲到的原因可能很多,比如沒趕上這趟地鐵是一個,又比如趕上地鐵了但是下地鐵后去辦公樓咖啡館里耽擱了 10 分鐘也是一個,或者因為早上發燒先去醫院了等等。)根據定義:

同樣,兩邊同時乘以 P(A) (并且由 P(A∩B) = P(B∩A))得到 P(A)P(B|A) = P(A∩B)。

由此可知 P(B)P(A|B) = P(A)P(B|A)。這個結果也可以寫作如下形式,即大名鼎鼎的貝葉斯定理

5 貝葉斯推斷

由貝葉斯定理可以順其自然得到貝葉斯推斷。前文提到,貝葉斯統計的核心是通過新的觀測數據(或者新的證據)來不斷的更新我們對未知量的認知。

考慮一個假想的例子。假設我們的先驗認知是明天太陽不會升起(即明天太陽不會升起的概率為 1)。然而,實際觀測到的證據是每天太陽都照常升起。由此,我們會不斷的修正之前那個先驗,由此得到的后驗認知是下一天太陽不會升起的概率越來越低。通過新證據或者數據來更新認知的過程就是貝葉斯推斷。下面我們來正式的描述它。

假設我們有一個需要估計的未知量 θ,并且針對該變量有一個先驗分布 P(θ)。令 D 為一系列觀測值或者證據。我們希望通過 D 來修正對 θ 的分布的認知,即 P(θ|D) 是我們感興趣的。由貝葉斯定理可得:

在貝葉斯推斷的框架下,上面公式中的這些概率量都有約定俗成的名字:

  • P(θ):θ 的先驗分布(prior)。它表示在沒有任何觀測值序列 D 時我們對于 θ 的不確定性的認知。
  • P(θ|D):θ 的后驗分布(posterior)。它表示在考慮了觀測值序列 D 后,我們對于θ 的不確定性的改進的認知。
  • P(D|θ):可能性、似然度(likelihood)。它是當未知變量服從 θ 的前提下,我們觀察到序列 D 的條件概率。
  • P(D):觀測值或證據(evidence)。這是在考慮所有可能的 θ 的分布下,所能觀測到序列 D 的非條件概率。

可見,通過使用貝葉斯推斷,我們可以合理的將先驗認知和實際證據結合在一起,得到一個更新的后驗認知。

此外,貝葉斯推斷框架的強大之處在于我們可以迭代的看問題,即在每次有新觀測數據后我們可以得到一個新的后驗分布,然后把它作為下個新數據出現前的(新的)先驗分布。換句話說,在這個過程中我們通過反復迭代使用貝葉斯定理,持續更新對未知量的分布的認知。

6 一個扔硬幣的例子

下面通過一個具體的例子來說明貝葉斯推斷的過程。假設我們有一枚硬幣,并且想要推斷出扔硬幣時得到頭像(正面,heads)的概率 P(H) 是多少。用 θ 來表示這個概率。通過反復扔這枚硬幣便可以得到一個由正面和(或)反面結果組成的觀測序列,這就是觀測序列 D。

假設在開始扔硬幣前,我們對 θ 的分布 P(θ) 有如下先驗猜想:θ 可以是 0 到 1 范圍內的任何取值,并且均勻分布(比如 θ 等于 0 說明該硬幣兩面都不是頭像;θ 等于 1 說明該硬幣兩面都是頭像;θ 等于 0.5 意味著該硬幣一面頭像一面非頭像,且質地均勻等)。在這個假設下,θ 的先驗概率密度函數為 0 到 1 之間的一條水平線(下圖)。

下面我們就來說說如何通過貝葉斯定理、利用新的實驗結果來更新這個先驗分布。為此,引入一個非常有用的概念 —— 共軛先驗(conjugate priors)。有點暈?別著急往下看。為了解釋它,我們先來介紹另一個應用非常廣泛的分布 —— Beta 分布(Beta distribution)。

Beta 分布是一組定義在 0 到 1 區間上的連續概率分布,其具體形態由兩個參數 α 和 β 決定,其概率密度函數為:

上式中 B(α, β) 是一個由 α 和 β 決定的系數,以滿足 f 在 0 到 1 上的積分為 1。我們將上述概率密度函數簡寫為:Be(α, β)。前面說過,我們對于 θ 的先驗分布猜測是 uniform distribution,而它是一種特殊的 Beta 分布,其對應 Beta 分布的參數為 α = 1 以及 β = 1,因此有 θ ~ Be(1, 1)。

當我們拋擲概率為 θ 的硬幣時,得到正面的概率為 θ,反面的概率為 1 - θ。因此,假如我們拋擲 n 次,得到 m 次正面的概率實際上是一個二項分布(binomial distribution),且滿足(以下 D 代表拋擲 n 次中得到 m 次正面這件事):

上式中

是一個系數。

一般的,當先驗滿足參數為 α 和 β 的 Beta 分布時,由貝葉斯定理可知, 后驗概率滿足:

可見此時后驗滿足參數為 α m 和 β n - m 的 Beta 分布。在貝葉斯統計中,如果先驗和后驗屬于同類分布,則它們稱作共軛分布,而先驗稱作是似然函數(本例中是二項分布)的共軛先驗。

好了,數學基礎已經打好,現在我們可以扔硬幣了。別忘了我們的先驗 uniform distribution 恰好是 Be(1, 1)。

下面我們開始扔硬幣。假設扔了兩次后,得到了兩次頭像(n = m =2)。根據貝葉斯推斷,我們得到關于 θ 的更新后的后驗概率密度函數為 Be(3, 1),如下圖所示。可見由于連續看到兩次頭像面的結果,我們開始傾向于認為 θ 的取值是越接近 1 越有可能。

讓我們繼續實驗。假如我們扔了 10 次后得到 8 次正面,而扔了 20 次后得到了 11 次正面。根據這些結果,我們不斷更新 θ 的后驗分布(下圖)。 當 10 次中有 8 次正面時,我們會認為這個硬幣很有可能是不公平的,即正面和反面出現的概率不同(Be(9, 3))。而當 20 次中出現 11 次正面時,我們的認知會再次根據新的結果得到修正,我們開始認為這個硬幣可能是公平的了(Be(12, 10))。

最后,下面兩張圖是經過了 50 次(27 次正面)和 500 次(232 次正面)實驗后的 θ 的后驗分布(分別為 Be(28, 24) 和 Be(233, 269))。

隨著越來越多的新結果的出現,我們對于 θ 的不確定性的認知越來越清晰;對于 θ 的不同取值的信心越來越高。特別的,我們越來越有把握的說 θ 最有可能的取值是 0.5 附近。這體現在 500 次實驗后,θ 的后驗分布 P(θ|D) 已經非常狹窄(換句話說,θ 的取值的標準差越來越小),且集中在 0.46 附近。假如這枚硬幣確實是一枚公平的硬幣,那么如果再進行 500 此實驗,會發現 P(θ|D) 會更加狹窄且 θ 的取值一定會集中在 0.5 附近。

這個例子完美的展示了貝葉斯推斷的強大。我們一開始對未知量 θ 的猜測有非常大的不確定性(先驗是 0 到 1 的均勻分布)。隨著越來越多的觀測值(500 個實驗結果)的出現,通過迭代使用貝葉斯定理,逐步細化、完善我們對 θ 的不確定性的認知,最終得到了關于 θ 的不確定性的非常自信的后驗分布(即 θ 的分布以 0.5 為中心,標準差非常小,它最有可能的取值就是 0.5)。

貝葉斯統計是一個強大的工具;不熟悉它的人卻對其敬而遠之。下面是網上關于貝葉斯統計的一個笑話。它可能代表著很多吃瓜群眾對貝葉斯統計的看法,以及貝葉斯統計學派的自嘲:

A Bayesian is one who, vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule.

譯:一個貝葉斯學派的學者是這樣的:他模糊的期待著一匹馬(先驗),然而卻看到了一頭驢(證據),于是便自信的認為那是一頭騾子(后驗)。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深入淺出樸素貝葉斯理論
從樣本推論總體的第一人:貝葉斯
概率之本質—從主觀概率到量子貝葉斯|張天蓉專欄
什么是貝葉斯定理?有什么用?終于有人講明白了
概率論之概念解析:用貝葉斯推斷進行參數估計
沒有學不會的人工智能-概率論篇
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 京山县| 泉州市| 三门峡市| 青海省| 安康市| 正镶白旗| 珠海市| 岱山县| 新营市| 南汇区| 蓝山县| 从化市| 巴南区| 尚义县| 大石桥市| 平阳县| 老河口市| 东兴市| 砚山县| 平果县| 徐闻县| 海盐县| 五河县| 金湖县| 汾阳市| 武安市| 石嘴山市| 高尔夫| 美姑县| 兴义市| 平顶山市| 孝义市| 罗定市| 南靖县| 邢台县| 宁乡县| 常熟市| 安国市| 金川县| 连江县| 安乡县|