2025年12月18日 星期四

馬可夫鏈 (Markov Chain) 的誕生,其實源自於對普希金詩作的統計分析。

這是一個數學與文學交會的有趣歷史時刻。簡單來說,俄國數學家安德烈·馬可夫 (Andrey Markov) 為了證明機率論中的一個理論,並非使用骰子或硬幣,而是拿了俄國文豪普希金的經典名作《葉甫蓋尼·奧涅金》(Eugene Onegin) 來當作「大數據」分析的素材。

以下是兩者關連的詳細故事:

1. 為了反駁而誕生的研究

在 20 世紀初,數學界存在一場關於「大數法則」(Law of Large Numbers) 的爭論。當時的數學家(如涅克拉索夫)普遍認為,大數法則要成立,事件之間必須是獨立的(例如丟硬幣,這次是正面並不影響下次是反面)。

馬可夫不同意這個觀點。他認為即使事件之間有依賴關係(今天的結果會影響明天),大數法則依然可能成立。為了證明這點,他需要一個「事件之間互相關聯」的實際數據集來驗證。

2. 普希金的《葉甫蓋尼·奧涅金》成為數據庫

1913 年,馬可夫挑選了普希金的韻文小說《葉甫蓋尼·奧涅金》的前兩萬個字母作為樣本。他做了一件在當時看起來很瘋狂、但現在看起來就是「自然語言處理 (NLP)」雛形的工作:

* 數據清洗:他刪除了所有的標點符號和空格,將這首長詩變成一串連續的字母序列。

* 分類:他將字母分為兩類——母音 (Vowels) 和 子音 (Consonants)。

* 統計轉移機率:他不僅計算了母音和子音出現的總頻率,更重要的是計算了**「接龍」的機率**:

* 如果前一個字是母音,下一個字是母音的機率是多少?

* 如果前一個字是子音,下一個字是母音的機率是多少?

3. 研究發現:文字是有記憶的

馬可夫發現,普希金的詩句中,字母的出現並非隨機獨立:

* 整體而言,母音出現的機率約為 43%。

* 但在「前一個字母是母音」的條件下,下一個字母也是母音的機率驟降至約 13%。

* 而在「前一個字母是子音」的條件下,下一個字母是母音的機率則高達 66%。

這證明了**「下一個狀態(字母)的機率,取決於當前狀態(前一個字母)」**。這就是馬可夫鏈的核心定義——無記憶性 (Memorylessness) 的有限延伸(只看當下,不看更早的歷史,但當下會影響未來)。

結論

這項研究被認為是馬可夫鏈的第一個應用實例。

* 普希金的詩提供了數據,證明了文字序列中前後字母存在統計上的依賴性。

* 馬可夫利用這個現象,將數學模型從「獨立事件」拓展到了「隨機過程」,這不僅開啟了現代隨機過程的研究,也成為了後來 Google PageRank 演算法、語音識別、以及現代大型語言模型(LLM)的鼻祖。

所以,當我們現在使用 ChatGPT 預測下一個字時,某種程度上都要感謝百年前那位數著普希金詩句中母音與子音的數學家。

沒有留言: