正文內(nèi)容

淺議概率統(tǒng)計(jì)在語言學(xué)上應(yīng)用(編輯修改稿)

2025-07-20 21:11 本頁面

　

【文章內(nèi)容簡介】截取其浩瀚精華之片斷，雖是管中窺豹，亦期掠其一斑。主要的研究對(duì)象集中于語言和文字的熵，并重點(diǎn)討論其在信息論領(lǐng)域的重要應(yīng)用，希望從這一細(xì)小的門縫中看到概率方法的巨大效用。熵、語言的熵熵熵是物理名稱，新華字典對(duì)于熵這個(gè)字的解釋是，“科學(xué)技術(shù)上泛指某些物質(zhì)系統(tǒng)狀態(tài)的一種量度，某些物質(zhì)系統(tǒng)狀態(tài)可能出現(xiàn)的程度”。而在信息論和控制論領(lǐng)域中與熵等價(jià)的概念則分別是信息量和不確定性。當(dāng)我們不知道某事物的具體狀態(tài)，但知道它存在幾種可能性時(shí)，可能性種類越多，則不確定性越大。不確定性越大的事物，當(dāng)我們最后確定的時(shí)候，我們從中得到了越多的信息，即信息量越大。理解了熵的概念，我們也就容易去理解語言的熵這一概念了，顧名思義，即是指語言所帶信息量。語言的熵從信息論角度來看，自然語言交際的過程，可以視為語言的發(fā)送者通過媒介將信息傳輸?shù)秸Z言的接收者那里。我們假設(shè)語言只有兩個(gè)符號(hào)（當(dāng)然現(xiàn)實(shí)中不可能出現(xiàn)，除了計(jì)算機(jī)語言是0和1兩個(gè)符號(hào)外，任何自然語言的符號(hào)數(shù)目都是成千上萬的），并且這兩個(gè)符號(hào)的出現(xiàn)概率有很大區(qū)別，那么在接收者接收到這一信息之前，他可以很有把握地預(yù)測(cè)將接收到哪個(gè)符號(hào)。這時(shí)語言符號(hào)出現(xiàn)的不確定性是比較小的。反之，則不確定性很大。而接收者一旦接收到語言符號(hào)，則這種不確定性將完全消失，并且從中獲取了一定的信息量。不確定性消除的程度越大，則獲取的信息量也越大。在語言交際中，語言符號(hào)出現(xiàn)的不確定性大小，稱為語言的熵。熵的大小，取決于語言符號(hào)的數(shù)目以及出現(xiàn)的概率。只要測(cè)出了語言的熵，就可以清楚該語言所蘊(yùn)含的信息量大小。如何消除不確定性？這里我們用到概率論中的大數(shù)定律：設(shè)為一隨機(jī)序列，數(shù)學(xué)期望存在，令，若.則稱隨即序列服從大數(shù)定律。下面給出頻率穩(wěn)定于概率的伯努利大數(shù)定律證明。設(shè)為相互獨(dú)立同分布的隨機(jī)序列，且，其中則服從大數(shù)定律，即若令，則有.證因?yàn)橛汕斜妊┓虿坏仁降?，?duì)任意有故得.同理，我們可以測(cè)得某種具體文字的熵以此來衡量該文字所負(fù)荷的信息量。我們可以根據(jù)事情發(fā)生概率的大小，用下式計(jì)算信息量：式中P是收到的信息中所指事件的概率。信息量的單位為比特，即bit，下面試舉簡例說明。例1 ，分別求X和E的信息量解: ,.例2 計(jì)算一封含1000個(gè)字母的英文段落所含信息量解: 假定每個(gè)字母都以等可能性出現(xiàn)，英文字母共26個(gè)，把空白也算作一個(gè)字母，那么共有27個(gè)字母。所以每個(gè)字母出現(xiàn)的概率為。每個(gè)字母的信息量我們均可以視為 bit.拿27個(gè)字母來平均，所以10000個(gè)字母所含信息量為4760bit，如果考慮到每個(gè)字母出現(xiàn)的概率并不相同，則每個(gè)字母的平均信息量為.我們利用現(xiàn)成的字母頻率表，并代入上式計(jì)算可得bit，則1000個(gè)字母總信息量為4030bit。上述簡例可以看出，字母出現(xiàn)概率越均勻，則信息量越大，反之則越小。當(dāng)字母以等概率出現(xiàn)時(shí)，所含信息量將達(dá)到最大值，假設(shè)27個(gè)字母有26個(gè)出現(xiàn)概率為0，剩余一個(gè)為1，則熵為0。漢字的熵漢語書面語由漢字組成。與使用拼音字母的語言不同，漢字的數(shù)量巨大，而類似印歐語系中的英語、意大利語、西班牙語、俄語等語言所使用的字母數(shù)量僅僅在20到33個(gè)之間，因而要測(cè)得漢字的熵比之測(cè)定拼音文字的熵，無疑難度要大很多。本文援引我國著名計(jì)算語言學(xué)家馮志偉的方法，逐漸擴(kuò)大漢字容量來推敲漢字的熵。這里我們把漢語中的總字次稱為文句長度，文句中出現(xiàn)的不同漢字稱為漢字容量。前者用N表示，后者用n表示。由前文可知，要測(cè)出漢字的熵，就要知道漢字在句中出現(xiàn)的概率，這里我們可以認(rèn)為，漢字出現(xiàn)的頻率可以代替漢字出現(xiàn)的概率。引用馮志偉老師的數(shù)據(jù)，得到下表：文句長度N11521480124813525112537114294515239152漢字容量n1 1051183149115105521012371熵H（bit）0由上表可以看出，當(dāng)漢字容量n比較小時(shí)，熵H隨n的擴(kuò)大而迅速增大，當(dāng)n達(dá)到足夠大的時(shí)候，熵H的增加變得緩慢。這種趨勢(shì)將隨n的增大越發(fā)明顯。如何解釋這一現(xiàn)象？第一，隨著漢字容量的增大，文句中的常用漢字?jǐn)?shù)目將趨于穩(wěn)定，不再有顯著的增大。我們知道，漢字總共有八萬之巨，而常用漢字不過三千到五千，僅占到總量的百分之五。第二，隨著漢字容量的增大，非常用漢字的出現(xiàn)概率將進(jìn)一步減小，使得熵的值減小，而此時(shí)新增加的一些非常用字使得熵增大，兩相抵消，熵的值變動(dòng)不大。那么，漢字的容量究竟達(dá)到什么程度，將使熵值趨于穩(wěn)定？如何求得這一最大漢字容量？下面將用齊普夫定律來解決這一問題，而齊普夫定律在后文還將進(jìn)一步詳述，這里不再贅述。我們把文句中出現(xiàn)的詞按出現(xiàn)概率遞減的順序排列，并且依次從1（即出現(xiàn)概率最大的那個(gè)詞）到L（出現(xiàn)概率最小的那個(gè)詞）編碼，詞的出現(xiàn)概率為P，詞的號(hào)碼為r，r的取值為1到L內(nèi)的全部自然數(shù)。編表如下：詞的號(hào)碼()1 2 3 …… r……L詞的出現(xiàn)頻率() P P P……P…P隨著r的增大，對(duì)應(yīng)的P將逐漸減小。這里應(yīng)用齊普夫定律，得到而由概率知識(shí)可以得到．結(jié)合上兩式，可以得到，因此．上式即．n的值，即是我們要求的最大容量。由數(shù)學(xué)知識(shí)可以得到,式中為自然對(duì)數(shù)，為歐拉常數(shù)。由上式我們可解得 .由換底公式可得得到 ..所以得到.即漢字容量達(dá)到12366個(gè)時(shí)，漢字的熵將不再顯著增加。漢字的極限熵上一節(jié)介紹了漢字的熵，并做了簡要計(jì)算。而這一節(jié)將是整篇文章的核心所在，也是主題思想滲透之處。延續(xù)上一節(jié)思路，我

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

應(yīng)用語言學(xué)復(fù)習(xí)資料-資料下載頁

【總結(jié)】第一章應(yīng)用語言學(xué)的含義：研究語言學(xué)應(yīng)用的種種問題的學(xué)問。對(duì)應(yīng)用語言學(xué)理解有廣義和狹義兩種。狹義應(yīng)用語言學(xué)：專指語言教學(xué)，特指外語教學(xué)和第二語言教學(xué)。廣義應(yīng)用語言學(xué)：是指應(yīng)用于各種實(shí)際領(lǐng)域的語言學(xué)，即指語言學(xué)知識(shí)和研究成果所應(yīng)用的一切領(lǐng)域和方面，應(yīng)用語言學(xué)所關(guān)心的是如何應(yīng)用語言學(xué)的理論、方法和成果來闡釋其他應(yīng)用的領(lǐng)域所遇到的跟語言有關(guān)的問題。應(yīng)用語言學(xué)的特點(diǎn)：；；；。應(yīng)用語言學(xué)學(xué)科

2025-04-27 13:06

appliedlinguisticsanditsresearchmethods應(yīng)用語言學(xué)研究方法-資料下載頁

【總結(jié)】AppliedLinguisticsanditsresearchmethods（何廣鏗）AppliedLinguisticsanditsresearchmethodsnI.CourseOverviewnⅡ.TypesofResearchinFLLandFLTnⅢ.HowtoSelectaTopicforResear

2025-08-21 01:09

appliedlinguisticsanditsresearchmethods應(yīng)用語言學(xué)研究方法-資料下載頁

【總結(jié)】AppliedLinguisticsanditsresearchmethods（（何何廣廣鏗鏗））（劉喜欽）1AppliedLinguisticsanditsresearchmethods?I.CourseOverview?Ⅱ.TypesofResearchinFLLandFLT?Ⅲ.

2025-08-12 10:22

概率論與數(shù)理統(tǒng)計(jì)在電子專業(yè)的應(yīng)用-資料下載頁

【總結(jié)】概率統(tǒng)計(jì)與電子專業(yè)概率統(tǒng)計(jì)在電子專業(yè)的應(yīng)用姓名：儲(chǔ)東明學(xué)號(hào)：1305062023專業(yè)班級(jí)：電子信息工程

2025-06-24 15:15

概率統(tǒng)計(jì)認(rèn)識(shí)與應(yīng)用-資料下載頁

【總結(jié)】概率統(tǒng)計(jì)認(rèn)識(shí)與應(yīng)用摘要。拋一枚硬幣，正反兩面出現(xiàn)的機(jī)率分別是多少呢。在我們的日常生活中，許多事情都是可以用概率統(tǒng)計(jì)來進(jìn)行解釋，比如彩票、體育和天氣等，可以說概率統(tǒng)計(jì)已經(jīng)滲透并廣泛應(yīng)用于我們?nèi)粘?..

2025-09-21 23:14

應(yīng)用語言學(xué)重點(diǎn)版-資料下載頁

【總結(jié)】“應(yīng)用語言學(xué)”：（1）定義：即AppliedLinguistics，早在19c末由波蘭語言學(xué)家博杜恩德·庫爾特內(nèi)提出的；分為狹義和廣義兩種，狹義的應(yīng)用語言學(xué)特指第二語言教學(xué)，中國一般取廣義的，包括語言應(yīng)用的各個(gè)方面，范圍開放。（2）內(nèi)容：簡單地說，~是研究語言本體和本體語言學(xué)同有關(guān)方面發(fā)生關(guān)系的學(xué)科。進(jìn)一步說，~是研究語言本體和本體語言學(xué)同應(yīng)用各部分結(jié)合部、接觸面，包

2025-06-23 17:25

外日語考研真題外國語言學(xué)及應(yīng)用語言學(xué)-資料下載頁

【總結(jié)】二外日語考研真題（外國語言學(xué)及應(yīng)用語言學(xué)）

2025-01-15 02:41

二外日語考研真題外國語言學(xué)及應(yīng)用語言學(xué)-資料下載頁

【總結(jié)】二外日語考研真題（外國語言學(xué)及應(yīng)用語言學(xué)）

2025-01-10 15:05

應(yīng)用概率統(tǒng)計(jì)課后習(xí)題答案詳解-資料下載頁

【總結(jié)】習(xí)題一解答１.設(shè)Ａ、Ｂ、Ｃ表示三個(gè)隨機(jī)事件，試將下列事件用Ａ、Ｂ、Ｃ及其運(yùn)算符號(hào)表示出來：(1)Ａ發(fā)生，Ｂ、Ｃ不發(fā)生；(2)Ａ、Ｂ不都發(fā)生，Ｃ發(fā)生；(3)Ａ、Ｂ中至少有一個(gè)事件發(fā)生，但Ｃ不發(fā)生；(4)三個(gè)事件中至少有兩個(gè)事件發(fā)生；(5)三個(gè)事件中最多有兩個(gè)事件發(fā)生；(6)三個(gè)事件中只有一個(gè)事件發(fā)生．解：（1）(2)

2025-06-19 01:41

電大應(yīng)用概率統(tǒng)計(jì)試題考試小抄-資料下載頁

【總結(jié)】1應(yīng)用數(shù)學(xué)一、填空題（每小題3分，共21分）1．已知(),(),(),PAPBPAB???則??.PAB?2．設(shè)??,,XBnp且()12,()8,EXDX??則,.np??3．已知隨

2025-06-04 21:25

應(yīng)用概率統(tǒng)計(jì)課后習(xí)題解答-資料下載頁

【總結(jié)】習(xí)題二1．五張卡片上分別寫有號(hào)碼1，2，3，4，5。隨即抽取其中三張，設(shè)隨機(jī)變量X表示取出三張卡片上的最大號(hào)碼。（1）寫出X的所有可能取值；（2）求X的分布率。解：（1）顯然是：3，4，5。（2）X的分布律X345P2．下面表中列出的是否時(shí)。某個(gè)隨機(jī)變量的分布律（1）X135P

2025-03-25 01:39

應(yīng)用電子-c語言學(xué)籍管理系統(tǒng)-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(jì)（論文）題目C語言學(xué)籍管理系統(tǒng)專業(yè)應(yīng)用電子技術(shù)班次08221姓名指導(dǎo)老師成都電子機(jī)械高等?？茖W(xué)校二0一一年五月成都電子機(jī)械高等

2025-02-09 22:06

電大應(yīng)用概率統(tǒng)計(jì)復(fù)習(xí)試題資料-資料下載頁

【總結(jié)】1學(xué)生姓名：學(xué)號(hào)：專業(yè)年級(jí)：成績：一、填空題（每小題2分，本題共16分）1、設(shè)隨機(jī)變量??~1,4XN?，則??3PX???。（已知標(biāo)準(zhǔn)正態(tài)分布函數(shù)值：??????00.500,10.8413,20.9772??????）

2025-06-04 21:25

應(yīng)用語言學(xué)的研究方法-資料下載頁

【總結(jié)】應(yīng)用語言學(xué)的研究方法一、選擇課題?選擇研究課題可以從兩方面著手：?第一、從親身感受中去考慮有哪些言語現(xiàn)象值得研究。?第二、從前人的研究成果中去吸取養(yǎng)料，尋求合適的課題。二、建立假設(shè)?研究人員對(duì)要探討的社會(huì)因素與語言變異之間的聯(lián)系作出初步的判斷，這一步驟就叫做建立假設(shè)。?建立假設(shè)須特別注意以下問題：

2025-08-04 16:29

概率與統(tǒng)計(jì)的綜合應(yīng)用-資料下載頁

【總結(jié)】§概率與統(tǒng)計(jì)的綜合應(yīng)用知識(shí)精要基礎(chǔ)訓(xùn)練典例示范誤區(qū)警示方法歸納考點(diǎn)測(cè)評(píng)例題備選題型一題型二題型三題型四題型一題型二題型三題型四題型一題型二題型三題型四題型一題型二題型三題型四題型一

2025-03-19 11:29