freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺議概率統(tǒng)計(jì)在語言學(xué)上應(yīng)用(編輯修改稿)

2025-07-20 21:11 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 截取其浩瀚精華之片斷,雖是管中窺豹,亦期掠其一斑。主要的研究對(duì)象集中于語言和文字的熵,并重點(diǎn)討論其在信息論領(lǐng)域的重要應(yīng)用,希望從這一細(xì)小的門縫中看到概率方法的巨大效用。 熵、語言的熵 熵熵是物理名稱,新華字典對(duì)于熵這個(gè)字的解釋是,“科學(xué)技術(shù)上泛指某些物質(zhì)系統(tǒng)狀態(tài)的一種量度,某些物質(zhì)系統(tǒng)狀態(tài)可能出現(xiàn)的程度”。而在信息論和控制論領(lǐng)域中與熵等價(jià)的概念則分別是信息量和不確定性。當(dāng)我們不知道某事物的具體狀態(tài),但知道它存在幾種可能性時(shí),可能性種類越多,則不確定性越大。不確定性越大的事物,當(dāng)我們最后確定的時(shí)候,我們從中得到了越多的信息,即信息量越大。理解了熵的概念,我們也就容易去理解語言的熵這一概念了,顧名思義,即是指語言所帶信息量。 語言的熵從信息論角度來看,自然語言交際的過程,可以視為語言的發(fā)送者通過媒介將信息傳輸?shù)秸Z言的接收者那里。我們假設(shè)語言只有兩個(gè)符號(hào)(當(dāng)然現(xiàn)實(shí)中不可能出現(xiàn),除了計(jì)算機(jī)語言是0和1兩個(gè)符號(hào)外,任何自然語言的符號(hào)數(shù)目都是成千上萬的),并且這兩個(gè)符號(hào)的出現(xiàn)概率有很大區(qū)別,那么在接收者接收到這一信息之前,他可以很有把握地預(yù)測(cè)將接收到哪個(gè)符號(hào)。這時(shí)語言符號(hào)出現(xiàn)的不確定性是比較小的。反之,則不確定性很大。而接收者一旦接收到語言符號(hào),則這種不確定性將完全消失,并且從中獲取了一定的信息量。不確定性消除的程度越大,則獲取的信息量也越大。在語言交際中,語言符號(hào)出現(xiàn)的不確定性大小,稱為語言的熵。熵的大小,取決于語言符號(hào)的數(shù)目以及出現(xiàn)的概率。只要測(cè)出了語言的熵,就可以清楚該語言所蘊(yùn)含的信息量大小。如何消除不確定性?這里我們用到概率論中的大數(shù)定律:設(shè)為一隨機(jī)序列,數(shù)學(xué)期望存在,令,若.則稱隨即序列服從大數(shù)定律。下面給出頻率穩(wěn)定于概率的伯努利大數(shù)定律證明。設(shè)為相互獨(dú)立同分布的隨機(jī)序列,且,其中則服從大數(shù)定律,即若令,則有.證 因?yàn)橛汕斜妊┓虿坏仁降?,?duì)任意有故得.同理,我們可以測(cè)得某種具體文字的熵以此來衡量該文字所負(fù)荷的信息量。我們可以根據(jù)事情發(fā)生概率的大小,用下式計(jì)算信息量:式中P是收到的信息中所指事件的概率。信息量的單位為比特,即bit,下面試舉簡(jiǎn)例說明。例1 ,分別求X和E的信息量解: ,.例2 計(jì)算一封含1000個(gè)字母的英文段落所含信息量 解: 假定每個(gè)字母都以等可能性出現(xiàn),英文字母共26個(gè),把空白也算作一個(gè)字母,那么共有27個(gè)字母。所以每個(gè)字母出現(xiàn)的概率為。每個(gè)字母的信息量我們均可以視為 bit.拿27個(gè)字母來平均,所以10000個(gè)字母所含信息量為4760bit,如果考慮到每個(gè)字母出現(xiàn)的概率并不相同,則每個(gè)字母的平均信息量為.我們利用現(xiàn)成的字母頻率表,并代入上式計(jì)算可得bit,則1000個(gè)字母總信息量為4030bit。 上述簡(jiǎn)例可以看出,字母出現(xiàn)概率越均勻,則信息量越大,反之則越小。當(dāng)字母以等概率出現(xiàn)時(shí),所含信息量將達(dá)到最大值,假設(shè)27個(gè)字母有26個(gè)出現(xiàn)概率為0,剩余一個(gè)為1,則熵為0。 漢字的熵漢語書面語由漢字組成。與使用拼音字母的語言不同,漢字的數(shù)量巨大,而類似印歐語系中的英語、意大利語、西班牙語、俄語等語言所使用的字母數(shù)量?jī)H僅在20到33個(gè)之間,因而要測(cè)得漢字的熵比之測(cè)定拼音文字的熵,無疑難度要大很多。本文援引我國(guó)著名計(jì)算語言學(xué)家馮志偉的方法,逐漸擴(kuò)大漢字容量來推敲漢字的熵。這里我們把漢語中的總字次稱為文句長(zhǎng)度,文句中出現(xiàn)的不同漢字稱為漢字容量。前者用N表示,后者用n表示。由前文可知,要測(cè)出漢字的熵,就要知道漢字在句中出現(xiàn)的概率,這里我們可以認(rèn)為,漢字出現(xiàn)的頻率可以代替漢字出現(xiàn)的概率。引用馮志偉老師的數(shù)據(jù),得到下表: 文句長(zhǎng)度N11521480124813525112537114294515239152漢字容量n1 1051183149115105521012371熵H(bit)0由上表可以看出,當(dāng)漢字容量n比較小時(shí),熵H隨n的擴(kuò)大而迅速增大,當(dāng)n達(dá)到足夠大的時(shí)候,熵H的增加變得緩慢。這種趨勢(shì)將隨n的增大越發(fā)明顯。如何解釋這一現(xiàn)象?第一,隨著漢字容量的增大,文句中的常用漢字?jǐn)?shù)目將趨于穩(wěn)定,不再有顯著的增大。我們知道,漢字總共有八萬之巨,而常用漢字不過三千到五千,僅占到總量的百分之五。 第二,隨著漢字容量的增大,非常用漢字的出現(xiàn)概率將進(jìn)一步減小,使得熵的值減小,而此時(shí)新增加的一些非常用字使得熵增大,兩相抵消,熵的值變動(dòng)不大。 那么,漢字的容量究竟達(dá)到什么程度,將使熵值趨于穩(wěn)定?如何求得這一最大漢字容量?下面將用齊普夫定律來解決這一問題,而齊普夫定律在后文還將進(jìn)一步詳述,這里不再贅述。 我們把文句中出現(xiàn)的詞按出現(xiàn)概率遞減的順序排列,并且依次從1(即出現(xiàn)概率最大的那個(gè)詞)到L(出現(xiàn)概率最小的那個(gè)詞)編碼,詞的出現(xiàn)概率為P,詞的號(hào)碼為r,r的取值為1到L內(nèi)的全部自然數(shù)。編表如下:詞的號(hào)碼()1 2 3 …… r……L詞的出現(xiàn)頻率() P P P……P…P隨著r的增大,對(duì)應(yīng)的P將逐漸減小。 這里應(yīng)用齊普夫定律,得到 而由概率知識(shí)可以得到 .結(jié)合上兩式,可以得到 ,因此 .上式即 .n的值,即是我們要求的最大容量。由數(shù)學(xué)知識(shí)可以得到,式中為自然對(duì)數(shù),為歐拉常數(shù)。由上式我們可解得 .由換底公式可得 得到 ..所以得到.即漢字容量達(dá)到12366個(gè)時(shí),漢字的熵將不再顯著增加。 漢字的極限熵上一節(jié)介紹了漢字的熵,并做了簡(jiǎn)要計(jì)算。而這一節(jié)將是整篇文章的核心所在,也是主題思想滲透之處。延續(xù)上一節(jié)思路,我
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1