freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

淺議概率統(tǒng)計在語言學上應用-wenkub.com

2025-06-20 21:11 本頁面
   

【正文】 參考文獻:[1] [J], 中文信息,1996(2):5356.[2] 黃萱菁,吳立德,郭以昆,劉秉偉等,現代漢語熵的計算及語言模型中稀疏事件的概率估計[J].電子學報, , .[3] 王德進,漢語字詞的概率分布和一階熵的研究,北京航空學院學報, 1988.[4] 張仰森,曹大元,俞士汶,語言模型復雜度度量與漢語熵的估計,小型微型計算機, , .[5] 葉南,論語言表達形式與信息熵、冗余度的關系,西南民族大學學報同時我也要感謝導師組的列位老師,他們在本文寫作的過程中也給出了許多好的意見。在這里我要對他們表示真摯的謝意!首先要重點感謝我的指導老師——劉曉姍老師。學科不分軒輊,每門科學都是為人類謀求福利,都是為社會的進步和發(fā)展作自己的貢獻。因為在我看來,單純地介紹書本上的公式定理,只能體現數學的理論,卻無法反映出數學的應用性。這是我最直接的收獲,也將對我研究生階段的后續(xù)學習大有裨益,因為概率統(tǒng)計在會計學上的應用可以說是很成熟了,今后我必將受益于現在的努力。而數學,我們可以發(fā)掘其更大的潛力,對于更多的應用問題,我們都可以嘗試用數學的方法去試探,去解決。當然,數理語言學的內容不止如此,有待繼續(xù)深研。得出的結論也具有普遍應用性,在其他領域可以得到進一步拓展應用。結論以上只是對數理語言學的一小部分做了簡要分析,之所以選擇這一課題,與我大學的愛好興趣相關。假設某種語言在當前的基本詞匯保留率測得為60%,則代入計算可得.38.可以得到結論,該語言存在的絕對年代大約在三千四百年左右。這一方法的核心思想是利用詞匯的消亡速度或者保留的百分比來確定語言關系。這里引入統(tǒng)計學中的切普曼柯爾莫哥洛夫方程:設為一馬爾可夫鏈,則對任意非負整數有.我們可以得到結論,即σ值越小,作家的語言同標準語就越接近。最后得出的結論是,%,%,兩者相差了15倍。試舉一例來說明該學科的應用。因此由定義我們可以以字母出現的頻率表示概率,統(tǒng)計大量的文本,可以得到每個英文字母在文句中出現的頻率,如下所示,字母概率字母概率字母概率空格SEHGTDBOLVACKNXIMRP這一表格顯示,每個字母出現的頻率極不均勻,這一結論對密碼的破譯有重要作用。這個結果可以廣泛應用到語言教學和自然語言的處理中去。 齊普夫定律 統(tǒng)計語言學這門學科的誕生,正是源于齊普夫定律在上世紀30年代的提出。本節(jié)重點并非在于求得漢字的極限熵,而是介紹了極限熵的概念以及在未來如何更好地去求值,因為當前的條件還無法得到準確的數據。為避免復雜的統(tǒng)計及測算,這里通過英漢文本的容量對比來簡介推算。而隨著馬爾可夫鏈重數的增大,條件熵將越來越小,因此可以得到.所以可以得到 .這一式子說明,熵存在下限,當n值逐漸增大時,熵值趨于穩(wěn)定而不再減少。這里我們引用概率論知識具體給出馬爾可夫鏈的定義:設隨即序列滿足下列條件(這里N一般包括有窮或可列無窮個非負整數):1. 對每一只取非負整數值;2. 對任意非負整數及任意非負整數及,有.當上式左方有意義時,則稱該隨機序列為馬爾可夫鏈。如果在隨機試驗中,每個語言符號的出現相互獨立,那么這種鏈就是獨立鏈。而這一節(jié)將是整篇文章的核心所在,也是主題思想滲透之處。 這里應用齊普夫定律,得到 而由概率知識可以得到 .結合上兩式,可以得到 ,因此 .上式即 .n的值,即是我們要求的最大容量。 第二,隨著漢字容量的增大,非常用漢字的出現概率將進一步減小,使得熵的值減小,而此時新增加的一些非常用字使得熵增大,兩相抵消,熵的值變動不大。引用馮志偉老師的數據,得到下表: 文句長度N11521480124813525112537114294515239152漢字容量n1 1051183149115105521012371熵H(bit)0由上表可以看出,當漢字容量n比較小時,熵H隨n的擴大而迅速增大,當n達到足夠大的時候,熵H的增加變得緩慢。本文援引我國著名計算語言學家馮志偉的方法,逐漸擴大漢字容量來推敲漢字的熵。 上述簡例可以看出,字母出現概率越均勻,則信息量越大,反之則越小。信息量的單位為比特,即bit,下面試舉簡例說明。如何消除不確定性?這里我們用到概率論中的大數定律:設為一隨機序列,數學期望存在,令,若.則稱隨即序列服從大數定律。不確定性消除的程度越大,則獲取的信息量也越大。我們假設語言只有兩個符號(當然現實中不可能出現,除了計算機語言是0和1兩個符號外,任何自然語言的符號數目都是成千上萬的),并且這兩個符號的出現概率有很大區(qū)別,那么在接收者接收到這一信息之前,他可以很有把握地預測將接收到哪個符號。當我們不知道某事物的具體狀態(tài),但知道它存在幾種可能性時,可能性種類越多,則不確定性越大。本文僅截取其浩瀚精華之片斷,雖是管中窺豹,亦期掠其一斑。代數語言學對計算語言學,機器翻譯、語言信息處理學、計算機科學都有很大的貢獻,對于計算機程序語言也有一定的指導意義。建立自然語言自動處理各種方法的理論。目的是建立起語言的代數模型,把語言學的某些方面建造成類似數學那樣的演繹系統(tǒng),建立語言模型理論,從而為自然語言的信息處理提供理論基礎。更為重要的是對尋找語言背后的數理規(guī)律以及揭示各種語言形成的內在原因起到關鍵作用。 運用隨機過程論來研究語言,把語言看成彼此聯系的字母序列,前一個字母決定后一個字母的出現,于是形成一條字母鏈,叫做馬爾可夫鏈,因其最早的研究者俄國數學
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1