【正文】
=tg(ππ/4)lnr+lnk 一、齊普夫的前期研究工作 rknr ?2022/6/3 20 ? (一 )齊普夫定律的表述 ? 設(shè)有一包含 N個詞 (詞匯數(shù) )的文獻(xiàn) (N≥5000), 統(tǒng)計其中每個詞出現(xiàn)的頻次 (n), 按頻次遞減的順序等級降序排列 , 并用自然數(shù)給予相應(yīng)的等級序號 ( r) ,則每個詞的等級序號 ( r) 與相應(yīng)的頻次 ( nr ) 之積為一常數(shù) 。 二、 Zipf定律 rknkrnrr ??? 或詞頻統(tǒng)計表 詞的等級序號( r) 詞出現(xiàn)的頻次( nr) 1 n1 2 n2 3 n3 … … … … r nr … … … … D nD 2022/6/3 22 以 Rondld E. Wyllys: Empirical and Theoretical Bases of Zipf’ s Law(齊普夫定律的經(jīng)驗根據(jù)與理論基礎(chǔ))前兩段作為詞頻分布的統(tǒng)計對象,該文如下: Introduction One of the most puzzling phenomena in bibliometrics and, more broadly, in quantitative linguistics is Zipf’ s law. As one mentator, the statistician Gustav Herdan, has put it:“ Mathematicians believe in it (Zipf’ s law) because they think that linguists have established it to be a linguistic law, and linguists believe in it because they, on their part, think that mathematicians have established it to be a mathematical law.” Let us start by considering a basic form of Zipf’ s law. Suppose one has a natural language corpus, ., a book written in English. Next, suppose one makes a frequency count of the words in the corpus, ., counts the number of occurrences of the, and, of, etc. Finally, suppose one arranges the words in decreasing order of frequency so that the most frequent word has rank 1。 the next most frequency, rank 2。 and so on. 2022/6/3 23 對 75個單詞的出現(xiàn)頻次的統(tǒng)計 單詞 頻次 the 9 in, of 7 a, one 6 Law 5 and, it 4 Zipf’ s, suppose, that 3 21個詞 2 43個詞 1 單詞 頻次 ( nr) 等級 ( r ) 乘積 ( nrr ) the 9 1 9 in, of 7 23,平均 a, one 6 45,平均 law 5 6 and, it 4 78平均 suppose, that,Zipf’ s 3 911,平均 21個單詞 2 1232,平均 43個單詞 1 3375,平均 高頻詞 低語義詞 nr r lnnr lnr nr=k/r 如果以等級序號 r 為橫軸 , 詞頻 nr 為縱軸 , 其分布圖形為一等軸雙曲線 。 如果以等級序號 r 的對數(shù)為橫軸,詞頻 nr 的對數(shù)為縱軸,其分布圖形為一直線。直線的斜率約為 1。 齊普夫定律的圖像描述 Linear scales on both axes Logarithmic scales on both axes 2022/6/3 27 設(shè) N’ 為總詞次數(shù) , fr為等級為 r 的詞出現(xiàn)的頻率 , 則有如下關(guān)系 fr=nr/N’ 對于 fr=cr1, (二 ) 參數(shù) c 值的推論 ???????????DrDrDrrrcrcf1111111)5 7 7 (ln13121111??????????????為歐拉常數(shù),DDrDr??? 對于上式,當(dāng) D (最末一級詞的等級序號)比較大時, ? 當(dāng)取 D 為一定數(shù)值時 , 計算其對應(yīng)的 c 值: D c 5000 10000 50000 100000 ? 可以認(rèn)為 c≈。但后經(jīng)大量的研究證實,在詞的中頻區(qū),c(即等級序號為 1的出現(xiàn)頻詞最高的詞的詞頻)。 ??? Dc ln12022/6/3 29 (三 )對 Zipf 定律的幾點(diǎn)討論 ? 1. 高頻詞作用的局限性 高頻詞區(qū) 低頻詞區(qū) 中頻詞區(qū) 英語、拉丁語的詞頻分布 ? 2. 同頻詞的排序 單詞 頻次 隨機(jī)排序 nrr 均值排序 nrr 最大排序 nrr the 9 1 9 1 9 1 9 in, of 7 23 14, 21 3 21 a, one 6 45 24, 30 5 30 law 5 6 30 6 6 30 and, it 4 78 28, 32 8 32 suppose,that,Zipf’ s 3 911 27, 30,33 11 33 21個單詞 2 1232 24…64 32 64 43個單詞 1 3375 33…75 75 75 單詞 頻次 隨機(jī)排序 nrr the 9 1 9 In of 7 7 2 3 14 14 A one 6 6 4 5 24 24 law 5 6 30 And it 4 4 7 8 28 32 Suppose That Zipf’ s 3 3 3 9 10 11 27 30 33 21個單詞 2 1232 24…64 43個單詞 1 3375 33…75 在 隨機(jī)排序 中,同頻詞的出現(xiàn)將隨詞頻的降低而增多,產(chǎn)生“階梯”狀圖形。試驗證明:當(dāng)15r1500時,同頻詞不多;當(dāng) r1500時,大量的同頻詞出現(xiàn)。 因同頻詞存在,低頻詞區(qū)呈階梯狀分布。而采用其他排序方法則不存在階梯狀分布。 詞頻相同 ( lnnr) 序號遞增 ( lnr) lnnr lnr 2022/6/3 33