freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

講稿2-索引的建立(編輯修改稿)

2025-06-10 03:27 本頁面
 

【文章內容簡介】 量和頻率之間的對應關系如下:因此,在這兩個閾值之間選擇詞的時候,希望獲得信息量被最好地展現出來的那些詞。早在20世紀50年代Luhn就在Zipf定律基礎上提出詞頻統(tǒng)計標引方法,其主要步驟是:n 給定m篇文獻組成的一個集合,設第k個詞在第i篇文獻中發(fā)生的頻率fik 。n 決定該詞在整個文獻集上的發(fā)生頻率:n 按照fk的大小將詞降序排列,確定一個上截止閾值,去掉fk 大于上截止閾值的詞,確定一個下截止閾值,去掉fk 小于下截止閾值的詞。n 剩余的中頻詞用于文獻的標引。Goffman在考察了上述兩個定律之后, 認為存在一個詞由高頻行為轉為低頻行為的臨界區(qū)(critical region),只有處于臨界區(qū)內的詞才最適于描述文獻的主題。為確定臨界點,設低頻詞定律具有高頻詞特征,也就是詞頻為n的詞數接近于1 (),即每個詞具有唯一的級數,則式(74)變?yōu)椋? 上述整理式為一元二次方程,解此方程保留正平方根,得: 求得n之后,以n為臨界區(qū)的中點,以最高詞頻處為臨界區(qū)的上界,取與n到上界之間等級距離相等的另一端為臨界區(qū)的下屆,位于臨界區(qū)內的詞經過禁用詞表處理即可選為標引詞。 基于鑒別(區(qū)分)值的基本方法 鑒別值識別是指在眾多的文檔中借助某個詞來較好地識別出某個文檔的方法。也就是說,某個有較高鑒別值的詞一定出現在小數量的文檔中。出現在大多數文檔中的詞沒有鑒別力。 詞的鑒別值對于索引詞的選擇是非常重要的。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。鑒別值的計算在矢量模型中被提出。因此,我們將在下一章中詳細地介紹這個模型。在矢量模型中,每個文檔由加權的矢量來表示,例子如下: t1 t2 t3 … tndi 224。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權重。已知一個文檔集,就有了一個矩陣。一個詞的鑒別值的計算方法如下: 計算文檔集的矩心Pj=Σi Pij / N其中,Pj表示第j個詞的權重,Pij 表示在第i個文檔中第j個詞的權重 計算文檔的空間密度,也就是每個文檔和文檔集的矩心的相關性的平均值U1 = C * Σj Sim(di, V) 其中,C 是標準化常量,常取 C = 1/ N,Sim(di, V) 是文檔di 和文檔集矩心V的相關度。這里,Sim是標準化的公式,它的取值是[0,1](在矢量模型中將給出更多的介紹) 計算去掉第j個詞后的文獻空間密度,用U2表示 詞j的鑒別值定義為:DVj = U2 U1 在鑒別值的計算中,我們不能以詞的頻率為主,而是要關注詞在文檔集中的分配。在應用鑒別值時,就淘汰了功能詞,英語中如,“of”, “to” 等。 如果一個詞的區(qū)分值大于零,則用其做標引詞會使文獻間的相似度減少,使文獻空間密度降低,從而使標引效率提高, 因而設計詞權時應取較大的取值;如果一個詞的區(qū)分值小于零,則用其做標引詞會使文獻間的相似度增加,使文獻空間密度增大,從而使標引效率降低,因而設計詞權時應取較小的權值。也就是說,標引詞權重應與標引詞的區(qū)分值成正比。根據這一思想的加權函數如下: Wij =Fij *DVj詞區(qū)分值加權標引與逆文獻頻率加權標引基本上是一致的。在逆文獻頻率加權標引中,詞的文獻頻率與詞權有互逆關系;在詞區(qū)分值加權標引中,詞區(qū)分值與權值相一致。若詞的文獻頻率高,用其做標引詞會使文獻密度增大,從而使詞區(qū)分值減小;若詞的文獻頻率低,用其做標引詞會使文獻空間密度減小,從而使詞區(qū)分值增大。 因此,詞的文獻頻率與詞區(qū)分值有互逆關系,故詞區(qū)分詞加權標引中的詞權與文獻頻率存在互逆關系,或者說逆文獻頻率加權標引中的詞權與詞區(qū)分值相一致。這說明兩種標引方法在本質上是一致的。*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。Tf是指詞的頻率,idf 指倒置文檔頻率。通過tf, 進行了詞對文檔的重要性的測量,只對文檔集合中某確定的文檔有意義,通常, 這個值是由文檔中的詞的頻率確定的。通過 idf, 來測量詞的鑒別性,是對整個文檔集合而言的。這里, 給出了一些常用的 tf 和idf 公式。 tf = f(t,d), 詞t在文檔d中出現的次數;tf = f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現的最大次數;tf = log(f(t,d)) tf = log (f(t,d)+1)其中,a、 詞頻的標準化方法See Normalization,也稱為TF的歸一化:將一篇文檔中所有Term的TF值歸一化到[0,1]之間。包括:?? Maximum Normalization: ??Augmented Maximum Normalization: ?? Cosine Normalization:b、對TF進行緩沖:1+log(TF), 1+log(1+log(TF)),c、Log的作用:將值域拉平,使得函數的變化更平緩idf = log (N/n), 其中,N是文檔集中的文檔數, n是包含某個特征詞的文檔數。 其中,1+log(N/n),是對DF進行緩沖。最后,可以在值的計算中加入一些標準化的處理方式。一種形式的tf * idf的公式如下: tf * idf = [f(t,d) /MAX[f(t,d)]] * log (N/n)對tf * idf進行歸一化(TFC):降低TF的作用(LTC):tf*idf 公式 綜合考慮了兩個因素:(tf)。2. 詞的鑒別性的重要性(idf). 因此, 有較高的tf*idf 值的詞在文檔中一定是重要的, 同時它一定在其它文檔中出現很少. 這就是詞與文檔的重要特征和獨特性相對應的情況. 通過這樣的公式, 可以選擇只保留tf*idf的值超過規(guī)定的閾值的那些詞作為特征詞。 ngram索引方法ngram標引法的基本原理是以n字符串為統(tǒng)計對象,將其統(tǒng)計得分賦予該串中心字符,然后選擇包含得分超過特定閾值字符的單詞或短語作為標引詞。ngram是指n(n1)個相鄰字符序列,對一文本進行ngram處理 ,可得到該文本所包括的n長字符串的集合。如對COMPUTER進行3gram處理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER} 早在1951年,現代信息論創(chuàng)始人Shannon便用ngram進行文本壓縮的檢驗。1979年Burnett、Willet等人將這種方法引入情報檢索領域。 1995年Cohen用ngram分析法選擇被其稱為“最亮點(Highlights)”的標引詞。Cohen的ngram標引法主要包括以下幾個步驟:n 過濾文獻。無意義字符如標點符號、數字等用禁用符號替換。n 在過濾后的文獻中統(tǒng)計ngram??紤]一個長為S具有符號 s1,s2,...,ss的文本樣本,給定正整數n(典型的n值從3到6),則定義第j個ngram gj如下:gj =(sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1) 抽出文本的全部ngram之后,用一HASH表統(tǒng)計ngram。這樣,gj 便通過一容易計算的HASH函數k映射到一表地址k(gj)上。經過大量實驗,Cohen 選擇了下面的HASH函數:k(gj)= mod M其中,是不同的大質數,M是HASH表規(guī)模,Ord()給出了相應字符的數量值。在統(tǒng)計中如發(fā)現某ngram包含禁用符號,則該ngram不被統(tǒng)計。n 對文獻中發(fā)現的每個ngram,用其計數與在“背景文獻”中對應的計數比較?!氨尘拔墨I”是同被標引文獻有虛構聯系的一組文獻。假定文本樣本由ngram gj(j=1,2,...,S)組成,計數Ci(i=1,2,...,N)是等于第i個可能的ngram值的{ gj }數。在gj 相互獨立的假設下,向量變?yōu)橄旅娴亩囗検剑? 其中f是多項式密度, 是潛在概率向量。 類似地,“背景文獻”中對應的計數,總計數R=,的潛在概率向量為,則:通過對數線形聯列表分析,第i個ngram的得分為: ngram的得分越高,其特性越強。n 將ngram的得分賦予其中心字符。n 確定字符得分閾值,其中 n 抽取文獻中字符得分超過閾值的單詞,如果合適的話,將鄰近的單詞抽為短語。這些被抽出的單詞或短語即為文獻標引詞(最亮點)。n 每個被抽出的單詞或短語取其所包含字符得分的平均值為其一種特例得分。n 將抽出的單詞或短語并入一詞表,累計其各個特例得分作為該單詞或短語的總得分。n 對詞表按單詞或短語的總分排序并適當去除低分詞,便得到標引文獻的“最亮點”標引詞表。Cohen用此法不僅標引了英文文獻,而且還標引了 西班牙文、德文、格魯吉亞文、俄文、日文,取得了較好的試驗結果。其他計算方法:例如:“Party on Peter Chen’s birthday”, 統(tǒng)計學習索引法統(tǒng)計學習標引法首先通過學習過程建立候選標引詞與對其標引產生正反不同作用的促進詞和削弱詞集合之間的關系,然后由標引過程根據候選標引詞在此關系中的權值及其詞頻來確定其是否作為標引詞。這種方法由學習和標引兩個過程組成。 學習過程假設存在n個受控標引詞I1,I2,...,In 和在將處理的文獻中可能出現的m個不同
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1