freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

講稿2-索引的建立-文庫吧在線文庫

2025-06-16 03:27上一頁面

下一頁面
  

【正文】 二位的詞語:%,%。信息量是指對詞所蘊含含義的質量的測量。為確定臨界點,設低頻詞定律具有高頻詞特征,也就是詞頻為n的詞數(shù)接近于1 (),即每個詞具有唯一的級數(shù),則式(74)變?yōu)椋? 上述整理式為一元二次方程,解此方程保留正平方根,得: 求得n之后,以n為臨界區(qū)的中點,以最高詞頻處為臨界區(qū)的上界,取與n到上界之間等級距離相等的另一端為臨界區(qū)的下屆,位于臨界區(qū)內的詞經(jīng)過禁用詞表處理即可選為標引詞。在矢量模型中,每個文檔由加權的矢量來表示,例子如下: t1 t2 t3 … tndi 224。根據(jù)這一思想的加權函數(shù)如下: Wij =Fij *DVj詞區(qū)分值加權標引與逆文獻頻率加權標引基本上是一致的。通過 idf, 來測量詞的鑒別性,是對整個文檔集合而言的。 ngram索引方法ngram標引法的基本原理是以n字符串為統(tǒng)計對象,將其統(tǒng)計得分賦予該串中心字符,然后選擇包含得分超過特定閾值字符的單詞或短語作為標引詞??紤]一個長為S具有符號 s1,s2,...,ss的文本樣本,給定正整數(shù)n(典型的n值從3到6),則定義第j個ngram gj如下:gj =(sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1) 抽出文本的全部ngram之后,用一HASH表統(tǒng)計ngram。 類似地,“背景文獻”中對應的計數(shù),總計數(shù)R=,的潛在概率向量為,則:通過對數(shù)線形聯(lián)列表分析,第i個ngram的得分為: ngram的得分越高,其特性越強。其他計算方法:例如:“Party on Peter Chen’s birthday”, 統(tǒng)計學習索引法統(tǒng)計學習標引法首先通過學習過程建立候選標引詞與對其標引產生正反不同作用的促進詞和削弱詞集合之間的關系,然后由標引過程根據(jù)候選標引詞在此關系中的權值及其詞頻來確定其是否作為標引詞。通過這一步,便可得到兩個zscore表,此表描述了在Ij 的肯定訓練集合和否定訓練集合中的單詞的統(tǒng)計分布。Rj可用加權向量描述: Rj = {wj1,wj2,...,wjm}其中,wjk 為在關系Rj中第k個詞的權重,m 為肯定及否定訓練集合中不同單詞數(shù)。到目前為止,概率標引法所依據(jù)的概率主要有相關概率,決策概率和出現(xiàn)概率。句法分析法從文獻的標題出發(fā),分析其內在結構,其假設是文章的標題是可以基本反映文章的主要內容。學術界對從語言學角度研究自動標引的做法頗有爭議,反對者的主要理由包括:語言法的使用限制多、語言學領域的研究成果對促進自動發(fā)展幫助甚微等6 人工智能索引法人工智能是計算機科學的一個分支,它專門研究怎樣用機器理解和模擬人類特有的智能系統(tǒng)的活動,探索人們如何運用已有的知識、經(jīng)驗和技能去解決問題。7 漢語自動索引我國研究人員60年代初開始關注自動標引的研究動向,70年代末開始探索漢語文獻自動標引問題,他們在TK 70計算機上建立了一個試驗系統(tǒng),借助詞典對文獻題名進行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關鍵詞輸出 蘇新寧. 漢語文獻自動標引綜析 . 情報學報,1993(2):92~99。 切分標記法 切分標記法是將能夠斷開句子或表示漢字之間關系的漢字集合組成切分標記機內字典。切分的原則是有聯(lián)系則取,無聯(lián)系則斷。由于漢字構詞具有極大的靈活性,漢語詞性缺乏嚴格的規(guī)定性,漢語詞匯沒有嚴格的形態(tài)變化,再加上漢語文獻作者使用語言的多樣性和不規(guī)范性,造成同一主題可以有多種表達方式,一種表達方式在不同的語境中可以表達多個主題。單漢字標引和檢索的基本過程中,標引時計算機對處理的文本逐一抽字,經(jīng)過一些處理(如去掉無意義的虛字)后,建立索引文件。這是常用的方法。系統(tǒng)所使用的列表是變化的. 這取決于應用領域。去掉這些詞的結尾部分,保留根部,它們會有相同的形式。這個算法被當作一個典型的算法。 如果不存在,不能進行轉換。 借助于這種種類識別結構,可以將單詞轉換成標準形式。使用的方法一般有統(tǒng)計法、信息論法和概率法。在下一章中, 我們將介紹一些傳統(tǒng)的信息檢索模型。 索引器可以使用集中式索引算法或分布式索引算法。這個詞及其權重的集合用來構成文檔內容的表示。 正確的語法種類識別。例如,我們應用規(guī)則:將以 ation結尾的詞替換為er結尾,transformation 224。如,在某些形容詞后加入ness,happiness, 在動詞后加入able, adjustable。比如下面的詞在意思上是相近的:transformer, transforme, transforment, transformation, transformateur, … 這些詞之間形式的不同對于信息檢索是不利的。但又不想把它們作為索引詞,因為它們沒有實際意義。它也可以是一種公式tf * idf。目前漢語自動標引專家系統(tǒng)只處在初期的試驗階段,遠未達到實用水平。如:科技文獻的標題和文摘中的句型種類較為有限,如“本文討論了……”等,幾乎出現(xiàn)在每一篇文獻中,而這些句子對自動標引來說則非常重要,因為這些句型正是表達文獻主題內容的句型。吳蔚天、田鶴卿先生提出的實現(xiàn)漢字科技文獻自動標引的非用字后綴法是一個典型的切分標記法。但是詞典的構造困難,詞典的維護也需要付出相當大的代價,并且是永無盡頭的。其中具有代表性的有:基于產生式表示法的JAKS系統(tǒng)、基于語義網(wǎng)絡表示法的WorldViews、MedIndEx系統(tǒng)和漢語自動標引專家系統(tǒng)DIES DIES (Document Indexing Expert System ) 是北京文獻服務處開發(fā)的一個試驗系統(tǒng)。但是這種方法在主題名稱的范疇分析及主題標目的選擇等方面需要較多的人工干預,影響了其自動標引效率?;诔霈F(xiàn)概率的標引方法是根據(jù)詞在文獻中的出現(xiàn)頻次所服從的概率分布的特征來選擇標引詞,如2—Poisson模型。在前一步計算的關系Rj 基礎上,我們分別計算肯定訓練集合和否定訓練集合中的平均標引值。選擇促進詞和削弱詞的方法描述如下。 (1) 匯集肯定和否定訓練(Training)集合 對一特定標引詞Ij,一些由Ij標引的文獻被匯集起來(當然,這些文獻事先由標引員標引),這些文獻稱為Ij 的肯定訓練集合。n 每個被抽出的單詞或短語取其所包含字符得分的平均值為其一種特例得分。n 對文獻中發(fā)現(xiàn)的每個ngram,用其計數(shù)與在“背景文獻”中對應的計數(shù)比較。 1995年Cohen用ngram分析法選擇被其稱為“最亮點(Highlights)”的標引詞。 其中,1+log(N/n),是對DF進行緩沖。這說明兩種標引方法在本質上是一致的。這里,Sim是標準化的公式,它的取值是[0,1](在矢量模型中將給出更多的介紹) 計算去掉第j個詞后的文獻空間密度,用U2表示 詞j的鑒別值定義為:DVj = U2 U1 在鑒別值的計算中,我們不能以詞的頻率為主,而是要關注詞在文檔集中的分配。 詞的鑒別值對于索引詞的選擇是非常重要的。早在20世紀50年代Luhn就在Zipf定律基礎上提出詞頻統(tǒng)計標引方法,其主要步驟是:n 給定m篇文獻組成的一個集合,設第k個詞在第i篇文獻中發(fā)生的頻率fik 。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即Zipf第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式(74)所示: (74)這兩個完全不同的定律刻畫了文本中詞分布的兩個極端情況。齊普夫定律是描述一系列實際現(xiàn)象的特點非常到位的經(jīng)驗定律之一。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設來選擇索引詞:某詞在文獻中的出現(xiàn)頻率與該詞的文獻區(qū)分功能有密切關系。表示“文獻具有標引詞t與 t’”的信息量等于兩個標引詞信息量之和減去“文獻具有標引詞t或t’”的信息量。在計算這種信息的信息量時,最樸素的思想是信息的外延越大,其內涵越弱,信息量越?。环粗?,信息的外延越窄,其內涵越強,信息量越大。 文獻空間密度與標引性能之間存在著密切聯(lián)系,二者存在互逆性。由于上述原因,我們考慮使用聚類文獻空間。若余弦值為1,則夾角為零,則兩篇文獻完全重合,即相等。FASIT法就是一種典型的基于概念的賦詞標引方法,F(xiàn)ASIT法的實現(xiàn)過程是:對文獻中與其主題相關的詞或短語賦予一定的句法范疇或幾個范疇的組合,并給出相應的標記;然后采用與上下文相關的消除歧義規(guī)則,消除多重標記詞的歧義性;最后利用一個概念形式詞典進行概念選擇,選出的概念經(jīng)規(guī)范化處理后,計算其與其他概念之間的關聯(lián)度,進而將統(tǒng)一概念進行概念歸類,最終以概念類來標引文獻。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標引詞賦予某文獻這一決策事件正確性概率)的一種賦詞標引方法。例如,Baxendale在1985年提出了對段落主題句抽詞的思想,認為只需對每段文本的第一個和最后一個句子進行處理。選取標引詞的原則在文本的計算機處理中,計算詞在一篇文獻中出現(xiàn)的頻率并不是唯一的方法(tf),有時考察詞在整個文獻庫中出現(xiàn)的頻率可能更重要(df,idf)。選擇標引詞的分界點可根據(jù)下面幾種標準來確定:詞的絕對數(shù)、與文本長度有關的數(shù)、詞頻超過一定閾值的詞數(shù)。首先,介紹自動索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計標引法、ngram標引法和概率標引、基于語言規(guī)則與內容的索引:句法分析標引法、語義分析標引法和基于概念的標引法、
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1