freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-文庫吧在線文庫

2025-06-16 03:27上一頁面

下一頁面
  

【正文】 二位的詞語:%,%。信息量是指對(duì)詞所蘊(yùn)含含義的質(zhì)量的測(cè)量。為確定臨界點(diǎn),設(shè)低頻詞定律具有高頻詞特征,也就是詞頻為n的詞數(shù)接近于1 (),即每個(gè)詞具有唯一的級(jí)數(shù),則式(74)變?yōu)椋? 上述整理式為一元二次方程,解此方程保留正平方根,得: 求得n之后,以n為臨界區(qū)的中點(diǎn),以最高詞頻處為臨界區(qū)的上界,取與n到上界之間等級(jí)距離相等的另一端為臨界區(qū)的下屆,位于臨界區(qū)內(nèi)的詞經(jīng)過禁用詞表處理即可選為標(biāo)引詞。在矢量模型中,每個(gè)文檔由加權(quán)的矢量來表示,例子如下: t1 t2 t3 … tndi 224。根據(jù)這一思想的加權(quán)函數(shù)如下: Wij =Fij *DVj詞區(qū)分值加權(quán)標(biāo)引與逆文獻(xiàn)頻率加權(quán)標(biāo)引基本上是一致的。通過 idf, 來測(cè)量詞的鑒別性,是對(duì)整個(gè)文檔集合而言的。 ngram索引方法ngram標(biāo)引法的基本原理是以n字符串為統(tǒng)計(jì)對(duì)象,將其統(tǒng)計(jì)得分賦予該串中心字符,然后選擇包含得分超過特定閾值字符的單詞或短語作為標(biāo)引詞??紤]一個(gè)長(zhǎng)為S具有符號(hào) s1,s2,...,ss的文本樣本,給定正整數(shù)n(典型的n值從3到6),則定義第j個(gè)ngram gj如下:gj =(sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1) 抽出文本的全部ngram之后,用一HASH表統(tǒng)計(jì)ngram。 類似地,“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù),總計(jì)數(shù)R=,的潛在概率向量為,則:通過對(duì)數(shù)線形聯(lián)列表分析,第i個(gè)ngram的得分為: ngram的得分越高,其特性越強(qiáng)。其他計(jì)算方法:例如:“Party on Peter Chen’s birthday”, 統(tǒng)計(jì)學(xué)習(xí)索引法統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法首先通過學(xué)習(xí)過程建立候選標(biāo)引詞與對(duì)其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系,然后由標(biāo)引過程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來確定其是否作為標(biāo)引詞。通過這一步,便可得到兩個(gè)zscore表,此表描述了在Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計(jì)分布。Rj可用加權(quán)向量描述: Rj = {wj1,wj2,...,wjm}其中,wjk 為在關(guān)系Rj中第k個(gè)詞的權(quán)重,m 為肯定及否定訓(xùn)練集合中不同單詞數(shù)。到目前為止,概率標(biāo)引法所依據(jù)的概率主要有相關(guān)概率,決策概率和出現(xiàn)概率。句法分析法從文獻(xiàn)的標(biāo)題出發(fā),分析其內(nèi)在結(jié)構(gòu),其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。學(xué)術(shù)界對(duì)從語言學(xué)角度研究自動(dòng)標(biāo)引的做法頗有爭(zhēng)議,反對(duì)者的主要理由包括:語言法的使用限制多、語言學(xué)領(lǐng)域的研究成果對(duì)促進(jìn)自動(dòng)發(fā)展幫助甚微等6 人工智能索引法人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動(dòng),探索人們?nèi)绾芜\(yùn)用已有的知識(shí)、經(jīng)驗(yàn)和技能去解決問題。7 漢語自動(dòng)索引我國研究人員60年代初開始關(guān)注自動(dòng)標(biāo)引的研究動(dòng)向,70年代末開始探索漢語文獻(xiàn)自動(dòng)標(biāo)引問題,他們?cè)赥K 70計(jì)算機(jī)上建立了一個(gè)試驗(yàn)系統(tǒng),借助詞典對(duì)文獻(xiàn)題名進(jìn)行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 蘇新寧. 漢語文獻(xiàn)自動(dòng)標(biāo)引綜析 . 情報(bào)學(xué)報(bào),1993(2):92~99。 切分標(biāo)記法 切分標(biāo)記法是將能夠斷開句子或表示漢字之間關(guān)系的漢字集合組成切分標(biāo)記機(jī)內(nèi)字典。切分的原則是有聯(lián)系則取,無聯(lián)系則斷。由于漢字構(gòu)詞具有極大的靈活性,漢語詞性缺乏嚴(yán)格的規(guī)定性,漢語詞匯沒有嚴(yán)格的形態(tài)變化,再加上漢語文獻(xiàn)作者使用語言的多樣性和不規(guī)范性,造成同一主題可以有多種表達(dá)方式,一種表達(dá)方式在不同的語境中可以表達(dá)多個(gè)主題。單漢字標(biāo)引和檢索的基本過程中,標(biāo)引時(shí)計(jì)算機(jī)對(duì)處理的文本逐一抽字,經(jīng)過一些處理(如去掉無意義的虛字)后,建立索引文件。這是常用的方法。系統(tǒng)所使用的列表是變化的. 這取決于應(yīng)用領(lǐng)域。去掉這些詞的結(jié)尾部分,保留根部,它們會(huì)有相同的形式。這個(gè)算法被當(dāng)作一個(gè)典型的算法。 如果不存在,不能進(jìn)行轉(zhuǎn)換。 借助于這種種類識(shí)別結(jié)構(gòu),可以將單詞轉(zhuǎn)換成標(biāo)準(zhǔn)形式。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。在下一章中, 我們將介紹一些傳統(tǒng)的信息檢索模型。 索引器可以使用集中式索引算法或分布式索引算法。這個(gè)詞及其權(quán)重的集合用來構(gòu)成文檔內(nèi)容的表示。 正確的語法種類識(shí)別。例如,我們應(yīng)用規(guī)則:將以 ation結(jié)尾的詞替換為er結(jié)尾,transformation 224。如,在某些形容詞后加入ness,happiness, 在動(dòng)詞后加入able, adjustable。比如下面的詞在意思上是相近的:transformer, transforme, transforment, transformation, transformateur, … 這些詞之間形式的不同對(duì)于信息檢索是不利的。但又不想把它們作為索引詞,因?yàn)樗鼈儧]有實(shí)際意義。它也可以是一種公式tf * idf。目前漢語自動(dòng)標(biāo)引專家系統(tǒng)只處在初期的試驗(yàn)階段,遠(yuǎn)未達(dá)到實(shí)用水平。如:科技文獻(xiàn)的標(biāo)題和文摘中的句型種類較為有限,如“本文討論了……”等,幾乎出現(xiàn)在每一篇文獻(xiàn)中,而這些句子對(duì)自動(dòng)標(biāo)引來說則非常重要,因?yàn)檫@些句型正是表達(dá)文獻(xiàn)主題內(nèi)容的句型。吳蔚天、田鶴卿先生提出的實(shí)現(xiàn)漢字科技文獻(xiàn)自動(dòng)標(biāo)引的非用字后綴法是一個(gè)典型的切分標(biāo)記法。但是詞典的構(gòu)造困難,詞典的維護(hù)也需要付出相當(dāng)大的代價(jià),并且是永無盡頭的。其中具有代表性的有:基于產(chǎn)生式表示法的JAKS系統(tǒng)、基于語義網(wǎng)絡(luò)表示法的WorldViews、MedIndEx系統(tǒng)和漢語自動(dòng)標(biāo)引專家系統(tǒng)DIES DIES (Document Indexing Expert System ) 是北京文獻(xiàn)服務(wù)處開發(fā)的一個(gè)試驗(yàn)系統(tǒng)。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù),影響了其自動(dòng)標(biāo)引效率?;诔霈F(xiàn)概率的標(biāo)引方法是根據(jù)詞在文獻(xiàn)中的出現(xiàn)頻次所服從的概率分布的特征來選擇標(biāo)引詞,如2—Poisson模型。在前一步計(jì)算的關(guān)系Rj 基礎(chǔ)上,我們分別計(jì)算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。選擇促進(jìn)詞和削弱詞的方法描述如下。 (1) 匯集肯定和否定訓(xùn)練(Training)集合 對(duì)一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(當(dāng)然,這些文獻(xiàn)事先由標(biāo)引員標(biāo)引),這些文獻(xiàn)稱為Ij 的肯定訓(xùn)練集合。n 每個(gè)被抽出的單詞或短語取其所包含字符得分的平均值為其一種特例得分。n 對(duì)文獻(xiàn)中發(fā)現(xiàn)的每個(gè)ngram,用其計(jì)數(shù)與在“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)比較。 1995年Cohen用ngram分析法選擇被其稱為“最亮點(diǎn)(Highlights)”的標(biāo)引詞。 其中,1+log(N/n),是對(duì)DF進(jìn)行緩沖。這說明兩種標(biāo)引方法在本質(zhì)上是一致的。這里,Sim是標(biāo)準(zhǔn)化的公式,它的取值是[0,1](在矢量模型中將給出更多的介紹) 計(jì)算去掉第j個(gè)詞后的文獻(xiàn)空間密度,用U2表示 詞j的鑒別值定義為:DVj = U2 U1 在鑒別值的計(jì)算中,我們不能以詞的頻率為主,而是要關(guān)注詞在文檔集中的分配。 詞的鑒別值對(duì)于索引詞的選擇是非常重要的。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計(jì)標(biāo)引方法,其主要步驟是:n 給定m篇文獻(xiàn)組成的一個(gè)集合,設(shè)第k個(gè)詞在第i篇文獻(xiàn)中發(fā)生的頻率fik 。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即Zipf第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式(74)所示: (74)這兩個(gè)完全不同的定律刻畫了文本中詞分布的兩個(gè)極端情況。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞:某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。在計(jì)算這種信息的信息量時(shí),最樸素的思想是信息的外延越大,其內(nèi)涵越弱,信息量越??;反之,信息的外延越窄,其內(nèi)涵越強(qiáng),信息量越大。 文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。由于上述原因,我們考慮使用聚類文獻(xiàn)空間。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。FASIT法就是一種典型的基于概念的賦詞標(biāo)引方法,F(xiàn)ASIT法的實(shí)現(xiàn)過程是:對(duì)文獻(xiàn)中與其主題相關(guān)的詞或短語賦予一定的句法范疇或幾個(gè)范疇的組合,并給出相應(yīng)的標(biāo)記;然后采用與上下文相關(guān)的消除歧義規(guī)則,消除多重標(biāo)記詞的歧義性;最后利用一個(gè)概念形式詞典進(jìn)行概念選擇,選出的概念經(jīng)規(guī)范化處理后,計(jì)算其與其他概念之間的關(guān)聯(lián)度,進(jìn)而將統(tǒng)一概念進(jìn)行概念歸類,最終以概念類來標(biāo)引文獻(xiàn)。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率)的一種賦詞標(biāo)引方法。例如,Baxendale在1985年提出了對(duì)段落主題句抽詞的思想,認(rèn)為只需對(duì)每段文本的第一個(gè)和最后一個(gè)句子進(jìn)行處理。選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中,計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法(tf),有時(shí)考察詞在整個(gè)文獻(xiàn)庫中出現(xiàn)的頻率可能更重要(df,idf)。選擇標(biāo)引詞的分界點(diǎn)可根據(jù)下面幾種標(biāo)準(zhǔn)來確定:詞的絕對(duì)數(shù)、與文本長(zhǎng)度有關(guān)的數(shù)、詞頻超過一定閾值的詞數(shù)。首先,介紹自動(dòng)索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計(jì)標(biāo)引法、ngram標(biāo)引法和概率標(biāo)引、基于語言規(guī)則與內(nèi)容的索引:句法分析標(biāo)引法、語義分析標(biāo)引法和基于概念的標(biāo)引法、
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1