freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-資料下載頁

2025-05-14 03:27本頁面
  

【正文】 可以用句型文法來描述現(xiàn)代漢語,進而抽取主題詞進行標引。 漢語文獻標引專家系統(tǒng) 漢語文獻自動標引專家系統(tǒng)的基本原理是,以現(xiàn)有的漢語專業(yè)主題詞表為基礎(chǔ),構(gòu)建概念語義網(wǎng)絡(luò),根據(jù)一定的抽詞規(guī)則、標引規(guī)則和專門知識,對所處理的素材進行分析、判斷,選擇和確定標引主題詞。 漢語自動標引專家系統(tǒng)是以漢語語義理解為特征的自動標引系統(tǒng)。由于漢字構(gòu)詞具有極大的靈活性,漢語詞性缺乏嚴格的規(guī)定性,漢語詞匯沒有嚴格的形態(tài)變化,再加上漢語文獻作者使用語言的多樣性和不規(guī)范性,造成同一主題可以有多種表達方式,一種表達方式在不同的語境中可以表達多個主題。目前已提出的各種漢語自動標引方法,基本不進行語義理解,只從形式上進行機械地匹配抽詞來完成標引,這種語言表層的標引方式必然出現(xiàn)標引素材與原文主題內(nèi)容不符的局限。要提高標引的準確性和真實性,就必須進行語義理解,在語言深層實現(xiàn)標引,因此漢語自動標引專家系統(tǒng)代表了今后漢語自動標引的發(fā)展方向。但是專家系統(tǒng)中知識庫的構(gòu)造和推理機制的建立具有相當大的難度,它的實際處理技術(shù)與已建立的語義形式化理論還有很大的差距。目前漢語自動標引專家系統(tǒng)只處在初期的試驗階段,遠未達到實用水平。 單漢字標引法 單漢字標引法吸收了西文自動抽詞標引的部分思想,在標引時將概念詞拆成單漢 字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。它完全摒棄了人工的構(gòu)造字典,對每個漢字的標引完全由計算機自動進行,保存了文獻文本的原貌,因此也就沒有主觀性的成分 陳光祚. 論單漢字檢索系統(tǒng). 情報學(xué)報,1992(1):1 1~1 。由于這種方法把對“詞”的處理改為對“字”的處理, 因此就繞過了漢字分詞的難題。單漢字標引和檢索的基本過程中,標引時計算機對處理的文本逐一抽字,經(jīng)過一些處理(如去掉無意義的虛字)后,建立索引文件。檢索時輸入的檢索字與索引文件進行比較,并做一些邏輯組配,得出檢索結(jié)果。8 特征詞的權(quán)重一個詞所擁有的權(quán)重的衡量是變化多樣的。它可以用簡單的發(fā)生頻率來表示,或者對頻率的某種轉(zhuǎn)化(比如標準化)來表示。它也可以是一種公式tf * idf。多種情況顯示只是簡單地使用發(fā)生頻率來衡量詞的頻率,不能取得滿意的性能(即使去掉了功能詞)。通常情況下,tf * idf的衡量方法取得了比較好的性能。在實際中,如果采用tf * idf的方法來篩選特征詞,可以將tf * idf值作為詞的權(quán)重。這是常用的方法。因此,特征詞的篩選和權(quán)重分配不是兩個獨立的處理過程。 改善方法1:過濾功能詞某些功能詞,如“beforehand”,“thus”等,在文章中出現(xiàn)的不是很頻繁。通過鑒別值和idf 方法不能濾掉它們。但又不想把它們作為索引詞,因為它們沒有實際意義。為了濾掉這些詞, 通常使用一個列表,稱為停止表,它包括不想保留的詞。這些詞通常是介詞(. Of, to),副詞(elsewhere, now),形容詞(certain, possible)等在這個表中的某些詞不是沒有意義的(取決于領(lǐng)域,在語言學(xué)上它們不是沒有意義的)。只是覺得對于信息檢索系統(tǒng)它們不是很重要。系統(tǒng)所使用的列表是變化的. 這取決于應(yīng)用領(lǐng)域。例如,concrete, adj. 具體的 n. 水泥(建筑學(xué)領(lǐng)域) 停止表的使用是非常簡單的. 將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。如果是,不能將它作為索引詞。 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。比如下面的詞在意思上是相近的:transformer, transforme, transforment, transformation, transformateur, … 這些詞之間形式的不同對于信息檢索是不利的。對于關(guān)于“transform”的提問,人們希望找到含有“transformation”的文檔。因此,必須去掉這些詞之間的不同,也就是把這些詞表示成相同的形式。我們注意到,這些詞有相同的詞根。去掉這些詞的結(jié)尾部分,保留根部,它們會有相同的形式。具體方法如下: 觀察詞的構(gòu)成,按照詞形來推理出詞根。這種方法在Porter算法中被采納。這個算法包括:單復(fù)數(shù)的轉(zhuǎn)換,派生詞等。如,在某些形容詞后加入ness,happiness, 在動詞后加入able, adjustable。 這個算法有時將兩個不同的詞轉(zhuǎn)換成了相同的詞,如derivate/derive, activate/active 等。但是,大多數(shù)的轉(zhuǎn)換還是有道理的。把這個算法和其它更復(fù)雜的算法比較,這個算法既簡單又有很好的性能。這個算法被當作一個典型的算法。很多系統(tǒng)采用這個方法或它的變體。Porter algorithm:(Porter, ., 1980, An algorithm for suffix stripping, Program, 14(3) :130137)Step 1: plurals and past participles n SSES SS caresses caress n (*v*) ING motoring motor Step 2: adjn, nv, nadj, …n (m0) OUSNESS OUS callousness callous n (m0) ATIONAL ATE relational relate Step 3: n (m0) ICATE IC triplicate triplic Step 4:n (m1) AL revival revivn (m1) ANCE allowance allow Step 5: n (m1) E probate probat n (m 1 and *d and *L) single letter controll control 借助于字典。為了知道一個字母序列是否是一個最終的字,對它進行從后面去掉某些字母或形式裝換,來驗證剩余的部分是否在字典中,如果不是, 這不是一種正確的方法,采用其它的想象的方法。例如,我們應(yīng)用規(guī)則:將以 ation結(jié)尾的詞替換為er結(jié)尾,transformation 224。 transformer。但是,對于詞“vocation”,應(yīng)用這個規(guī)則,變?yōu)椤皏ocer”,這不是一個正確的轉(zhuǎn)換。為了避免這種情況發(fā)生, 使用一個字典來驗證是否“vocer”存在于字典中。 如果不存在,不能進行轉(zhuǎn)換。這個方法被應(yīng)用于[Savoy93]。字典的使用提供了很多優(yōu)勢,但它也在存取的過程中付出了很大的代價。這種方法不是很常用。 正確的語法種類識別。在詞形的轉(zhuǎn)換過程中利用一個自動的標識器(或一個種類分析器)??赡艿姆椒ㄊ菓?yīng)用概率的方式來確定一個單詞的種類。首先,應(yīng)用手工創(chuàng)建的種類集(訓(xùn)練集)來建立一個概率模型,這個模型根據(jù)單詞的形式和它周圍的詞來確定它應(yīng)屬于的種類。 借助于這種種類識別結(jié)構(gòu),可以將單詞轉(zhuǎn)換成標準形式。9 索引的結(jié)果在創(chuàng)建索引的過程中,必須轉(zhuǎn)換單詞的形式,選擇一些關(guān)鍵詞作為索引詞并對它們進行測量。因此,索引的結(jié)果是詞的集合,這里的詞或者是詞本身,或者是詞根,或者是合成詞(如果加入了合成詞鑒別功能)d224。 {… (ti, pi), …} ti是指一個詞, pi是它的權(quán)重。這個詞及其權(quán)重的集合用來構(gòu)成文檔內(nèi)容的表示。怎么組織這些詞來做具體的表示呢?這取決于所使用的信息檢索模型。還有,在不同的模型中,即使是相同的詞的集合也會有不同的意義。一般要給單索引項賦與一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項的提取方法有統(tǒng)計法、概率法和語言學(xué)法[5]。 索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應(yīng)的文檔。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)[5]。 索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量[5]。在下一章中, 我們將介紹一些傳統(tǒng)的信息檢索模型。10 參考文獻[1 ] . Porter, An algorithm for suffix stripping, Program, 14(13): 130137, 1980.[2] J. Savoy, Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 19, 1993.[3] 林春實、方燕、全吉成. 漢語文獻自動分詞與標引技術(shù)發(fā)展淺析. 情報學(xué)報,1997(12):30~33[4] 網(wǎng)絡(luò)信息資源自動標引——面向中文網(wǎng)絡(luò)文本信息的研究,北京大學(xué)校長基金論文集(2003)。[5] 搜索引擎技術(shù)及趨勢, ,李曉明(北京大學(xué)計算機科學(xué)技術(shù)系教授) 劉建國(北京大學(xué)計算機系副教授)[6] 通信網(wǎng)絡(luò)價值的魔鬼 梅特卡夫定律錯在何處[7]彭波, 搜索引擎的混合索引技術(shù), 北京大學(xué)計算機科學(xué)技術(shù)系網(wǎng)絡(luò)與分布式系統(tǒng)實驗室,北京[8]劉挺,搜索引擎技術(shù),哈工大信息檢索實驗室23 / 23
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1