freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(專業(yè)版)

2025-06-25 03:27上一頁面

下一頁面
  

【正文】 索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應(yīng)的文檔。字典的使用提供了很多優(yōu)勢,但它也在存取的過程中付出了很大的代價。這種方法在Porter算法中被采納。 改善方法1:過濾功能詞某些功能詞,如“beforehand”,“thus”等,在文章中出現(xiàn)的不是很頻繁。要提高標(biāo)引的準(zhǔn)確性和真實(shí)性,就必須進(jìn)行語義理解,在語言深層實(shí)現(xiàn)標(biāo)引,因此漢語自動標(biāo)引專家系統(tǒng)代表了今后漢語自動標(biāo)引的發(fā)展方向。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語詞組或短語之后,再按一定的分解模式分割成單詞或?qū)S迷~組。 人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識表示方法主要有產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法?;跊Q策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確的概率來標(biāo)引文獻(xiàn),如DIA標(biāo)引方法。對于一列n個變量:x1,x2,x3, ..., xn 平均值=(x1+x2+x3+ ...+ xn)/n 方差=()/(n1) 標(biāo)準(zhǔn)偏差=(方差) xi 的zscore =(xi平均值)/標(biāo)準(zhǔn)偏差(3) 選擇促進(jìn)詞和削弱詞如果一個詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引,則此詞稱為Ij的促進(jìn)詞。n 確定字符得分閾值,其中 n 抽取文獻(xiàn)中字符得分超過閾值的單詞,如果合適的話,將鄰近的單詞抽為短語。如對COMPUTER進(jìn)行3gram處理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER} 早在1951年,現(xiàn)代信息論創(chuàng)始人Shannon便用ngram進(jìn)行文本壓縮的檢驗。若詞的文獻(xiàn)頻率高,用其做標(biāo)引詞會使文獻(xiàn)密度增大,從而使詞區(qū)分值減??;若詞的文獻(xiàn)頻率低,用其做標(biāo)引詞會使文獻(xiàn)空間密度減小,從而使詞區(qū)分值增大。也就是說,某個有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計分布,譬如個人的財富和收入、城市人口甚至博客讀者數(shù)量[6]。這種推測是一種或然推理,具有或然性。 j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對數(shù)據(jù)賦予某種意義,此數(shù)據(jù)即為信息,故“對象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。但這會產(chǎn)生兩個方面的問題:第一,這種將點(diǎn)分開的方式是否基于這樣一個事實(shí),即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開?;靖怕蕯?shù)大于零的敘詞,便可用于對具有該詞的文獻(xiàn)進(jìn)行標(biāo)引。少數(shù)新詞語將是那些在一特定文獻(xiàn)中很少出現(xiàn),但是在整個數(shù)據(jù)庫中更少出現(xiàn)的詞語,如果一個詞在一個有1000萬詞的數(shù)據(jù)庫中只出現(xiàn)5次,則它盡管在一篇5000詞的期刊論文中只出現(xiàn)1次,仍然是很重要的,而那些在一篇文獻(xiàn)和整個數(shù)據(jù)庫都頻繁出現(xiàn)的詞語(可稱為“泛濫詞”)則要去除。假定文本以機(jī)器可讀的形式存在,計算機(jī)程序就可以模仿人,通過對文本中詞的頻率、位置和語境標(biāo)準(zhǔn)來實(shí)施抽詞標(biāo)引。既可以自動提取,也可以是由人主觀指定。為了找到這些內(nèi)容,必須進(jìn)行語義分析來確定哪些是某一文檔中的概念。在文檔索引過程中,先通過中文自動分詞程序的處理,把文檔正文分割成為獨(dú)立的分詞單位,然后在這些分詞單位基礎(chǔ)上選擇索引詞。它涉及如何從原文中抽取能夠表達(dá)其實(shí)質(zhì)意義的詞匯,以及如何根據(jù)這些詞匯確定標(biāo)引詞。除了詞在文獻(xiàn)中出現(xiàn)的絕對頻率,還可使用相對頻率方法來選擇詞語,即選擇那些在一篇文獻(xiàn)中的出現(xiàn)幾率大大高于在整個文獻(xiàn)庫中出現(xiàn)幾率的詞和短語。從文獻(xiàn)d到敘詞s的全部敘詞指引集合稱為s 與d的相關(guān)性描述y(s,d)。但如果對一個給定文獻(xiàn)集合的全部檢索歷史不了解,則很難產(chǎn)生出這種理想空間。兩者的區(qū)別在于從不同的對象中獲取信息,實(shí)施標(biāo)引的主體不同,但它們的目的都是為了表示信息的主題內(nèi)容。從定義3 可以看出,在獲得t的信息時,就可以從t’的信息中提取的信息,故標(biāo)引詞t對 t’的確定率就等于的信息量在t’的信息量中所占的比例,比例越高,確定率越大;反之,比例越低,確定率越小,顯然有成立。以英語文本的一大段典型內(nèi)容為例,最常見的單詞the通常占所有出現(xiàn)單詞的近7%。Goffman在考察了上述兩個定律之后, 認(rèn)為存在一個詞由高頻行為轉(zhuǎn)為低頻行為的臨界區(qū)(critical region),只有處于臨界區(qū)內(nèi)的詞才最適于描述文獻(xiàn)的主題。也就是說,標(biāo)引詞權(quán)重應(yīng)與標(biāo)引詞的區(qū)分值成正比。2. 詞的鑒別性的重要性(idf). 因此, 有較高的tf*idf 值的詞在文檔中一定是重要的, 同時它一定在其它文檔中出現(xiàn)很少. 這就是詞與文檔的重要特征和獨(dú)特性相對應(yīng)的情況. 通過這樣的公式, 可以選擇只保留tf*idf的值超過規(guī)定的閾值的那些詞作為特征詞。在gj 相互獨(dú)立的假設(shè)下,向量變?yōu)橄旅娴亩囗検剑? 其中f是多項式密度, 是潛在概率向量。類似地,在否定集合中的每個詞亦被統(tǒng)計,其zscore也被計算出來。標(biāo)引過程描述如下: FOR (j=1 to n) DO /* 假設(shè)有n個可能被確定的標(biāo)引詞*/ IF Mj THEN 標(biāo)引詞Ij 賦予文獻(xiàn) ENDIF從概率論的角度進(jìn)行文獻(xiàn)自動標(biāo)引的方法最初由Maron 和Kuhns 于1960年提出,其基本思想事:文獻(xiàn)檢索系統(tǒng)可根據(jù)文獻(xiàn)滿足提問的概率來估計輸出文獻(xiàn)并對其分級。這種方法本身受制于語言學(xué)的發(fā)展,而眾所周知的是語言學(xué),尤其是計算語言學(xué)本身的研究難度,所以目前利用語義分析的方法進(jìn)行標(biāo)引的研究還不多,所能見到的有諸如:潛在語義分析標(biāo)引法、相信函數(shù)模型和語義矢量空間模型等。所以詞典法里詞典的構(gòu)造完善與否直接影響到標(biāo)引質(zhì)量。 漢語自動標(biāo)引專家系統(tǒng)是以漢語語義理解為特征的自動標(biāo)引系統(tǒng)。在實(shí)際中,如果采用tf * idf的方法來篩選特征詞,可以將tf * idf值作為詞的權(quán)重。我們注意到,這些詞有相同的詞根。為了避免這種情況發(fā)生, 使用一個字典來驗證是否“vocer”存在于字典中。一般要給單索引項賦與一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相關(guān)度。當(dāng)數(shù)據(jù)量很大時,必須實(shí)現(xiàn)即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。在詞形的轉(zhuǎn)換過程中利用一個自動的標(biāo)識器(或一個種類分析器)。 這個算法有時將兩個不同的詞轉(zhuǎn)換成了相同的詞,如derivate/derive, activate/active 等。為了濾掉這些詞, 通常使用一個列表,稱為停止表,它包括不想保留的詞。 單漢字標(biāo)引法 單漢字標(biāo)引法吸收了西文自動抽詞標(biāo)引的部分思想,在標(biāo)引時將概念詞拆成單漢 字,以單漢字為處理單位,利用漢字索引文件實(shí)現(xiàn)自動標(biāo)引和邏輯檢索。該法將漢字用與不用機(jī)械地分為四個類別:A表外用字、B表內(nèi)用字、C條件用字、D非用字,并根據(jù)這些字的屬性構(gòu)造了一個字典——非用字后綴表。DIES 系統(tǒng)定義了一些語義特征, 如object (對象)、human(人類)、course (學(xué)科)、operate(操作)等。 這種標(biāo)引方法目前還處于理論階段,具體的標(biāo)引工具還沒有出現(xiàn)。n 促進(jìn)詞選擇IF(一個在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)AND(一個在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的促進(jìn)詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。n 將抽出的單詞或短語并入一詞表,累計其各個特例得分作為該單詞或短語的總得分。Cohen的ngram標(biāo)引法主要包括以下幾個步驟:n 過濾文獻(xiàn)。*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然,不能將所有詞頻高的詞都作為索引詞。一個詞(實(shí)詞)在文獻(xiàn)中使用越頻繁,就越有可能是一個指示主題的詞。定義1: ()稱I(t)為標(biāo)引詞t的信息量。在該空間中,文獻(xiàn)按類集中在一起,每個類由一個類的矩心C(Centroid)來表示。3自動標(biāo)引的模型 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度,由此確定了文獻(xiàn)空間密度。因為一項研究表明,第一個句子是段落“主題句”的比例為85%,最后一個句子也超過7%。更復(fù)雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語。圖22 索引詞選取框圖(英文文檔)詞或詞組停用詞中文切詞中文文檔自動或手工索引結(jié)構(gòu)識別索引詞集合 結(jié)構(gòu)圖23 索引詞選取框圖(中文文檔)語言學(xué)界、人工智能領(lǐng)域和情報檢索界的學(xué)者在漢語自動分詞與索引的研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決漢語分詞的方法。建立索引的目標(biāo)是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1