freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(完整版)

2025-06-19 03:27上一頁面

下一頁面
  

【正文】 人工智能索引法:知識產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法和漢語自動索引。首先,對文本信息進行預處理,預處理技術(shù)主要包括結(jié)構(gòu)提取、分詞(中文)、詞干提取等,然后選擇特征表示形式和進行特征提取, 以一定特征項(如詞或詞組)來代表文檔,在檢索時只需對這些特征項進行處理。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確性。目前存在的技術(shù),大多限制在某一特別領(lǐng)域。建立索引的目標是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。因此,研究者們提出了新的方法,建議將單詞組織起來形成合成詞,文獻可以由詞和短語聯(lián)合來描述。圖22 索引詞選取框圖(英文文檔)詞或詞組停用詞中文切詞中文文檔自動或手工索引結(jié)構(gòu)識別索引詞集合 結(jié)構(gòu)圖23 索引詞選取框圖(中文文檔)語言學界、人工智能領(lǐng)域和情報檢索界的學者在漢語自動分詞與索引的研究與實踐上進行了大量的研究,找到了許多解決漢語分詞的方法。其中,重點介紹基于詞匯分布特征的索引方法,其它方法只是簡單講解,同學們課后可以查閱相關(guān)的資料,對每個方法進行總結(jié),形成介紹性的文章。更復雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語。最好的區(qū)分詞(能將一篇文獻與其他文獻區(qū)分開的詞)應能保證在非相關(guān)的文獻集合中很少出現(xiàn)或不出現(xiàn),如“石棉”在圖書館學文獻中,“圖書館”在石棉公司數(shù)據(jù)庫中。因為一項研究表明,第一個句子是段落“主題句”的比例為85%,最后一個句子也超過7%?!≡谶@種方法中,加權(quán)函數(shù)r(s,t)近似等于將敘詞s賦給含有詞條t的文獻的正確性概率P(c/s,t)。3自動標引的模型 向量模型文獻的向量空間模型較好地描述了文獻之間的相關(guān)程度,由此確定了文獻空間密度。因此,可將兩文獻之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值,即S(Di,Dj)=cos,其中,= Di,Dj 為文獻Di,Dj之間的夾角。在該空間中,文獻按類集中在一起,每個類由一個類的矩心C(Centroid)來表示。標引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動標引的理論基礎(chǔ)。定義1: ()稱I(t)為標引詞t的信息量。(2)推測標引詞在已知文獻具有標引詞t的情況下,可根據(jù)信息提取的思想來推測文獻是否具有標引詞t’。一個詞(實詞)在文獻中使用越頻繁,就越有可能是一個指示主題的詞。它認為,如果我們按照大小或者流行程度給某個大集合中的各項進行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然,不能將所有詞頻高的詞都作為索引詞。n 決定該詞在整個文獻集上的發(fā)生頻率:n 按照fk的大小將詞降序排列,確定一個上截止閾值,去掉fk 大于上截止閾值的詞,確定一個下截止閾值,去掉fk 小于下截止閾值的詞。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。在應用鑒別值時,就淘汰了功能詞,英語中如,“of”, “to” 等。*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。最后,可以在值的計算中加入一些標準化的處理方式。Cohen的ngram標引法主要包括以下幾個步驟:n 過濾文獻?!氨尘拔墨I”是同被標引文獻有虛構(gòu)聯(lián)系的一組文獻。n 將抽出的單詞或短語并入一詞表,累計其各個特例得分作為該單詞或短語的總得分。同時一些未被Ij 標引的文獻也被匯集起來,這些文獻稱為Ij 的否定訓練集合。n 促進詞選擇IF(一個在Ij的肯定訓練集合中的詞的zscore 閾值)AND(一個在Ij的否定訓練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的促進詞;詞權(quán)值 = 在肯定訓練集合中的zscore 在否定訓練集合中的zscore。這兩個平均標引值的中值(表示為Mj)定義如下: Mj = Mj 將作為閾值來決定標引詞Ij是否應賦予一文獻。 這種標引方法目前還處于理論階段,具體的標引工具還沒有出現(xiàn)。另外,這種方法僅以文獻標題為標引對象,雖然主題內(nèi)容容易突出,但標題句法形式的規(guī)范性一般較差,增加了句法分析的難度,同時過窄的分析范圍容易漏標一些相關(guān)主題[4]。DIES 系統(tǒng)定義了一些語義特征, 如object (對象)、human(人類)、course (學科)、operate(操作)等。當今社該法將漢字用與不用機械地分為四個類別:A表外用字、B表內(nèi)用字、C條件用字、D非用字,并根據(jù)這些字的屬性構(gòu)造了一個字典——非用字后綴表。因此可以用句型文法來描述現(xiàn)代漢語,進而抽取主題詞進行標引。 單漢字標引法 單漢字標引法吸收了西文自動抽詞標引的部分思想,在標引時將概念詞拆成單漢 字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。多種情況顯示只是簡單地使用發(fā)生頻率來衡量詞的頻率,不能取得滿意的性能(即使去掉了功能詞)。為了濾掉這些詞, 通常使用一個列表,稱為停止表,它包括不想保留的詞。對于關(guān)于“transform”的提問,人們希望找到含有“transformation”的文檔。 這個算法有時將兩個不同的詞轉(zhuǎn)換成了相同的詞,如derivate/derive, activate/active 等。 transformer。在詞形的轉(zhuǎn)換過程中利用一個自動的標識器(或一個種類分析器)。怎么組織這些詞來做具體的表示呢?這取決于所使用的信息檢索模型。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量[5]。一般要給單索引項賦與一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相關(guān)度。首先,應用手工創(chuàng)建的種類集(訓練集)來建立一個概率模型,這個模型根據(jù)單詞的形式和它周圍的詞來確定它應屬于的種類。為了避免這種情況發(fā)生, 使用一個字典來驗證是否“vocer”存在于字典中。把這個算法和其它更復雜的算法比較,這個算法既簡單又有很好的性能。我們注意到,這些詞有相同的詞根。只是覺得對于信息檢索系統(tǒng)它們不是很重要。在實際中,如果采用tf * idf的方法來篩選特征詞,可以將tf * idf值作為詞的權(quán)重。由于這種方法把對“詞”的處理改為對“字”的處理, 因此就繞過了漢字分詞的難題。 漢語自動標引專家系統(tǒng)是以漢語語義理解為特征的自動標引系統(tǒng)。將用字取出,非用字舍去。所以詞典法里詞典的構(gòu)造完善與否直接影響到標引質(zhì)量。等。這種方法本身受制于語言學的發(fā)展,而眾所周知的是語言學,尤其是計算語言學本身的研究難度,所以目前利用語義分析的方法進行標引的研究還不多,所能見到的有諸如:潛在語義分析標引法、相信函數(shù)模型和語義矢量空間模型等。它們一般都借助詞典來制定詞的語法范疇,以此作為句法分析的基礎(chǔ),最終抽出可做標引詞的詞語。標引過程描述如下: FOR (j=1 to n) DO /* 假設(shè)有n個可能被確定的標引詞*/ IF Mj THEN 標引詞Ij 賦予文獻 ENDIF從概率論的角度進行文獻自動標引的方法最初由Maron 和Kuhns 于1960年提出,其基本思想事:文獻檢索系統(tǒng)可根據(jù)文獻滿足提問的概率來估計輸出文獻并對其分級。在這一步之后,我們建立了標引詞Ij和促進詞及削弱詞集合之間的關(guān)系Rj。類似地,在否定集合中的每個詞亦被統(tǒng)計,其zscore也被計算出來。Cohen用此法不僅標引了英文文獻,而且還標引了 西班牙文、德文、格魯吉亞文、俄文、日文,取得了較好的試驗結(jié)果。在gj 相互獨立的假設(shè)下,向量變?yōu)橄旅娴亩囗検剑? 其中f是多項式密度, 是潛在概率向量。n 在過濾后的文獻中統(tǒng)計ngram。2. 詞的鑒別性的重要性(idf). 因此, 有較高的tf*idf 值的詞在文檔中一定是重要的, 同時它一定在其它文檔中出現(xiàn)很少. 這就是詞與文檔的重要特征和獨特性相對應的情況. 通過這樣的公式, 可以選擇只保留tf*idf的值超過規(guī)定的閾值的那些詞作為特征詞。通過tf, 進行了詞對文檔的重要性的測量,只對文檔集合中某確定的文檔有意義,通常, 這個值是由文檔中的詞的頻率確定的。也就是說,標引詞權(quán)重應與標引詞的區(qū)分值成正比。因此,我們將在下一章中詳細地介紹這個模型。Goffman在考察了上述兩個定律之后, 認為存在一個詞由高頻行為轉(zhuǎn)為低頻行為的臨界區(qū)(critical region),只有處于臨界區(qū)內(nèi)的詞才最適于描述文獻的主題。這兩個閾值的使用對應于詞的信息量。以英語文本的一大段典型內(nèi)容為例,最常見的單詞the通常占所有出現(xiàn)單詞的近7%。除此以外,還可以根據(jù)取詞的不同位置、詞語本身的重要性給每個詞賦予不同的權(quán)值,使得最終的加權(quán)統(tǒng)計結(jié)果更加符合實際情況,更能體現(xiàn)文章的主題[4]。從定義3 可以看出,在獲得t的信息時,就可以從t’的信息中提取的信息,故標引詞t對 t’的確定率就等于的信息量在t’的信息量中所占的比例,比
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1