freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-wenkub

2023-05-29 03:27:38 本頁面
 

【正文】 概念選擇,選出的概念經(jīng)規(guī)范化處理后,計算其與其他概念之間的關(guān)聯(lián)度,進而將統(tǒng)一概念進行概念歸類,最終以概念類來標引文獻。 下面的過程就是用相關(guān)性描述y(s,d)來估算概率P(c/y), P(c/y)是給定相關(guān)性描述y,敘詞s標引文獻d正確的概率。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標引詞賦予某文獻這一決策事件正確性概率)的一種賦詞標引方法。在理想情況下,索引詞應該是表達文檔內(nèi)容的語義單位,對應著語言學里的詞匯詞的概念,它是專門表示含義,而其實際意義無法由組合成分相加得到的最小語言單位[7]。例如,Baxendale在1985年提出了對段落主題句抽詞的思想,認為只需對每段文本的第一個和最后一個句子進行處理。這種方法比絕對頻率法要復雜一些,因為它需要知道一個詞在數(shù)據(jù)庫中出現(xiàn)頻率,并將該頻率與詞在一特定文獻中的頻率相比較。選取標引詞的原則在文本的計算機處理中,計算詞在一篇文獻中出現(xiàn)的頻率并不是唯一的方法(tf),有時考察詞在整個文獻庫中出現(xiàn)的頻率可能更重要(df,idf)。因此詞根(如“beat”)可以被選擇并存儲,它代替了多種對應的變體“beat”、“beating”、和“beated”。選擇標引詞的分界點可根據(jù)下面幾種標準來確定:詞的絕對數(shù)、與文本長度有關(guān)的數(shù)、詞頻超過一定閾值的詞數(shù)。自動抽詞標引思路在手工標引中,標引員總是盡量選擇能較好反映文獻主題的原文詞語。首先,介紹自動索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計標引法、ngram標引法和概率標引、基于語言規(guī)則與內(nèi)容的索引:句法分析標引法、語義分析標引法和基于概念的標引法、人工智能索引法:知識產(chǎn)生式表示法、語義網(wǎng)絡表示法和框架表示法和漢語自動索引。這一問題的擱淺直接影響了漢語文獻的自動索引及漢語的句法分析與語義分析研究,成為中文自動索引研究發(fā)展的瓶頸。首先,對文本信息進行預處理,預處理技術(shù)主要包括結(jié)構(gòu)提取、分詞(中文)、詞干提取等,然后選擇特征表示形式和進行特征提取, 以一定特征項(如詞或詞組)來代表文檔,在檢索時只需對這些特征項進行處理。分詞單位是指具有確定語義或語法功能的基本單位,通常被直接選作索引詞[7]。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確性。選用詞作為概念的表示形式的想法是很自然的。目前存在的技術(shù),大多限制在某一特別領(lǐng)域。二 索引的建立目的、標準在大量的文檔集中(通常情況下大約為100,000個文檔以上),為了提高檢索性能和速度, 需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。建立索引的目標是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。事實上,詞是最容易識別的語言單位,并且,它們也能充分地表達語義。因此,研究者們提出了新的方法,建議將單詞組織起來形成合成詞,文獻可以由詞和短語聯(lián)合來描述。 涵蓋率(Recall)精確度(Precision)字符串 詞 合成詞 概念圖21 概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來表示,可以是一組索引詞或關(guān)鍵詞。圖22 索引詞選取框圖(英文文檔)詞或詞組停用詞中文切詞中文文檔自動或手工索引結(jié)構(gòu)識別索引詞集合 結(jié)構(gòu)圖23 索引詞選取框圖(中文文檔)語言學界、人工智能領(lǐng)域和情報檢索界的學者在漢語自動分詞與索引的研究與實踐上進行了大量的研究,找到了許多解決漢語分詞的方法。如何高效低成本地實現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。其中,重點介紹基于詞匯分布特征的索引方法,其它方法只是簡單講解,同學們課后可以查閱相關(guān)的資料,對每個方法進行總結(jié),形成介紹性的文章。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語在文獻中出現(xiàn)的頻率、詞語出現(xiàn)的位置(標題、結(jié)論、插圖說明等)及其語境。更復雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語。取詞根程序可以自動去除指定的詞尾,如“ed”、“ing”等。最好的區(qū)分詞(能將一篇文獻與其他文獻區(qū)分開的詞)應能保證在非相關(guān)的文獻集合中很少出現(xiàn)或不出現(xiàn),如“石棉”在圖書館學文獻中,“圖書館”在石棉公司數(shù)據(jù)庫中?;谙鄬︻l率從文獻中抽出的詞和短語集合將不同于基于絕對頻率得到的集合,但是不是完全不同,許多仍然相同。因為一項研究表明,第一個句子是段落“主題句”的比例為85%,最后一個句子也超過7%。 自動賦詞標引原理賦詞標引是指使用預先編制的詞表中詞來代替文本中的詞匯進行標引的過程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標引的方法?!≡谶@種方法中,加權(quán)函數(shù)r(s,t)近似等于將敘詞s賦給含有詞條t的文獻的正確性概率P(c/s,t)。信任函數(shù)模型(Belief Function Model)也屬于概率標引模型,它的標引過程是:將被標引文獻與一個具有敘詞集合的受控詞表進行比較,對出現(xiàn)在文獻中的受控詞表的每一敘詞,根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個基本概率數(shù)。3自動標引的模型 向量模型文獻的向量空間模型較好地描述了文獻之間的相關(guān)程度,由此確定了文獻空間密度。從文獻空間上看,兩篇文獻相關(guān)就是指代表這兩篇文獻的向量靠得很近,具體講就是這兩個向量的夾角很小。因此,可將兩文獻之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值,即S(Di,Dj)=cos,其中,= Di,Dj 為文獻Di,Dj之間的夾角。 (ij) (21)式(21)的最小值表明空間中文獻之間的相關(guān)性將變得很小,當某篇文獻與某個提問相關(guān)時,只有這篇文獻被檢索出來,從而保證了較高的查準率。在該空間中,文獻按類集中在一起,每個類由一個類的矩心C(Centroid)來表示。顯然,式(22)只需計算n次。標引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動標引的理論基礎(chǔ)。其中:表示tj是di的標引詞,表示tj不是di的標引詞(i=1,…,n。定義1: ()稱I(t)為標引詞t的信息量。稱為廣義標引詞庫。(2)推測標引詞在已知文獻具有標引詞t的情況下,可根據(jù)信息提取的思想來推測文獻是否具有標引詞t’。這種推測不可能都達到100%的準確率,只需得到相對較高的確定率即可。一個詞(實詞)在文獻中使用越頻繁,就越有可能是一個指示主題的詞。因此,最高頻詞和低頻詞都不適宜做標引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標引詞。它認為,如果我們按照大小或者流行程度給某個大集合中的各項進行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。換句話說,所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對應。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然,不能將所有詞頻高的詞都作為索引詞。這個概念在IR中的定義不是很精確。n 決定該詞在整個文獻集上的發(fā)生頻率:n 按照fk的大小將詞降序排列,確定一個上截止閾值,去掉fk 大于上截止閾值的詞,確定一個下截止閾值,去掉fk 小于下截止閾值的詞。 基于鑒別(區(qū)分)值的基本方法 鑒別值識別是指在眾多的文檔中借助某個詞來較好地識別出某個文檔的方法。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權(quán)重。在應用鑒別值時,就淘汰了功能詞,英語中如,“of”, “to” 等。在逆文獻頻率加權(quán)標引中,詞的文獻頻率與詞權(quán)有互逆關(guān)系;在詞區(qū)分值加權(quán)標引中,詞區(qū)分值與權(quán)值相一致。*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。這里, 給出了一些常用的 tf 和idf 公式。最后,可以在值的計算中加入一些標準化的處理方式。ngram是指n(n1)個相鄰字符序列,對一文本進行ngram處理 ,可得到該文本所包括的n長字符串的集合。Cohen的ngram標引法主要包括以下幾個步驟:n 過濾文獻。這樣,gj 便通過一容易計算的HASH函數(shù)k映射到一表地址k(gj)上?!氨尘拔墨I”是同被標引文獻有虛構(gòu)聯(lián)系的一組文獻。n 將ngram的得分賦予其中心字符。n 將抽出的單詞或短語并入一詞表,累計其各個特例得分作為該單詞或短語的總得分。這種方法由學習和標引兩個過程組成。同時一些未被Ij 標引的文獻也被匯集起來,這些文獻稱為Ij 的否定訓練集合。zscore及其他相關(guān)的統(tǒng)計測量指標定義如下。n 促進詞選擇IF(一個在Ij的肯定訓練集合中的詞的zscore 閾值)AND(一個在Ij的否定訓練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的促進詞;詞權(quán)值 = 在肯定訓練集合中的zscore 在否定訓練集合中的zscore。 (4) 確定兩個平均標
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1