freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(存儲版)

2025-06-13 03:27上一頁面

下一頁面
  

【正文】 四步組成的學(xué)習(xí)過程。相反地,如果一個詞的出現(xiàn)削弱了Ij 的標(biāo)引,則該詞稱為Ij的削弱詞。這一步驟的目的就是為標(biāo)引詞Ij計算閾值。而RPI模型則是同時以 需求一文獻相關(guān)概率和敘詞標(biāo)引文獻正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法。數(shù)字化指示符和處理碼標(biāo)識的運用更方便了計算機的識別處理。采用人工智能法進行自動標(biāo)引比在相同專業(yè)領(lǐng)域中運用其他方法要復(fù)雜,但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過程,這顯然比以被標(biāo)引文獻為出發(fā)點的其它自動標(biāo)引方法更有希望獲得理想的標(biāo)引效果。其思想是構(gòu)造 一個詞典(主題詞典、關(guān)鍵詞典、部件詞典等),然后設(shè)計各種算法用文獻數(shù)據(jù)去匹配詞典,抽出標(biāo)引詞。 該方法的關(guān)鍵在于詞語切分。但是句型文法分析則相對容易。但是專家系統(tǒng)中知識庫的構(gòu)造和推理機制的建立具有相當(dāng)大的難度,它的實際處理技術(shù)與已建立的語義形式化理論還有很大的差距。它可以用簡單的發(fā)生頻率來表示,或者對頻率的某種轉(zhuǎn)化(比如標(biāo)準(zhǔn)化)來表示。通過鑒別值和idf 方法不能濾掉它們。 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。這個算法包括:單復(fù)數(shù)的轉(zhuǎn)換,派生詞等。為了知道一個字母序列是否是一個最終的字,對它進行從后面去掉某些字母或形式裝換,來驗證剩余的部分是否在字典中,如果不是, 這不是一種正確的方法,采用其它的想象的方法。這種方法不是很常用。 {… (ti, pi), …} ti是指一個詞, pi是它的權(quán)重。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)[5]。10 參考文獻[1 ] . Porter, An algorithm for suffix stripping, Program, 14(13): 130137, 1980.[2] J. Savoy, Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 19, 1993.[3] 林春實、方燕、全吉成. 漢語文獻自動分詞與標(biāo)引技術(shù)發(fā)展淺析. 情報學(xué)報,1997(12):30~33[4] 網(wǎng)絡(luò)信息資源自動標(biāo)引——面向中文網(wǎng)絡(luò)文本信息的研究,北京大學(xué)校長基金論文集(2003)。短語索引項的提取方法有統(tǒng)計法、概率法和語言學(xué)法[5]。9 索引的結(jié)果在創(chuàng)建索引的過程中,必須轉(zhuǎn)換單詞的形式,選擇一些關(guān)鍵詞作為索引詞并對它們進行測量。這個方法被應(yīng)用于[Savoy93]。很多系統(tǒng)采用這個方法或它的變體。具體方法如下: 觀察詞的構(gòu)成,按照詞形來推理出詞根。例如,concrete, adj. 具體的 n. 水泥(建筑學(xué)領(lǐng)域) 停止表的使用是非常簡單的. 將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。因此,特征詞的篩選和權(quán)重分配不是兩個獨立的處理過程。檢索時輸入的檢索字與索引文件進行比較,并做一些邏輯組配,得出檢索結(jié)果。目前已提出的各種漢語自動標(biāo)引方法,基本不進行語義理解,只從形式上進行機械地匹配抽詞來完成標(biāo)引,這種語言表層的標(biāo)引方式必然出現(xiàn)標(biāo)引素材與原文主題內(nèi)容不符的局限。該方法在微機上實現(xiàn)標(biāo)引,證明其簡單易行,并能獲得較高的準(zhǔn)確率。切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來構(gòu)建的,也有用“非用字”、“條件用字”等來組成的。比較有代表性的自動標(biāo)引系統(tǒng)有基于部件詞典的啟動標(biāo)引系統(tǒng)、基于規(guī)則與詞典的自動標(biāo)方法、基于非用字后綴表法的自動標(biāo)引等 顧敏、史麗萍、李春玲. 自動標(biāo)引綜述. 黑龍江水專學(xué)報,2000(9):103~104。實現(xiàn)自動標(biāo)引的目的是讓機器從事標(biāo)引工作中的腦力勞動,即讓計算機模擬標(biāo)引員完成標(biāo)引文獻的工作,因此,人們把人工智能法運用于自動標(biāo)引研究既順應(yīng)自然,又帶來新的活力。它從語法角度上確定句子中每個詞的作用 (如主語還是謂語 )和詞之間的相互關(guān)系 (如是修飾還是被修飾 ),并通過與事先準(zhǔn)備好的解析規(guī)則或語法相比較而實現(xiàn)?;谙嚓P(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問與文獻的相關(guān)概率來標(biāo)引劃分文獻,如二值獨立性標(biāo)引模型;一是根據(jù)具有一定聯(lián)系的文獻之間的相關(guān)概率來標(biāo)引特定的文獻,如基于被引用與引用文獻的標(biāo)引方法。 (4) 確定兩個平均標(biāo)引值之間的中值測量給一文獻賦予標(biāo)引詞Ij的概率的標(biāo)引值計算如下: 標(biāo)引值 = 標(biāo)引值越大,標(biāo)引詞Ij 賦予文獻的概率越大。zscore及其他相關(guān)的統(tǒng)計測量指標(biāo)定義如下。這種方法由學(xué)習(xí)和標(biāo)引兩個過程組成。n 將ngram的得分賦予其中心字符。這樣,gj 便通過一容易計算的HASH函數(shù)k映射到一表地址k(gj)上。ngram是指n(n1)個相鄰字符序列,對一文本進行ngram處理 ,可得到該文本所包括的n長字符串的集合。這里, 給出了一些常用的 tf 和idf 公式。在逆文獻頻率加權(quán)標(biāo)引中,詞的文獻頻率與詞權(quán)有互逆關(guān)系;在詞區(qū)分值加權(quán)標(biāo)引中,詞區(qū)分值與權(quán)值相一致。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權(quán)重。 基于鑒別(區(qū)分)值的基本方法 鑒別值識別是指在眾多的文檔中借助某個詞來較好地識別出某個文檔的方法。這個概念在IR中的定義不是很精確。換句話說,所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對應(yīng)。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。這種推測不可能都達到100%的準(zhǔn)確率,只需得到相對較高的確定率即可。稱為廣義標(biāo)引詞庫。其中:表示tj是di的標(biāo)引詞,表示tj不是di的標(biāo)引詞(i=1,…,n。顯然,式(22)只需計算n次。 (ij) (21)式(21)的最小值表明空間中文獻之間的相關(guān)性將變得很小,當(dāng)某篇文獻與某個提問相關(guān)時,只有這篇文獻被檢索出來,從而保證了較高的查準(zhǔn)率。從文獻空間上看,兩篇文獻相關(guān)就是指代表這兩篇文獻的向量靠得很近,具體講就是這兩個向量的夾角很小。信任函數(shù)模型(Belief Function Model)也屬于概率標(biāo)引模型,它的標(biāo)引過程是:將被標(biāo)引文獻與一個具有敘詞集合的受控詞表進行比較,對出現(xiàn)在文獻中的受控詞表的每一敘詞,根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個基本概率數(shù)。 自動賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來代替文本中的詞匯進行標(biāo)引的過程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標(biāo)引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標(biāo)引的方法?;谙鄬︻l率從文獻中抽出的詞和短語集合將不同于基于絕對頻率得到的集合,但是不是完全不同,許多仍然相同。取詞根程序可以自動去除指定的詞尾,如“ed”、“ing”等。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語在文獻中出現(xiàn)的頻率、詞語出現(xiàn)的位置(標(biāo)題、結(jié)論、插圖說明等)及其語境。如何高效低成本地實現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。 涵蓋率(Recall)精確度(Precision)字符串 詞 合成詞 概念圖21 概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來表示,可以是一組索引詞或關(guān)鍵詞。事實上,詞是最容易識別的語言單位,并且,它們也能充分地表達語義。二 索引的建立目的、標(biāo)準(zhǔn)在大量的文檔集中(通常情況下大約為100,000個文檔以上),為了提高檢索性能和速度, 需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。選用詞作為概念的表示形式的想法是很自然的。分詞單位是指具有確定語義或語法功能的基本單位,通常被直接選作索引詞[7]。這一問題的擱淺直接影響了漢語文獻的自動索引及漢語的句法分析與語義分析研究,成為中文自動索引研究發(fā)展的瓶頸。自動抽詞標(biāo)引思路在手工標(biāo)引中,標(biāo)引員總是盡量選擇能較好反映文獻主題的原文詞語。因此詞根(如“beat”)可以被選擇并存儲,它代替了多種對應(yīng)的變體“beat”、“beating”、和“beated”。這種方法比絕對頻率法要復(fù)雜一些,因為它需要知道一個詞在數(shù)據(jù)庫中出現(xiàn)頻率,并將該頻率與詞在一特定文獻中的頻率相比較。在理想情況下,索引詞應(yīng)該是表達文檔內(nèi)容的語義單位,對應(yīng)著語言學(xué)里的詞匯詞的概念,它是專門表示含義,而其實際意義無法由組合成分相加得到的最小語言單位[7]。 下面的過程就是用相關(guān)性描述y(s,d)來估算概率P(c/y), P(c/y)是給定相關(guān)性描述y,敘詞s標(biāo)引文獻d正確的概率。(1)文獻向量的相關(guān)性  有了文獻空間,每一篇文獻在其中都有一個確定的位置,文獻的空間位置就為我們計算它們之間的相關(guān)程度提供了途徑。因此,為了達到理想的檢索效果,應(yīng)將文獻空間中的點盡可能地分開,即對式(21)求最小值。而聚類文獻的空間密度由式(22)給出:其中,為整個文獻集合矩心,為文獻與矩心的相關(guān)度。(1)標(biāo)引詞的信息量設(shè)文獻庫D={d1,d2,...,dn}為對象庫,稱為外延空間,而標(biāo)引詞庫T={t1,t2,...,tn} 為屬性集,稱為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫:R=R也稱為“對象屬性數(shù)據(jù)”系統(tǒng)。記為T中元素經(jīng)、運算后得到的所有元素的集合,顯然。我們的目的是從標(biāo)引詞t出發(fā),對標(biāo)引詞t’作一推測。 基于詞頻的基本方法 大量詞頻統(tǒng)計結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞,作者重點闡述某主題時所用的核心詞,其出現(xiàn)頻率通常較高。排在第
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1