freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(存儲(chǔ)版)

  

【正文】 四步組成的學(xué)習(xí)過(guò)程。相反地,如果一個(gè)詞的出現(xiàn)削弱了Ij 的標(biāo)引,則該詞稱為Ij的削弱詞。這一步驟的目的就是為標(biāo)引詞Ij計(jì)算閾值。而RPI模型則是同時(shí)以 需求一文獻(xiàn)相關(guān)概率和敘詞標(biāo)引文獻(xiàn)正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法。數(shù)字化指示符和處理碼標(biāo)識(shí)的運(yùn)用更方便了計(jì)算機(jī)的識(shí)別處理。采用人工智能法進(jìn)行自動(dòng)標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法要復(fù)雜,但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過(guò)程,這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其它自動(dòng)標(biāo)引方法更有希望獲得理想的標(biāo)引效果。其思想是構(gòu)造 一個(gè)詞典(主題詞典、關(guān)鍵詞典、部件詞典等),然后設(shè)計(jì)各種算法用文獻(xiàn)數(shù)據(jù)去匹配詞典,抽出標(biāo)引詞。 該方法的關(guān)鍵在于詞語(yǔ)切分。但是句型文法分析則相對(duì)容易。但是專家系統(tǒng)中知識(shí)庫(kù)的構(gòu)造和推理機(jī)制的建立具有相當(dāng)大的難度,它的實(shí)際處理技術(shù)與已建立的語(yǔ)義形式化理論還有很大的差距。它可以用簡(jiǎn)單的發(fā)生頻率來(lái)表示,或者對(duì)頻率的某種轉(zhuǎn)化(比如標(biāo)準(zhǔn)化)來(lái)表示。通過(guò)鑒別值和idf 方法不能濾掉它們。 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。這個(gè)算法包括:?jiǎn)螐?fù)數(shù)的轉(zhuǎn)換,派生詞等。為了知道一個(gè)字母序列是否是一個(gè)最終的字,對(duì)它進(jìn)行從后面去掉某些字母或形式裝換,來(lái)驗(yàn)證剩余的部分是否在字典中,如果不是, 這不是一種正確的方法,采用其它的想象的方法。這種方法不是很常用。 {… (ti, pi), …} ti是指一個(gè)詞, pi是它的權(quán)重。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)[5]。10 參考文獻(xiàn)[1 ] . Porter, An algorithm for suffix stripping, Program, 14(13): 130137, 1980.[2] J. Savoy, Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 19, 1993.[3] 林春實(shí)、方燕、全吉成. 漢語(yǔ)文獻(xiàn)自動(dòng)分詞與標(biāo)引技術(shù)發(fā)展淺析. 情報(bào)學(xué)報(bào),1997(12):30~33[4] 網(wǎng)絡(luò)信息資源自動(dòng)標(biāo)引——面向中文網(wǎng)絡(luò)文本信息的研究,北京大學(xué)校長(zhǎng)基金論文集(2003)。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法[5]。9 索引的結(jié)果在創(chuàng)建索引的過(guò)程中,必須轉(zhuǎn)換單詞的形式,選擇一些關(guān)鍵詞作為索引詞并對(duì)它們進(jìn)行測(cè)量。這個(gè)方法被應(yīng)用于[Savoy93]。很多系統(tǒng)采用這個(gè)方法或它的變體。具體方法如下: 觀察詞的構(gòu)成,按照詞形來(lái)推理出詞根。例如,concrete, adj. 具體的 n. 水泥(建筑學(xué)領(lǐng)域) 停止表的使用是非常簡(jiǎn)單的. 將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。因此,特征詞的篩選和權(quán)重分配不是兩個(gè)獨(dú)立的處理過(guò)程。檢索時(shí)輸入的檢索字與索引文件進(jìn)行比較,并做一些邏輯組配,得出檢索結(jié)果。目前已提出的各種漢語(yǔ)自動(dòng)標(biāo)引方法,基本不進(jìn)行語(yǔ)義理解,只從形式上進(jìn)行機(jī)械地匹配抽詞來(lái)完成標(biāo)引,這種語(yǔ)言表層的標(biāo)引方式必然出現(xiàn)標(biāo)引素材與原文主題內(nèi)容不符的局限。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引,證明其簡(jiǎn)單易行,并能獲得較高的準(zhǔn)確率。切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來(lái)構(gòu)建的,也有用“非用字”、“條件用字”等來(lái)組成的。比較有代表性的自動(dòng)標(biāo)引系統(tǒng)有基于部件詞典的啟動(dòng)標(biāo)引系統(tǒng)、基于規(guī)則與詞典的自動(dòng)標(biāo)方法、基于非用字后綴表法的自動(dòng)標(biāo)引等 顧敏、史麗萍、李春玲. 自動(dòng)標(biāo)引綜述. 黑龍江水專學(xué)報(bào),2000(9):103~104。實(shí)現(xiàn)自動(dòng)標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動(dòng),即讓計(jì)算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作,因此,人們把人工智能法運(yùn)用于自動(dòng)標(biāo)引研究既順應(yīng)自然,又帶來(lái)新的活力。它從語(yǔ)法角度上確定句子中每個(gè)詞的作用 (如主語(yǔ)還是謂語(yǔ) )和詞之間的相互關(guān)系 (如是修飾還是被修飾 ),并通過(guò)與事先準(zhǔn)備好的解析規(guī)則或語(yǔ)法相比較而實(shí)現(xiàn)?;谙嚓P(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問(wèn)與文獻(xiàn)的相關(guān)概率來(lái)標(biāo)引劃分文獻(xiàn),如二值獨(dú)立性標(biāo)引模型;一是根據(jù)具有一定聯(lián)系的文獻(xiàn)之間的相關(guān)概率來(lái)標(biāo)引特定的文獻(xiàn),如基于被引用與引用文獻(xiàn)的標(biāo)引方法。 (4) 確定兩個(gè)平均標(biāo)引值之間的中值測(cè)量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計(jì)算如下: 標(biāo)引值 = 標(biāo)引值越大,標(biāo)引詞Ij 賦予文獻(xiàn)的概率越大。zscore及其他相關(guān)的統(tǒng)計(jì)測(cè)量指標(biāo)定義如下。這種方法由學(xué)習(xí)和標(biāo)引兩個(gè)過(guò)程組成。n 將ngram的得分賦予其中心字符。這樣,gj 便通過(guò)一容易計(jì)算的HASH函數(shù)k映射到一表地址k(gj)上。ngram是指n(n1)個(gè)相鄰字符序列,對(duì)一文本進(jìn)行ngram處理 ,可得到該文本所包括的n長(zhǎng)字符串的集合。這里, 給出了一些常用的 tf 和idf 公式。在逆文獻(xiàn)頻率加權(quán)標(biāo)引中,詞的文獻(xiàn)頻率與詞權(quán)有互逆關(guān)系;在詞區(qū)分值加權(quán)標(biāo)引中,詞區(qū)分值與權(quán)值相一致。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權(quán)重。 基于鑒別(區(qū)分)值的基本方法 鑒別值識(shí)別是指在眾多的文檔中借助某個(gè)詞來(lái)較好地識(shí)別出某個(gè)文檔的方法。這個(gè)概念在IR中的定義不是很精確。換句話說(shuō),所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對(duì)應(yīng)。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。這種推測(cè)不可能都達(dá)到100%的準(zhǔn)確率,只需得到相對(duì)較高的確定率即可。稱為廣義標(biāo)引詞庫(kù)。其中:表示tj是di的標(biāo)引詞,表示tj不是di的標(biāo)引詞(i=1,…,n。顯然,式(22)只需計(jì)算n次。 (ij) (21)式(21)的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小,當(dāng)某篇文獻(xiàn)與某個(gè)提問(wèn)相關(guān)時(shí),只有這篇文獻(xiàn)被檢索出來(lái),從而保證了較高的查準(zhǔn)率。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個(gè)向量的夾角很小。信任函數(shù)模型(Belief Function Model)也屬于概率標(biāo)引模型,它的標(biāo)引過(guò)程是:將被標(biāo)引文獻(xiàn)與一個(gè)具有敘詞集合的受控詞表進(jìn)行比較,對(duì)出現(xiàn)在文獻(xiàn)中的受控詞表的每一敘詞,根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個(gè)基本概率數(shù)。 自動(dòng)賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來(lái)代替文本中的詞匯進(jìn)行標(biāo)引的過(guò)程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標(biāo)引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標(biāo)引的方法?;谙鄬?duì)頻率從文獻(xiàn)中抽出的詞和短語(yǔ)集合將不同于基于絕對(duì)頻率得到的集合,但是不是完全不同,許多仍然相同。取詞根程序可以自動(dòng)去除指定的詞尾,如“ed”、“ing”等。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語(yǔ)在文獻(xiàn)中出現(xiàn)的頻率、詞語(yǔ)出現(xiàn)的位置(標(biāo)題、結(jié)論、插圖說(shuō)明等)及其語(yǔ)境。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。 涵蓋率(Recall)精確度(Precision)字符串 詞 合成詞 概念圖21 概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來(lái)表示,可以是一組索引詞或關(guān)鍵詞。事實(shí)上,詞是最容易識(shí)別的語(yǔ)言單位,并且,它們也能充分地表達(dá)語(yǔ)義。二 索引的建立目的、標(biāo)準(zhǔn)在大量的文檔集中(通常情況下大約為100,000個(gè)文檔以上),為了提高檢索性能和速度, 需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。選用詞作為概念的表示形式的想法是很自然的。分詞單位是指具有確定語(yǔ)義或語(yǔ)法功能的基本單位,通常被直接選作索引詞[7]。這一問(wèn)題的擱淺直接影響了漢語(yǔ)文獻(xiàn)的自動(dòng)索引及漢語(yǔ)的句法分析與語(yǔ)義分析研究,成為中文自動(dòng)索引研究發(fā)展的瓶頸。自動(dòng)抽詞標(biāo)引思路在手工標(biāo)引中,標(biāo)引員總是盡量選擇能較好反映文獻(xiàn)主題的原文詞語(yǔ)。因此詞根(如“beat”)可以被選擇并存儲(chǔ),它代替了多種對(duì)應(yīng)的變體“beat”、“beating”、和“beated”。這種方法比絕對(duì)頻率法要復(fù)雜一些,因?yàn)樗枰酪粋€(gè)詞在數(shù)據(jù)庫(kù)中出現(xiàn)頻率,并將該頻率與詞在一特定文獻(xiàn)中的頻率相比較。在理想情況下,索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語(yǔ)義單位,對(duì)應(yīng)著語(yǔ)言學(xué)里的詞匯詞的概念,它是專門表示含義,而其實(shí)際意義無(wú)法由組合成分相加得到的最小語(yǔ)言單位[7]。 下面的過(guò)程就是用相關(guān)性描述y(s,d)來(lái)估算概率P(c/y), P(c/y)是給定相關(guān)性描述y,敘詞s標(biāo)引文獻(xiàn)d正確的概率。(1)文獻(xiàn)向量的相關(guān)性  有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個(gè)確定的位置,文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。因此,為了達(dá)到理想的檢索效果,應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開,即對(duì)式(21)求最小值。而聚類文獻(xiàn)的空間密度由式(22)給出:其中,為整個(gè)文獻(xiàn)集合矩心,為文獻(xiàn)與矩心的相關(guān)度。(1)標(biāo)引詞的信息量設(shè)文獻(xiàn)庫(kù)D={d1,d2,...,dn}為對(duì)象庫(kù),稱為外延空間,而標(biāo)引詞庫(kù)T={t1,t2,...,tn} 為屬性集,稱為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫(kù):R=R也稱為“對(duì)象屬性數(shù)據(jù)”系統(tǒng)。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然。我們的目的是從標(biāo)引詞t出發(fā),對(duì)標(biāo)引詞t’作一推測(cè)。 基于詞頻的基本方法 大量詞頻統(tǒng)計(jì)結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語(yǔ)法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時(shí)所用的核心詞,其出現(xiàn)頻率通常較高。排在第
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1