freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(文件)

 

【正文】 引值之間的中值測(cè)量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計(jì)算如下: 標(biāo)引值 = 標(biāo)引值越大,標(biāo)引詞Ij 賦予文獻(xiàn)的概率越大。這兩個(gè)平均標(biāo)引值的中值(表示為Mj)定義如下: Mj = Mj 將作為閾值來(lái)決定標(biāo)引詞Ij是否應(yīng)賦予一文獻(xiàn)。基于相關(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問(wèn)與文獻(xiàn)的相關(guān)概率來(lái)標(biāo)引劃分文獻(xiàn),如二值獨(dú)立性標(biāo)引模型;一是根據(jù)具有一定聯(lián)系的文獻(xiàn)之間的相關(guān)概率來(lái)標(biāo)引特定的文獻(xiàn),如基于被引用與引用文獻(xiàn)的標(biāo)引方法。 這種標(biāo)引方法目前還處于理論階段,具體的標(biāo)引工具還沒(méi)有出現(xiàn)。它從語(yǔ)法角度上確定句子中每個(gè)詞的作用 (如主語(yǔ)還是謂語(yǔ) )和詞之間的相互關(guān)系 (如是修飾還是被修飾 ),并通過(guò)與事先準(zhǔn)備好的解析規(guī)則或語(yǔ)法相比較而實(shí)現(xiàn)。另外,這種方法僅以文獻(xiàn)標(biāo)題為標(biāo)引對(duì)象,雖然主題內(nèi)容容易突出,但標(biāo)題句法形式的規(guī)范性一般較差,增加了句法分析的難度,同時(shí)過(guò)窄的分析范圍容易漏標(biāo)一些相關(guān)主題[4]。實(shí)現(xiàn)自動(dòng)標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動(dòng),即讓計(jì)算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作,因此,人們把人工智能法運(yùn)用于自動(dòng)標(biāo)引研究既順應(yīng)自然,又帶來(lái)新的活力。DIES 系統(tǒng)定義了一些語(yǔ)義特征, 如object (對(duì)象)、human(人類)、course (學(xué)科)、operate(操作)等。比較有代表性的自動(dòng)標(biāo)引系統(tǒng)有基于部件詞典的啟動(dòng)標(biāo)引系統(tǒng)、基于規(guī)則與詞典的自動(dòng)標(biāo)方法、基于非用字后綴表法的自動(dòng)標(biāo)引等 顧敏、史麗萍、李春玲. 自動(dòng)標(biāo)引綜述. 黑龍江水專學(xué)報(bào),2000(9):103~104。當(dāng)今社切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來(lái)構(gòu)建的,也有用“非用字”、“條件用字”等來(lái)組成的。該法將漢字用與不用機(jī)械地分為四個(gè)類別:A表外用字、B表內(nèi)用字、C條件用字、D非用字,并根據(jù)這些字的屬性構(gòu)造了一個(gè)字典——非用字后綴表。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引,證明其簡(jiǎn)單易行,并能獲得較高的準(zhǔn)確率。因此可以用句型文法來(lái)描述現(xiàn)代漢語(yǔ),進(jìn)而抽取主題詞進(jìn)行標(biāo)引。目前已提出的各種漢語(yǔ)自動(dòng)標(biāo)引方法,基本不進(jìn)行語(yǔ)義理解,只從形式上進(jìn)行機(jī)械地匹配抽詞來(lái)完成標(biāo)引,這種語(yǔ)言表層的標(biāo)引方式必然出現(xiàn)標(biāo)引素材與原文主題內(nèi)容不符的局限。 單漢字標(biāo)引法 單漢字標(biāo)引法吸收了西文自動(dòng)抽詞標(biāo)引的部分思想,在標(biāo)引時(shí)將概念詞拆成單漢 字,以單漢字為處理單位,利用漢字索引文件實(shí)現(xiàn)自動(dòng)標(biāo)引和邏輯檢索。檢索時(shí)輸入的檢索字與索引文件進(jìn)行比較,并做一些邏輯組配,得出檢索結(jié)果。多種情況顯示只是簡(jiǎn)單地使用發(fā)生頻率來(lái)衡量詞的頻率,不能取得滿意的性能(即使去掉了功能詞)。因此,特征詞的篩選和權(quán)重分配不是兩個(gè)獨(dú)立的處理過(guò)程。為了濾掉這些詞, 通常使用一個(gè)列表,稱為停止表,它包括不想保留的詞。例如,concrete, adj. 具體的 n. 水泥(建筑學(xué)領(lǐng)域) 停止表的使用是非常簡(jiǎn)單的. 將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。對(duì)于關(guān)于“transform”的提問(wèn),人們希望找到含有“transformation”的文檔。具體方法如下: 觀察詞的構(gòu)成,按照詞形來(lái)推理出詞根。 這個(gè)算法有時(shí)將兩個(gè)不同的詞轉(zhuǎn)換成了相同的詞,如derivate/derive, activate/active 等。很多系統(tǒng)采用這個(gè)方法或它的變體。 transformer。這個(gè)方法被應(yīng)用于[Savoy93]。在詞形的轉(zhuǎn)換過(guò)程中利用一個(gè)自動(dòng)的標(biāo)識(shí)器(或一個(gè)種類分析器)。9 索引的結(jié)果在創(chuàng)建索引的過(guò)程中,必須轉(zhuǎn)換單詞的形式,選擇一些關(guān)鍵詞作為索引詞并對(duì)它們進(jìn)行測(cè)量。怎么組織這些詞來(lái)做具體的表示呢?這取決于所使用的信息檢索模型。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法[5]。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。10 參考文獻(xiàn)[1 ] . Porter, An algorithm for suffix stripping, Program, 14(13): 130137, 1980.[2] J. Savoy, Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 19, 1993.[3] 林春實(shí)、方燕、全吉成. 漢語(yǔ)文獻(xiàn)自動(dòng)分詞與標(biāo)引技術(shù)發(fā)展淺析. 情報(bào)學(xué)報(bào),1997(12):30~33[4] 網(wǎng)絡(luò)信息資源自動(dòng)標(biāo)引——面向中文網(wǎng)絡(luò)文本信息的研究,北京大學(xué)校長(zhǎng)基金論文集(2003)。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量[5]。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)[5]。一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。 {… (ti, pi), …} ti是指一個(gè)詞, pi是它的權(quán)重。首先,應(yīng)用手工創(chuàng)建的種類集(訓(xùn)練集)來(lái)建立一個(gè)概率模型,這個(gè)模型根據(jù)單詞的形式和它周圍的詞來(lái)確定它應(yīng)屬于的種類。這種方法不是很常用。為了避免這種情況發(fā)生, 使用一個(gè)字典來(lái)驗(yàn)證是否“vocer”存在于字典中。為了知道一個(gè)字母序列是否是一個(gè)最終的字,對(duì)它進(jìn)行從后面去掉某些字母或形式裝換,來(lái)驗(yàn)證剩余的部分是否在字典中,如果不是, 這不是一種正確的方法,采用其它的想象的方法。把這個(gè)算法和其它更復(fù)雜的算法比較,這個(gè)算法既簡(jiǎn)單又有很好的性能。這個(gè)算法包括:?jiǎn)螐?fù)數(shù)的轉(zhuǎn)換,派生詞等。我們注意到,這些詞有相同的詞根。 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。只是覺(jué)得對(duì)于信息檢索系統(tǒng)它們不是很重要。通過(guò)鑒別值和idf 方法不能濾掉它們。在實(shí)際中,如果采用tf * idf的方法來(lái)篩選特征詞,可以將tf * idf值作為詞的權(quán)重。它可以用簡(jiǎn)單的發(fā)生頻率來(lái)表示,或者對(duì)頻率的某種轉(zhuǎn)化(比如標(biāo)準(zhǔn)化)來(lái)表示。由于這種方法把對(duì)“詞”的處理改為對(duì)“字”的處理, 因此就繞過(guò)了漢字分詞的難題。但是專家系統(tǒng)中知識(shí)庫(kù)的構(gòu)造和推理機(jī)制的建立具有相當(dāng)大的難度,它的實(shí)際處理技術(shù)與已建立的語(yǔ)義形式化理論還有很大的差距。 漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)是以漢語(yǔ)語(yǔ)義理解為特征的自動(dòng)標(biāo)引系統(tǒng)。但是句型文法分析則相對(duì)容易。將用字取出,非用字舍去。 該方法的關(guān)鍵在于詞語(yǔ)切分。所以詞典法里詞典的構(gòu)造完善與否直接影響到標(biāo)引質(zhì)量。其思想是構(gòu)造 一個(gè)詞典(主題詞典、關(guān)鍵詞典、部件詞典等),然后設(shè)計(jì)各種算法用文獻(xiàn)數(shù)據(jù)去匹配詞典,抽出標(biāo)引詞。等。采用人工智能法進(jìn)行自動(dòng)標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法要復(fù)雜,但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過(guò)程,這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其它自動(dòng)標(biāo)引方法更有希望獲得理想的標(biāo)引效果。這種方法本身受制于語(yǔ)言學(xué)的發(fā)展,而眾所周知的是語(yǔ)言學(xué),尤其是計(jì)算語(yǔ)言學(xué)本身的研究難度,所以目前利用語(yǔ)義分析的方法進(jìn)行標(biāo)引的研究還不多,所能見(jiàn)到的有諸如:潛在語(yǔ)義分析標(biāo)引法、相信函數(shù)模型和語(yǔ)義矢量空間模型等。數(shù)字化指示符和處理碼標(biāo)識(shí)的運(yùn)用更方便了計(jì)算機(jī)的識(shí)別處理。它們一般都借助詞典來(lái)制定詞的語(yǔ)法范疇,以此作為句法分析的基礎(chǔ),最終抽出可做標(biāo)引詞的詞語(yǔ)。而RPI模型則是同時(shí)以 需求一文獻(xiàn)相關(guān)概率和敘詞標(biāo)引文獻(xiàn)正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法。標(biāo)引過(guò)程描述如下: FOR (j=1 to n) DO /* 假設(shè)有n個(gè)可能被確定的標(biāo)引詞*/ IF Mj THEN 標(biāo)引詞Ij 賦予文獻(xiàn) ENDIF從概率論的角度進(jìn)行文獻(xiàn)自動(dòng)標(biāo)引的方法最初由Maron 和Kuhns 于1960年提出,其基本思想事:文獻(xiàn)檢索系統(tǒng)可根據(jù)文獻(xiàn)滿足提問(wèn)的概率來(lái)估計(jì)輸出文獻(xiàn)并對(duì)其分級(jí)。這一步驟的目的就是為標(biāo)引詞Ij計(jì)算閾值。在這一步之后,我們建立了標(biāo)引詞Ij和促進(jìn)詞及削弱詞集合之間的關(guān)系Rj。相反地,如果一個(gè)詞的出現(xiàn)削弱了Ij 的標(biāo)引,則該詞稱為Ij的削弱詞。類似地,在否定集合中的每個(gè)詞亦被統(tǒng)計(jì),其zscore也被計(jì)算出來(lái)。對(duì)一特定標(biāo)引詞Ij,將實(shí)施由四步組成的學(xué)習(xí)過(guò)程。Cohen用此法不僅標(biāo)引了英文文獻(xiàn),而且還標(biāo)引了 西班牙文、德文、格魯吉亞文、俄文、日文,取得了較好的試驗(yàn)結(jié)果。這些被抽出的單詞或短語(yǔ)即為文獻(xiàn)標(biāo)引詞(最亮點(diǎn))。在gj 相互獨(dú)立的假設(shè)下,向量變?yōu)橄旅娴亩囗?xiàng)式: 其中f是多項(xiàng)式密度, 是潛在概率向量。在統(tǒng)計(jì)中如發(fā)現(xiàn)某ngram包含禁用符號(hào),則該ngram不被統(tǒng)計(jì)。n 在過(guò)濾后的文獻(xiàn)中統(tǒng)計(jì)ngram。1979年Burnett、Willet等人將這種方法引入情報(bào)檢索領(lǐng)域。2. 詞的鑒別性的重要性(idf). 因此, 有較高的tf*idf 值的詞在文檔中一定是重要的, 同時(shí)它一定在其它文檔中出現(xiàn)很少. 這就是詞與文檔的重要特征和獨(dú)特性相對(duì)應(yīng)的情況. 通過(guò)這樣的公式, 可以選擇只保留tf*idf的值超過(guò)規(guī)定的閾值的那些詞作為特征詞。包括:?? Maximum Normalization: ??Augmented Maximum Normalization: ?? Cosine Normalization:b、對(duì)TF進(jìn)行緩沖:1+log(TF), 1+log(1+log(TF)),c、Log的作用:將值域拉平,使得函數(shù)的變化更平緩idf = log (N/n), 其中,N是文檔集中的文檔數(shù), n是包含某個(gè)特征詞的文檔數(shù)。通過(guò)tf, 進(jìn)行了詞對(duì)文檔的重要性的測(cè)量,只對(duì)文檔集合中某確定的文檔有意義,通常, 這個(gè)值是由文檔中的詞的頻率確定的。 因此,詞的文獻(xiàn)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1