freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(留存版)

2025-06-28 03:27上一頁面

下一頁面
  

【正文】 性。首先,介紹自動(dòng)索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計(jì)標(biāo)引法、ngram標(biāo)引法和概率標(biāo)引、基于語言規(guī)則與內(nèi)容的索引:句法分析標(biāo)引法、語義分析標(biāo)引法和基于概念的標(biāo)引法、人工智能索引法:知識產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法和漢語自動(dòng)索引。選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中,計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法(tf),有時(shí)考察詞在整個(gè)文獻(xiàn)庫中出現(xiàn)的頻率可能更重要(df,idf)。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率)的一種賦詞標(biāo)引方法。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。 文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計(jì)標(biāo)引方法,其主要步驟是:n 給定m篇文獻(xiàn)組成的一個(gè)集合,設(shè)第k個(gè)詞在第i篇文獻(xiàn)中發(fā)生的頻率fik 。這里,Sim是標(biāo)準(zhǔn)化的公式,它的取值是[0,1](在矢量模型中將給出更多的介紹) 計(jì)算去掉第j個(gè)詞后的文獻(xiàn)空間密度,用U2表示 詞j的鑒別值定義為:DVj = U2 U1 在鑒別值的計(jì)算中,我們不能以詞的頻率為主,而是要關(guān)注詞在文檔集中的分配。 其中,1+log(N/n),是對DF進(jìn)行緩沖。n 對文獻(xiàn)中發(fā)現(xiàn)的每個(gè)ngram,用其計(jì)數(shù)與在“背景文獻(xiàn)”中對應(yīng)的計(jì)數(shù)比較。 (1) 匯集肯定和否定訓(xùn)練(Training)集合 對一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(當(dāng)然,這些文獻(xiàn)事先由標(biāo)引員標(biāo)引),這些文獻(xiàn)稱為Ij 的肯定訓(xùn)練集合。在前一步計(jì)算的關(guān)系Rj 基礎(chǔ)上,我們分別計(jì)算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù),影響了其自動(dòng)標(biāo)引效率。但是詞典的構(gòu)造困難,詞典的維護(hù)也需要付出相當(dāng)大的代價(jià),并且是永無盡頭的。如:科技文獻(xiàn)的標(biāo)題和文摘中的句型種類較為有限,如“本文討論了……”等,幾乎出現(xiàn)在每一篇文獻(xiàn)中,而這些句子對自動(dòng)標(biāo)引來說則非常重要,因?yàn)檫@些句型正是表達(dá)文獻(xiàn)主題內(nèi)容的句型。它也可以是一種公式tf * idf。比如下面的詞在意思上是相近的:transformer, transforme, transforment, transformation, transformateur, … 這些詞之間形式的不同對于信息檢索是不利的。例如,我們應(yīng)用規(guī)則:將以 ation結(jié)尾的詞替換為er結(jié)尾,transformation 224。這個(gè)詞及其權(quán)重的集合用來構(gòu)成文檔內(nèi)容的表示。在下一章中, 我們將介紹一些傳統(tǒng)的信息檢索模型。 借助于這種種類識別結(jié)構(gòu),可以將單詞轉(zhuǎn)換成標(biāo)準(zhǔn)形式。這個(gè)算法被當(dāng)作一個(gè)典型的算法。系統(tǒng)所使用的列表是變化的. 這取決于應(yīng)用領(lǐng)域。單漢字標(biāo)引和檢索的基本過程中,標(biāo)引時(shí)計(jì)算機(jī)對處理的文本逐一抽字,經(jīng)過一些處理(如去掉無意義的虛字)后,建立索引文件。切分的原則是有聯(lián)系則取,無聯(lián)系則斷。7 漢語自動(dòng)索引我國研究人員60年代初開始關(guān)注自動(dòng)標(biāo)引的研究動(dòng)向,70年代末開始探索漢語文獻(xiàn)自動(dòng)標(biāo)引問題,他們在TK 70計(jì)算機(jī)上建立了一個(gè)試驗(yàn)系統(tǒng),借助詞典對文獻(xiàn)題名進(jìn)行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 蘇新寧. 漢語文獻(xiàn)自動(dòng)標(biāo)引綜析 . 情報(bào)學(xué)報(bào),1993(2):92~99。句法分析法從文獻(xiàn)的標(biāo)題出發(fā),分析其內(nèi)在結(jié)構(gòu),其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。Rj可用加權(quán)向量描述: Rj = {wj1,wj2,...,wjm}其中,wjk 為在關(guān)系Rj中第k個(gè)詞的權(quán)重,m 為肯定及否定訓(xùn)練集合中不同單詞數(shù)。其他計(jì)算方法:例如:“Party on Peter Chen’s birthday”, 統(tǒng)計(jì)學(xué)習(xí)索引法統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法首先通過學(xué)習(xí)過程建立候選標(biāo)引詞與對其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系,然后由標(biāo)引過程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來確定其是否作為標(biāo)引詞。考慮一個(gè)長為S具有符號 s1,s2,...,ss的文本樣本,給定正整數(shù)n(典型的n值從3到6),則定義第j個(gè)ngram gj如下:gj =(sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1) 抽出文本的全部ngram之后,用一HASH表統(tǒng)計(jì)ngram。通過 idf, 來測量詞的鑒別性,是對整個(gè)文檔集合而言的。在矢量模型中,每個(gè)文檔由加權(quán)的矢量來表示,例子如下: t1 t2 t3 … tndi 224。信息量是指對詞所蘊(yùn)含含義的質(zhì)量的測量。 基于詞頻的基本方法 大量詞頻統(tǒng)計(jì)結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時(shí)所用的核心詞,其出現(xiàn)頻率通常較高。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然。而聚類文獻(xiàn)的空間密度由式(22)給出:其中,為整個(gè)文獻(xiàn)集合矩心,為文獻(xiàn)與矩心的相關(guān)度。(1)文獻(xiàn)向量的相關(guān)性  有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個(gè)確定的位置,文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。在理想情況下,索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語義單位,對應(yīng)著語言學(xué)里的詞匯詞的概念,它是專門表示含義,而其實(shí)際意義無法由組合成分相加得到的最小語言單位[7]。因此詞根(如“beat”)可以被選擇并存儲,它代替了多種對應(yīng)的變體“beat”、“beating”、和“beated”。這一問題的擱淺直接影響了漢語文獻(xiàn)的自動(dòng)索引及漢語的句法分析與語義分析研究,成為中文自動(dòng)索引研究發(fā)展的瓶頸。選用詞作為概念的表示形式的想法是很自然的。事實(shí)上,詞是最容易識別的語言單位,并且,它們也能充分地表達(dá)語義。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。取詞根程序可以自動(dòng)去除指定的詞尾,如“ed”、“ing”等。 自動(dòng)賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來代替文本中的詞匯進(jìn)行標(biāo)引的過程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標(biāo)引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標(biāo)引的方法。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個(gè)向量的夾角很小。顯然,式(22)只需計(jì)算n次。稱為廣義標(biāo)引詞庫。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。這個(gè)概念在IR中的定義不是很精確。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權(quán)重。這里, 給出了一些常用的 tf 和idf 公式。這樣,gj 便通過一容易計(jì)算的HASH函數(shù)k映射到一表地址k(gj)上。這種方法由學(xué)習(xí)和標(biāo)引兩個(gè)過程組成。 (4) 確定兩個(gè)平均標(biāo)引值之間的中值測量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計(jì)算如下: 標(biāo)引值 = 標(biāo)引值越大,標(biāo)引詞Ij 賦予文獻(xiàn)的概率越大。它從語法角度上確定句子中每個(gè)詞的作用 (如主語還是謂語 )和詞之間的相互關(guān)系 (如是修飾還是被修飾 ),并通過與事先準(zhǔn)備好的解析規(guī)則或語法相比較而實(shí)現(xiàn)。比較有代表性的自動(dòng)標(biāo)引系統(tǒng)有基于部件詞典的啟動(dòng)標(biāo)引系統(tǒng)、基于規(guī)則與詞典的自動(dòng)標(biāo)方法、基于非用字后綴表法的自動(dòng)標(biāo)引等 顧敏、史麗萍、李春玲. 自動(dòng)標(biāo)引綜述. 黑龍江水專學(xué)報(bào),2000(9):103~104。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引,證明其簡單易行,并能獲得較高的準(zhǔn)確率。檢索時(shí)輸入的檢索字與索引文件進(jìn)行比較,并做一些邏輯組配,得出檢索結(jié)果。例如,concrete, adj. 具體的 n. 水泥(建筑學(xué)領(lǐng)域) 停止表的使用是非常簡單的. 將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。很多系統(tǒng)采用這個(gè)方法或它的變體。9 索引的結(jié)果在創(chuàng)建索引的過程中,必須轉(zhuǎn)換單詞的形式,選擇一些關(guān)鍵詞作為索引詞并對它們進(jìn)行測量。10 參考文獻(xiàn)[1 ] . Porter, An algorithm for suffix stripping, Program, 14(13): 130137, 1980.[2] J. Savoy, Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 19, 1993.[3] 林春實(shí)、方燕、全吉成. 漢語文獻(xiàn)自動(dòng)分詞與標(biāo)引技術(shù)發(fā)展淺析. 情報(bào)學(xué)報(bào),1997(12):30~33[4] 網(wǎng)絡(luò)信息資源自動(dòng)標(biāo)引——面向中文網(wǎng)絡(luò)文本信息的研究,北京大學(xué)校長基金論文集(2003)。 {… (ti, pi), …} ti是指一個(gè)詞, pi是它的權(quán)重。為了知道一個(gè)字母序列是否是一個(gè)最終的字,對它進(jìn)行從后面去掉某些字母或形式裝換,來驗(yàn)證剩余的部分是否在字典中,如果不是, 這不是一種正確的方法,采用其它的想象的方法。 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。它可以用簡單的發(fā)生頻率來表示,或者對頻率的某種轉(zhuǎn)化(比如標(biāo)準(zhǔn)化)來表示。但是句型文法分析則相對容易。其思想是構(gòu)造 一個(gè)詞典(主題詞典、關(guān)鍵詞典、部件詞典等),
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1