freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-wenkub

2023-05-29 03:27:38 本頁面
 

【正文】 概念選擇,選出的概念經(jīng)規(guī)范化處理后,計(jì)算其與其他概念之間的關(guān)聯(lián)度,進(jìn)而將統(tǒng)一概念進(jìn)行概念歸類,最終以概念類來標(biāo)引文獻(xiàn)。 下面的過程就是用相關(guān)性描述y(s,d)來估算概率P(c/y), P(c/y)是給定相關(guān)性描述y,敘詞s標(biāo)引文獻(xiàn)d正確的概率。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率)的一種賦詞標(biāo)引方法。在理想情況下,索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語義單位,對應(yīng)著語言學(xué)里的詞匯詞的概念,它是專門表示含義,而其實(shí)際意義無法由組合成分相加得到的最小語言單位[7]。例如,Baxendale在1985年提出了對段落主題句抽詞的思想,認(rèn)為只需對每段文本的第一個(gè)和最后一個(gè)句子進(jìn)行處理。這種方法比絕對頻率法要復(fù)雜一些,因?yàn)樗枰酪粋€(gè)詞在數(shù)據(jù)庫中出現(xiàn)頻率,并將該頻率與詞在一特定文獻(xiàn)中的頻率相比較。選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中,計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法(tf),有時(shí)考察詞在整個(gè)文獻(xiàn)庫中出現(xiàn)的頻率可能更重要(df,idf)。因此詞根(如“beat”)可以被選擇并存儲(chǔ),它代替了多種對應(yīng)的變體“beat”、“beating”、和“beated”。選擇標(biāo)引詞的分界點(diǎn)可根據(jù)下面幾種標(biāo)準(zhǔn)來確定:詞的絕對數(shù)、與文本長度有關(guān)的數(shù)、詞頻超過一定閾值的詞數(shù)。自動(dòng)抽詞標(biāo)引思路在手工標(biāo)引中,標(biāo)引員總是盡量選擇能較好反映文獻(xiàn)主題的原文詞語。首先,介紹自動(dòng)索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計(jì)標(biāo)引法、ngram標(biāo)引法和概率標(biāo)引、基于語言規(guī)則與內(nèi)容的索引:句法分析標(biāo)引法、語義分析標(biāo)引法和基于概念的標(biāo)引法、人工智能索引法:知識(shí)產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法和漢語自動(dòng)索引。這一問題的擱淺直接影響了漢語文獻(xiàn)的自動(dòng)索引及漢語的句法分析與語義分析研究,成為中文自動(dòng)索引研究發(fā)展的瓶頸。首先,對文本信息進(jìn)行預(yù)處理,預(yù)處理技術(shù)主要包括結(jié)構(gòu)提取、分詞(中文)、詞干提取等,然后選擇特征表示形式和進(jìn)行特征提取, 以一定特征項(xiàng)(如詞或詞組)來代表文檔,在檢索時(shí)只需對這些特征項(xiàng)進(jìn)行處理。分詞單位是指具有確定語義或語法功能的基本單位,通常被直接選作索引詞[7]。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確性。選用詞作為概念的表示形式的想法是很自然的。目前存在的技術(shù),大多限制在某一特別領(lǐng)域。二 索引的建立目的、標(biāo)準(zhǔn)在大量的文檔集中(通常情況下大約為100,000個(gè)文檔以上),為了提高檢索性能和速度, 需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。建立索引的目標(biāo)是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。事實(shí)上,詞是最容易識(shí)別的語言單位,并且,它們也能充分地表達(dá)語義。因此,研究者們提出了新的方法,建議將單詞組織起來形成合成詞,文獻(xiàn)可以由詞和短語聯(lián)合來描述。 涵蓋率(Recall)精確度(Precision)字符串 詞 合成詞 概念圖21 概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來表示,可以是一組索引詞或關(guān)鍵詞。圖22 索引詞選取框圖(英文文檔)詞或詞組停用詞中文切詞中文文檔自動(dòng)或手工索引結(jié)構(gòu)識(shí)別索引詞集合 結(jié)構(gòu)圖23 索引詞選取框圖(中文文檔)語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者在漢語自動(dòng)分詞與索引的研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決漢語分詞的方法。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。其中,重點(diǎn)介紹基于詞匯分布特征的索引方法,其它方法只是簡單講解,同學(xué)們課后可以查閱相關(guān)的資料,對每個(gè)方法進(jìn)行總結(jié),形成介紹性的文章。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語在文獻(xiàn)中出現(xiàn)的頻率、詞語出現(xiàn)的位置(標(biāo)題、結(jié)論、插圖說明等)及其語境。更復(fù)雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語。取詞根程序可以自動(dòng)去除指定的詞尾,如“ed”、“ing”等。最好的區(qū)分詞(能將一篇文獻(xiàn)與其他文獻(xiàn)區(qū)分開的詞)應(yīng)能保證在非相關(guān)的文獻(xiàn)集合中很少出現(xiàn)或不出現(xiàn),如“石棉”在圖書館學(xué)文獻(xiàn)中,“圖書館”在石棉公司數(shù)據(jù)庫中?;谙鄬︻l率從文獻(xiàn)中抽出的詞和短語集合將不同于基于絕對頻率得到的集合,但是不是完全不同,許多仍然相同。因?yàn)橐豁?xiàng)研究表明,第一個(gè)句子是段落“主題句”的比例為85%,最后一個(gè)句子也超過7%。 自動(dòng)賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來代替文本中的詞匯進(jìn)行標(biāo)引的過程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標(biāo)引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標(biāo)引的方法?!≡谶@種方法中,加權(quán)函數(shù)r(s,t)近似等于將敘詞s賦給含有詞條t的文獻(xiàn)的正確性概率P(c/s,t)。信任函數(shù)模型(Belief Function Model)也屬于概率標(biāo)引模型,它的標(biāo)引過程是:將被標(biāo)引文獻(xiàn)與一個(gè)具有敘詞集合的受控詞表進(jìn)行比較,對出現(xiàn)在文獻(xiàn)中的受控詞表的每一敘詞,根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個(gè)基本概率數(shù)。3自動(dòng)標(biāo)引的模型 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度,由此確定了文獻(xiàn)空間密度。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個(gè)向量的夾角很小。因此,可將兩文獻(xiàn)之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值,即S(Di,Dj)=cos,其中,= Di,Dj 為文獻(xiàn)Di,Dj之間的夾角。 (ij) (21)式(21)的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小,當(dāng)某篇文獻(xiàn)與某個(gè)提問相關(guān)時(shí),只有這篇文獻(xiàn)被檢索出來,從而保證了較高的查準(zhǔn)率。在該空間中,文獻(xiàn)按類集中在一起,每個(gè)類由一個(gè)類的矩心C(Centroid)來表示。顯然,式(22)只需計(jì)算n次。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動(dòng)標(biāo)引的理論基礎(chǔ)。其中:表示tj是di的標(biāo)引詞,表示tj不是di的標(biāo)引詞(i=1,…,n。定義1: ()稱I(t)為標(biāo)引詞t的信息量。稱為廣義標(biāo)引詞庫。(2)推測標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞t的情況下,可根據(jù)信息提取的思想來推測文獻(xiàn)是否具有標(biāo)引詞t’。這種推測不可能都達(dá)到100%的準(zhǔn)確率,只需得到相對較高的確定率即可。一個(gè)詞(實(shí)詞)在文獻(xiàn)中使用越頻繁,就越有可能是一個(gè)指示主題的詞。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。它認(rèn)為,如果我們按照大小或者流行程度給某個(gè)大集合中的各項(xiàng)進(jìn)行排序,集合中第二項(xiàng)的比重大約是第一項(xiàng)的一半,而第三項(xiàng)的比重大約是第一項(xiàng)的三分之一,以此類推。換句話說,所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對應(yīng)。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個(gè)定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然,不能將所有詞頻高的詞都作為索引詞。這個(gè)概念在IR中的定義不是很精確。n 決定該詞在整個(gè)文獻(xiàn)集上的發(fā)生頻率:n 按照fk的大小將詞降序排列,確定一個(gè)上截止閾值,去掉fk 大于上截止閾值的詞,確定一個(gè)下截止閾值,去掉fk 小于下截止閾值的詞。 基于鑒別(區(qū)分)值的基本方法 鑒別值識(shí)別是指在眾多的文檔中借助某個(gè)詞來較好地識(shí)別出某個(gè)文檔的方法。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。 pi1 pi2 pi3 … pin其中,pij表示詞tj 在文檔di中的權(quán)重。在應(yīng)用鑒別值時(shí),就淘汰了功能詞,英語中如,“of”, “to” 等。在逆文獻(xiàn)頻率加權(quán)標(biāo)引中,詞的文獻(xiàn)頻率與詞權(quán)有互逆關(guān)系;在詞區(qū)分值加權(quán)標(biāo)引中,詞區(qū)分值與權(quán)值相一致。*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。這里, 給出了一些常用的 tf 和idf 公式。最后,可以在值的計(jì)算中加入一些標(biāo)準(zhǔn)化的處理方式。ngram是指n(n1)個(gè)相鄰字符序列,對一文本進(jìn)行ngram處理 ,可得到該文本所包括的n長字符串的集合。Cohen的ngram標(biāo)引法主要包括以下幾個(gè)步驟:n 過濾文獻(xiàn)。這樣,gj 便通過一容易計(jì)算的HASH函數(shù)k映射到一表地址k(gj)上?!氨尘拔墨I(xiàn)”是同被標(biāo)引文獻(xiàn)有虛構(gòu)聯(lián)系的一組文獻(xiàn)。n 將ngram的得分賦予其中心字符。n 將抽出的單詞或短語并入一詞表,累計(jì)其各個(gè)特例得分作為該單詞或短語的總得分。這種方法由學(xué)習(xí)和標(biāo)引兩個(gè)過程組成。同時(shí)一些未被Ij 標(biāo)引的文獻(xiàn)也被匯集起來,這些文獻(xiàn)稱為Ij 的否定訓(xùn)練集合。zscore及其他相關(guān)的統(tǒng)計(jì)測量指標(biāo)定義如下。n 促進(jìn)詞選擇IF(一個(gè)在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)AND(一個(gè)在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的促進(jìn)詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。 (4) 確定兩個(gè)平均標(biāo)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1