freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-文庫吧

2025-04-29 03:27 本頁面


【正文】 一概念進(jìn)行概念歸類,最終以概念類來標(biāo)引文獻(xiàn)。3自動標(biāo)引的模型 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度,由此確定了文獻(xiàn)空間密度。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來,因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動標(biāo)引的一種數(shù)學(xué)模型。  若用X(a,b)確定二維平面上點(diǎn)X的位置,用X(a,b,c)表示三維空間中點(diǎn)X的位置,同理,如果D為t維文獻(xiàn)空間,則可以用Di=(di1,di2, ..., dit)表示,其中,Di可以看成是文獻(xiàn)空間D的第i維向量,dij為文獻(xiàn)Di的第j個標(biāo)引詞的權(quán)值。(1)文獻(xiàn)向量的相關(guān)性  有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個確定的位置,文獻(xiàn)的空間位置就為我們計算它們之間的相關(guān)程度提供了途徑。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個向量的夾角很小。根據(jù)向量代數(shù)中數(shù)量積計算公式有:其中,|a|,|b|分別為向量和的模,=(a,b)為向量和的夾角,又設(shè)向量和的坐標(biāo)分別為={a1,a2,...,at}和={b1,b2,...,bt},則:由余弦函數(shù)的性質(zhì)可知,在[0,]上,其余弦值隨其角度變小而增大。這一現(xiàn)象正好反映了文獻(xiàn)空間中某兩篇文獻(xiàn)的相關(guān)程度的大小,即余弦值小,夾角大,則相關(guān)度低;反之,則相關(guān)度高。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。因此,可將兩文獻(xiàn)之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值,即S(Di,Dj)=cos,其中,= Di,Dj 為文獻(xiàn)Di,Dj之間的夾角。由于文獻(xiàn)Di是由相應(yīng)的標(biāo)引詞的權(quán)值來表示的,即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為:可以設(shè)想,在一個理想的文獻(xiàn)空間中,滿足用戶情報需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。但如果對一個給定文獻(xiàn)集合的全部檢索歷史不了解,則很難產(chǎn)生出這種理想空間。因此,為了達(dá)到理想的檢索效果,應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開,即對式(21)求最小值。 (ij) (21)式(21)的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小,當(dāng)某篇文獻(xiàn)與某個提問相關(guān)時,只有這篇文獻(xiàn)被檢索出來,從而保證了較高的查準(zhǔn)率。但這會產(chǎn)生兩個方面的問題:第一,這種將點(diǎn)分開的方式是否基于這樣一個事實,即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。第二,式(21)的計算量較大,對具有n篇文獻(xiàn)的集合而言,共需計算次。由于上述原因,我們考慮使用聚類文獻(xiàn)空間。在該空間中,文獻(xiàn)按類集中在一起,每個類由一個類的矩心C(Centroid)來表示。給定一個m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P,其矩心定義如下: 其中, (k=1,2,...,t)同理可求出整個文獻(xiàn)的矩心。在未聚類文獻(xiàn)空間中,其空間密度為所有文獻(xiàn)對相關(guān)度的總和,即式(21)的計算結(jié)果。而聚類文獻(xiàn)的空間密度由式(22)給出:其中,為整個文獻(xiàn)集合矩心,為文獻(xiàn)與矩心的相關(guān)度。顯然,式(22)只需計算n次。(2)空間密度與標(biāo)引性能的關(guān)系一個理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大,不同類之間的相關(guān)度y要小。所以y/x可用來作為測量文獻(xiàn)空間密度的標(biāo)準(zhǔn), y/x值大,則空間密度高,反之則空間密度低。 文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動標(biāo)引的理論基礎(chǔ)。 信息模型人工標(biāo)引通常是通過分析文獻(xiàn)內(nèi)容本身來確定標(biāo)引詞進(jìn)行標(biāo)引,而自動標(biāo)引是利用計算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫(信息系統(tǒng))中獲取信息來確定標(biāo)引詞的過程。兩者的區(qū)別在于從不同的對象中獲取信息,實施標(biāo)引的主體不同,但它們的目的都是為了表示信息的主題內(nèi)容。(1)標(biāo)引詞的信息量設(shè)文獻(xiàn)庫D={d1,d2,...,dn}為對象庫,稱為外延空間,而標(biāo)引詞庫T={t1,t2,...,tn} 為屬性集,稱為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫:R=R也稱為“對象屬性數(shù)據(jù)”系統(tǒng)。其中:表示tj是di的標(biāo)引詞,表示tj不是di的標(biāo)引詞(i=1,…,n。 j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對數(shù)據(jù)賦予某種意義,此數(shù)據(jù)即為信息,故“對象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。如數(shù)據(jù): ()表示了“文獻(xiàn)庫D中的文獻(xiàn)是否具有標(biāo)引詞t”這樣一條信息。在計算這種信息的信息量時,最樸素的思想是信息的外延越大,其內(nèi)涵越弱,信息量越?。环粗?,信息的外延越窄,其內(nèi)涵越強(qiáng),信息量越大。定義1: ()稱I(t)為標(biāo)引詞t的信息量。對I(t)可以直觀地理解:標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多,它的外延對象越廣,則信息量越??;反之,標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少,它的外延對象越窄,則信息量越大。定義2: 表示“文獻(xiàn)具有標(biāo)引詞t或 t’”表示“文獻(xiàn)具有標(biāo)引詞t與 t’” 其中,、是取大、取小運(yùn)算。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然。稱為廣義標(biāo)引詞庫。定理1:對t,t’,有 表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。 表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量大于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。(2)推測標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞t的情況下,可根據(jù)信息提取的思想來推測文獻(xiàn)是否具有標(biāo)引詞t’。定義3:稱 ()為由標(biāo)引詞t推測標(biāo)引詞t’的確定率。從定義3 可以看出,在獲得t的信息時,就可以從t’的信息中提取的信息,故標(biāo)引詞t對 t’的確定率就等于的信息量在t’的信息量中所占的比例,比例越高,確定率越大;反之,比例越低,確定率越小,顯然有成立。我們的目的是從標(biāo)引詞t出發(fā),對標(biāo)引詞t’作一推測。這種推測不可能都達(dá)到100%的準(zhǔn)確率,只需得到相對較高的確定率即可。這種推測是一種或然推理,具有或然性。當(dāng)確定率達(dá)到1時,就是推斷,即通常的精確推理。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞:某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。一個詞(實詞)在文獻(xiàn)中使用越頻繁,就越有可能是一個指示主題的詞。通過對這些詞語的統(tǒng)計,求出其中的高頻詞、中頻詞和低頻詞,并使用中等頻率的詞語作為標(biāo)識文獻(xiàn)的主題詞。除此以外,還可以根據(jù)取詞的不同位置、詞語本身的重要性給每個詞賦予不同的權(quán)值,使得最終的加權(quán)統(tǒng)計結(jié)果更加符合實際情況,更能體現(xiàn)文章的主題[4]。 基于詞頻的基本方法 大量詞頻統(tǒng)計結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時所用的核心詞,其出現(xiàn)頻率通常較高。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。詞頻統(tǒng)計法的出發(fā)思想是:根據(jù)詞頻統(tǒng)計結(jié)果,將出現(xiàn)頻率較高并含有實質(zhì)意義的詞匯作為反映一篇文章主題的有效測度,這一測度就確定了標(biāo)引詞的選擇范圍。 詞頻統(tǒng)計法的理論基礎(chǔ)是著名的齊普夫定律(Zipf’s Law)。齊普夫定律是描述一系列實際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗定律之一。它認(rèn)為,如果我們按照大小或者流行程度給某個大集合中的各項進(jìn)行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。換句話來說,一般來講,排在第k位的項目其比重為第一項的1/k。以英語文本的一大段典型內(nèi)容為例,最常見的單詞the通常占所有出現(xiàn)單詞的近7%。排在第二位的詞語:%,%。換句話說,所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對應(yīng)。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計分布,譬如個人的財富和收入、城市人口甚至博客讀者數(shù)量[6]。Zipf第一定律即高頻詞定律可用式(73)表示: RF=C (73)式(73)中, R為詞頻等級數(shù),F(xiàn)為詞頻,C為常數(shù),例子見表1。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即Zipf第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式(74)所示: (74)這兩個完全不同的定律刻畫了文本中詞分布的兩個極端情況。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然,不能將所有詞頻高的詞都作為索引詞??梢远x另一個上限閾值: 如果某個詞的頻率超過這個閾值,不被當(dāng)作索引詞。這兩個閾值的使用對應(yīng)于詞的信息量。信息量是指對詞所蘊(yùn)含含義的質(zhì)量的測量。這個概念在IR中的定義不是很精確。只是通過直覺來使用。但是,在信息理論中,我們可以發(fā)現(xiàn)它的等價物(例如,Shannon理論或熵)信息
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1