freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-文庫(kù)吧

2025-04-29 03:27 本頁面


【正文】 一概念進(jìn)行概念歸類,最終以概念類來標(biāo)引文獻(xiàn)。3自動(dòng)標(biāo)引的模型 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度,由此確定了文獻(xiàn)空間密度。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來,因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動(dòng)標(biāo)引的一種數(shù)學(xué)模型?! ∪粲肵(a,b)確定二維平面上點(diǎn)X的位置,用X(a,b,c)表示三維空間中點(diǎn)X的位置,同理,如果D為t維文獻(xiàn)空間,則可以用Di=(di1,di2, ..., dit)表示,其中,Di可以看成是文獻(xiàn)空間D的第i維向量,dij為文獻(xiàn)Di的第j個(gè)標(biāo)引詞的權(quán)值。(1)文獻(xiàn)向量的相關(guān)性  有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個(gè)確定的位置,文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個(gè)向量的夾角很小。根據(jù)向量代數(shù)中數(shù)量積計(jì)算公式有:其中,|a|,|b|分別為向量和的模,=(a,b)為向量和的夾角,又設(shè)向量和的坐標(biāo)分別為={a1,a2,...,at}和={b1,b2,...,bt},則:由余弦函數(shù)的性質(zhì)可知,在[0,]上,其余弦值隨其角度變小而增大。這一現(xiàn)象正好反映了文獻(xiàn)空間中某兩篇文獻(xiàn)的相關(guān)程度的大小,即余弦值小,夾角大,則相關(guān)度低;反之,則相關(guān)度高。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。因此,可將兩文獻(xiàn)之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值,即S(Di,Dj)=cos,其中,= Di,Dj 為文獻(xiàn)Di,Dj之間的夾角。由于文獻(xiàn)Di是由相應(yīng)的標(biāo)引詞的權(quán)值來表示的,即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為:可以設(shè)想,在一個(gè)理想的文獻(xiàn)空間中,滿足用戶情報(bào)需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。但如果對(duì)一個(gè)給定文獻(xiàn)集合的全部檢索歷史不了解,則很難產(chǎn)生出這種理想空間。因此,為了達(dá)到理想的檢索效果,應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開,即對(duì)式(21)求最小值。 (ij) (21)式(21)的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小,當(dāng)某篇文獻(xiàn)與某個(gè)提問相關(guān)時(shí),只有這篇文獻(xiàn)被檢索出來,從而保證了較高的查準(zhǔn)率。但這會(huì)產(chǎn)生兩個(gè)方面的問題:第一,這種將點(diǎn)分開的方式是否基于這樣一個(gè)事實(shí),即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。第二,式(21)的計(jì)算量較大,對(duì)具有n篇文獻(xiàn)的集合而言,共需計(jì)算次。由于上述原因,我們考慮使用聚類文獻(xiàn)空間。在該空間中,文獻(xiàn)按類集中在一起,每個(gè)類由一個(gè)類的矩心C(Centroid)來表示。給定一個(gè)m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P,其矩心定義如下: 其中, (k=1,2,...,t)同理可求出整個(gè)文獻(xiàn)的矩心。在未聚類文獻(xiàn)空間中,其空間密度為所有文獻(xiàn)對(duì)相關(guān)度的總和,即式(21)的計(jì)算結(jié)果。而聚類文獻(xiàn)的空間密度由式(22)給出:其中,為整個(gè)文獻(xiàn)集合矩心,為文獻(xiàn)與矩心的相關(guān)度。顯然,式(22)只需計(jì)算n次。(2)空間密度與標(biāo)引性能的關(guān)系一個(gè)理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大,不同類之間的相關(guān)度y要小。所以y/x可用來作為測(cè)量文獻(xiàn)空間密度的標(biāo)準(zhǔn), y/x值大,則空間密度高,反之則空間密度低。 文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動(dòng)標(biāo)引的理論基礎(chǔ)。 信息模型人工標(biāo)引通常是通過分析文獻(xiàn)內(nèi)容本身來確定標(biāo)引詞進(jìn)行標(biāo)引,而自動(dòng)標(biāo)引是利用計(jì)算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫(kù)(信息系統(tǒng))中獲取信息來確定標(biāo)引詞的過程。兩者的區(qū)別在于從不同的對(duì)象中獲取信息,實(shí)施標(biāo)引的主體不同,但它們的目的都是為了表示信息的主題內(nèi)容。(1)標(biāo)引詞的信息量設(shè)文獻(xiàn)庫(kù)D={d1,d2,...,dn}為對(duì)象庫(kù),稱為外延空間,而標(biāo)引詞庫(kù)T={t1,t2,...,tn} 為屬性集,稱為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫(kù):R=R也稱為“對(duì)象屬性數(shù)據(jù)”系統(tǒng)。其中:表示tj是di的標(biāo)引詞,表示tj不是di的標(biāo)引詞(i=1,…,n。 j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對(duì)數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對(duì)數(shù)據(jù)賦予某種意義,此數(shù)據(jù)即為信息,故“對(duì)象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。如數(shù)據(jù): ()表示了“文獻(xiàn)庫(kù)D中的文獻(xiàn)是否具有標(biāo)引詞t”這樣一條信息。在計(jì)算這種信息的信息量時(shí),最樸素的思想是信息的外延越大,其內(nèi)涵越弱,信息量越??;反之,信息的外延越窄,其內(nèi)涵越強(qiáng),信息量越大。定義1: ()稱I(t)為標(biāo)引詞t的信息量。對(duì)I(t)可以直觀地理解:標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多,它的外延對(duì)象越廣,則信息量越?。环粗?,標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少,它的外延對(duì)象越窄,則信息量越大。定義2: 表示“文獻(xiàn)具有標(biāo)引詞t或 t’”表示“文獻(xiàn)具有標(biāo)引詞t與 t’” 其中,、是取大、取小運(yùn)算。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然。稱為廣義標(biāo)引詞庫(kù)。定理1:對(duì)t,t’,有 表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。 表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量大于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。(2)推測(cè)標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞t的情況下,可根據(jù)信息提取的思想來推測(cè)文獻(xiàn)是否具有標(biāo)引詞t’。定義3:稱 ()為由標(biāo)引詞t推測(cè)標(biāo)引詞t’的確定率。從定義3 可以看出,在獲得t的信息時(shí),就可以從t’的信息中提取的信息,故標(biāo)引詞t對(duì) t’的確定率就等于的信息量在t’的信息量中所占的比例,比例越高,確定率越大;反之,比例越低,確定率越小,顯然有成立。我們的目的是從標(biāo)引詞t出發(fā),對(duì)標(biāo)引詞t’作一推測(cè)。這種推測(cè)不可能都達(dá)到100%的準(zhǔn)確率,只需得到相對(duì)較高的確定率即可。這種推測(cè)是一種或然推理,具有或然性。當(dāng)確定率達(dá)到1時(shí),就是推斷,即通常的精確推理。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞:某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。一個(gè)詞(實(shí)詞)在文獻(xiàn)中使用越頻繁,就越有可能是一個(gè)指示主題的詞。通過對(duì)這些詞語的統(tǒng)計(jì),求出其中的高頻詞、中頻詞和低頻詞,并使用中等頻率的詞語作為標(biāo)識(shí)文獻(xiàn)的主題詞。除此以外,還可以根據(jù)取詞的不同位置、詞語本身的重要性給每個(gè)詞賦予不同的權(quán)值,使得最終的加權(quán)統(tǒng)計(jì)結(jié)果更加符合實(shí)際情況,更能體現(xiàn)文章的主題[4]。 基于詞頻的基本方法 大量詞頻統(tǒng)計(jì)結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時(shí)所用的核心詞,其出現(xiàn)頻率通常較高。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。詞頻統(tǒng)計(jì)法的出發(fā)思想是:根據(jù)詞頻統(tǒng)計(jì)結(jié)果,將出現(xiàn)頻率較高并含有實(shí)質(zhì)意義的詞匯作為反映一篇文章主題的有效測(cè)度,這一測(cè)度就確定了標(biāo)引詞的選擇范圍。 詞頻統(tǒng)計(jì)法的理論基礎(chǔ)是著名的齊普夫定律(Zipf’s Law)。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。它認(rèn)為,如果我們按照大小或者流行程度給某個(gè)大集合中的各項(xiàng)進(jìn)行排序,集合中第二項(xiàng)的比重大約是第一項(xiàng)的一半,而第三項(xiàng)的比重大約是第一項(xiàng)的三分之一,以此類推。換句話來說,一般來講,排在第k位的項(xiàng)目其比重為第一項(xiàng)的1/k。以英語文本的一大段典型內(nèi)容為例,最常見的單詞the通常占所有出現(xiàn)單詞的近7%。排在第二位的詞語:%,%。換句話說,所占比例的順序(7. 0、)與1/k順序(1/1/1/3…)緊密對(duì)應(yīng)。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計(jì)分布,譬如個(gè)人的財(cái)富和收入、城市人口甚至博客讀者數(shù)量[6]。Zipf第一定律即高頻詞定律可用式(73)表示: RF=C (73)式(73)中, R為詞頻等級(jí)數(shù),F(xiàn)為詞頻,C為常數(shù),例子見表1。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即Zipf第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式(74)所示: (74)這兩個(gè)完全不同的定律刻畫了文本中詞分布的兩個(gè)極端情況。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個(gè)定律,詞的分配符合下面的曲線(圖1):1 2 3 …FrequencyRank 圖1 詞的頻率和編號(hào)曲線圖顯然,不能將所有詞頻高的詞都作為索引詞。可以定義另一個(gè)上限閾值: 如果某個(gè)詞的頻率超過這個(gè)閾值,不被當(dāng)作索引詞。這兩個(gè)閾值的使用對(duì)應(yīng)于詞的信息量。信息量是指對(duì)詞所蘊(yùn)含含義的質(zhì)量的測(cè)量。這個(gè)概念在IR中的定義不是很精確。只是通過直覺來使用。但是,在信息理論中,我們可以發(fā)現(xiàn)它的等價(jià)物(例如,Shannon理論或熵)信息
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1