正文內(nèi)容

講稿2-索引的建立-文庫吧

2025-04-29 03:27 本頁面

【正文】一概念進(jìn)行概念歸類，最終以概念類來標(biāo)引文獻(xiàn)。3自動標(biāo)引的模型向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度，由此確定了文獻(xiàn)空間密度。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來，因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動標(biāo)引的一種數(shù)學(xué)模型。　　若用X(a,b)確定二維平面上點(diǎn)X的位置，用X(a,b,c)表示三維空間中點(diǎn)X的位置，同理，如果D為t維文獻(xiàn)空間，則可以用Di=(di1,di2, ..., dit)表示，其中，Di可以看成是文獻(xiàn)空間D的第i維向量，dij為文獻(xiàn)Di的第j個標(biāo)引詞的權(quán)值。（1）文獻(xiàn)向量的相關(guān)性　　有了文獻(xiàn)空間，每一篇文獻(xiàn)在其中都有一個確定的位置，文獻(xiàn)的空間位置就為我們計算它們之間的相關(guān)程度提供了途徑。從文獻(xiàn)空間上看，兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近，具體講就是這兩個向量的夾角很小。根據(jù)向量代數(shù)中數(shù)量積計算公式有：其中，｜a｜,|b|分別為向量和的模，＝(a,b)為向量和的夾角，又設(shè)向量和的坐標(biāo)分別為＝｛a1,a2,...,at｝和＝｛b1,b2,...,bt｝，則：由余弦函數(shù)的性質(zhì)可知，在［０，］上，其余弦值隨其角度變小而增大。這一現(xiàn)象正好反映了文獻(xiàn)空間中某兩篇文獻(xiàn)的相關(guān)程度的大小，即余弦值小，夾角大，則相關(guān)度低；反之，則相關(guān)度高。若余弦值為１，則夾角為零，則兩篇文獻(xiàn)完全重合，即相等。因此，可將兩文獻(xiàn)之間的相關(guān)度S(Di,Dj)定義為其夾角的余弦值，即S(Di,Dj)＝cos,其中，＝ Di,Dj 為文獻(xiàn)Di,Dj之間的夾角。由于文獻(xiàn)Di是由相應(yīng)的標(biāo)引詞的權(quán)值來表示的，即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為：可以設(shè)想，在一個理想的文獻(xiàn)空間中，滿足用戶情報需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。但如果對一個給定文獻(xiàn)集合的全部檢索歷史不了解，則很難產(chǎn)生出這種理想空間。因此，為了達(dá)到理想的檢索效果，應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開，即對式（21）求最小值。（ij）（21）式（21）的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小，當(dāng)某篇文獻(xiàn)與某個提問相關(guān)時，只有這篇文獻(xiàn)被檢索出來，從而保證了較高的查準(zhǔn)率。但這會產(chǎn)生兩個方面的問題：第一，這種將點(diǎn)分開的方式是否基于這樣一個事實，即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率；反之，高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。第二，式（21）的計算量較大，對具有n篇文獻(xiàn)的集合而言，共需計算次。由于上述原因，我們考慮使用聚類文獻(xiàn)空間。在該空間中，文獻(xiàn)按類集中在一起，每個類由一個類的矩心C（Centroid）來表示。給定一個m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P，其矩心定義如下：其中，（k=1，2，...,t）同理可求出整個文獻(xiàn)的矩心。在未聚類文獻(xiàn)空間中，其空間密度為所有文獻(xiàn)對相關(guān)度的總和，即式（21）的計算結(jié)果。而聚類文獻(xiàn)的空間密度由式（22）給出：其中，為整個文獻(xiàn)集合矩心，為文獻(xiàn)與矩心的相關(guān)度。顯然，式（22）只需計算n次。（2）空間密度與標(biāo)引性能的關(guān)系一個理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大，不同類之間的相關(guān)度y要小。所以y/x可用來作為測量文獻(xiàn)空間密度的標(biāo)準(zhǔn)， y/x值大，則空間密度高，反之則空間密度低。文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系，二者存在互逆性。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動標(biāo)引的理論基礎(chǔ)。信息模型人工標(biāo)引通常是通過分析文獻(xiàn)內(nèi)容本身來確定標(biāo)引詞進(jìn)行標(biāo)引，而自動標(biāo)引是利用計算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫（信息系統(tǒng)）中獲取信息來確定標(biāo)引詞的過程。兩者的區(qū)別在于從不同的對象中獲取信息，實施標(biāo)引的主體不同，但它們的目的都是為了表示信息的主題內(nèi)容。（1）標(biāo)引詞的信息量設(shè)文獻(xiàn)庫D={d1,d2,...,dn}為對象庫，稱為外延空間，而標(biāo)引詞庫T={t1,t2,...,tn} 為屬性集，稱為內(nèi)涵空間，矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫：R=R也稱為“對象屬性數(shù)據(jù)”系統(tǒng)。其中：表示tj是di的標(biāo)引詞，表示tj不是di的標(biāo)引詞（i=1,…,n。 j=1,...,m）.數(shù)據(jù)是一種抽象的數(shù)量概念，數(shù)據(jù)所表示的含義即為信息，信息是對數(shù)據(jù)的解釋，數(shù)據(jù)是信息的載體，假若對數(shù)據(jù)賦予某種意義，此數(shù)據(jù)即為信息，故“對象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。如數(shù)據(jù)：（）表示了“文獻(xiàn)庫D中的文獻(xiàn)是否具有標(biāo)引詞t”這樣一條信息。在計算這種信息的信息量時，最樸素的思想是信息的外延越大，其內(nèi)涵越弱，信息量越?。环粗?，信息的外延越窄，其內(nèi)涵越強(qiáng)，信息量越大。定義1：（）稱I(t)為標(biāo)引詞t的信息量。對I(t)可以直觀地理解：標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多，它的外延對象越廣，則信息量越??；反之，標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少，它的外延對象越窄，則信息量越大。定義2：表示“文獻(xiàn)具有標(biāo)引詞t或 t’”表示“文獻(xiàn)具有標(biāo)引詞t與 t’” 其中，、是取大、取小運(yùn)算。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合，顯然。稱為廣義標(biāo)引詞庫。定理1：對t,t’，有表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量大于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。（2）推測標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞t的情況下，可根據(jù)信息提取的思想來推測文獻(xiàn)是否具有標(biāo)引詞t’。定義3：稱（）為由標(biāo)引詞t推測標(biāo)引詞t’的確定率。從定義3 可以看出，在獲得t的信息時，就可以從t’的信息中提取的信息，故標(biāo)引詞t對 t’的確定率就等于的信息量在t’的信息量中所占的比例，比例越高，確定率越大；反之，比例越低，確定率越小，顯然有成立。我們的目的是從標(biāo)引詞t出發(fā)，對標(biāo)引詞t’作一推測。這種推測不可能都達(dá)到100%的準(zhǔn)確率，只需得到相對較高的確定率即可。這種推測是一種或然推理，具有或然性。當(dāng)確定率達(dá)到1時，就是推斷，即通常的精確推理。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞：某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。一個詞（實詞）在文獻(xiàn)中使用越頻繁，就越有可能是一個指示主題的詞。通過對這些詞語的統(tǒng)計，求出其中的高頻詞、中頻詞和低頻詞，并使用中等頻率的詞語作為標(biāo)識文獻(xiàn)的主題詞。除此以外，還可以根據(jù)取詞的不同位置、詞語本身的重要性給每個詞賦予不同的權(quán)值，使得最終的加權(quán)統(tǒng)計結(jié)果更加符合實際情況，更能體現(xiàn)文章的主題[4]。基于詞頻的基本方法大量詞頻統(tǒng)計結(jié)果表明，文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞，作者重點(diǎn)闡述某主題時所用的核心詞，其出現(xiàn)頻率通常較高。因此，最高頻詞和低頻詞都不適宜做標(biāo)引詞，只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。詞頻統(tǒng)計法的出發(fā)思想是：根據(jù)詞頻統(tǒng)計結(jié)果，將出現(xiàn)頻率較高并含有實質(zhì)意義的詞匯作為反映一篇文章主題的有效測度，這一測度就確定了標(biāo)引詞的選擇范圍。詞頻統(tǒng)計法的理論基礎(chǔ)是著名的齊普夫定律（Zipf’s Law）。齊普夫定律是描述一系列實際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗定律之一。它認(rèn)為，如果我們按照大小或者流行程度給某個大集合中的各項進(jìn)行排序，集合中第二項的比重大約是第一項的一半，而第三項的比重大約是第一項的三分之一，以此類推。換句話來說，一般來講，排在第k位的項目其比重為第一項的1/k。以英語文本的一大段典型內(nèi)容為例，最常見的單詞the通常占所有出現(xiàn)單詞的近7%。排在第二位的詞語：%，%。換句話說，所占比例的順序（7. 0、）與1/k順序（1/1/1/3…）緊密對應(yīng)。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象，但科學(xué)家們發(fā)現(xiàn)，它可以描述極其廣泛的一系列統(tǒng)計分布，譬如個人的財富和收入、城市人口甚至博客讀者數(shù)量[6]。Zipf第一定律即高頻詞定律可用式（73）表示： RF=C （73）式（73）中， R為詞頻等級數(shù)，F(xiàn)為詞頻，C為常數(shù),例子見表1。定律描述了文本中高頻詞的出現(xiàn)規(guī)律，而其修正定律即Zipf第二定律（低頻詞定律）則描述了低頻詞的出現(xiàn)情況，如式（74）所示：（74）這兩個完全不同的定律刻畫了文本中詞分布的兩個極端情況。表1：RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個定律，詞的分配符合下面的曲線（圖1）：1 2 3 …FrequencyRank 圖1 詞的頻率和編號曲線圖顯然，不能將所有詞頻高的詞都作為索引詞?？梢远x另一個上限閾值: 如果某個詞的頻率超過這個閾值，不被當(dāng)作索引詞。這兩個閾值的使用對應(yīng)于詞的信息量。信息量是指對詞所蘊(yùn)含含義的質(zhì)量的測量。這個概念在IR中的定義不是很精確。只是通過直覺來使用。但是，在信息理論中，我們可以發(fā)現(xiàn)它的等價物（例如，Shannon理論或熵）信息

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

基于kd樹與八叉樹索引相結(jié)合的lidar點(diǎn)云數(shù)據(jù)索引建立方法畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】本科生畢業(yè)設(shè)計（論文）基于KD樹與八叉樹索引相結(jié)合的LiDAR點(diǎn)云數(shù)據(jù)索引建立方法題目：姓名：學(xué)號：班級：

2025-06-26 10:39

2-精餾計算-資料下載頁

【總結(jié)】1精餾計算全塔物料衡算物料衡算分段物料衡算計算塔板數(shù)確定餾出液、釜液的流量和組成確定各段中的組分的濃度2?全塔物料衡算總物料衡算：F=D+W易揮發(fā)組分衡算：FxF=DxD+Wxw??原料液F,xF,IF餾出液D,

2025-08-05 01:02

2-謂詞邏輯-資料下載頁

【總結(jié)】第2章謂詞邏輯大連海事大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院第二章謂詞邏輯?命題邏輯中：原子命題為基本單位，是不能再分解的。1).命題邏輯的表達(dá)能力差：例:張三是大學(xué)生。P李四是大學(xué)生。Q

2025-08-05 19:31

2-山雨課件-資料下載頁

【總結(jié)】導(dǎo)入新課市場部1市場部2市場部3教學(xué)目標(biāo)1、有感情的朗讀課文，背誦自己喜歡的部分。正確讀記“神奇、優(yōu)雅、辨認(rèn)、清新、凝聚、奇妙無比”等詞語。2、感受山雨的韻味，體會作者對山雨的喜愛之情。3、領(lǐng)悟作者是怎樣細(xì)致觀察、用心傾聽山雨的，繼續(xù)學(xué)習(xí)通過聯(lián)想和想象來表達(dá)

2025-11-12 01:16

2-談判主體-資料下載頁

【總結(jié)】第二章談判的主體一、談判主體應(yīng)具有的素質(zhì)不能力提問：?請說出你認(rèn)為談判主體所需的最重要的一種素質(zhì)和能力。?良好的記憶?清晰的思維?準(zhǔn)確的表達(dá)?耐心的傾聽?敂銳的觀察?巧妙的提問?睿智的辨識?機(jī)敂?shù)幕貞?yīng)?靈活的應(yīng)對二、性格、性別、情緒因素對談判主體的

2025-01-22 07:24

2-保險概述-資料下載頁

【總結(jié)】成都世紀(jì)精英培訓(xùn)學(xué)校第二章保險概述第二章保險概述第一節(jié)保險的要素與特征第二節(jié)保險的分類第三節(jié)保險的功能第四節(jié)保險的產(chǎn)生與發(fā)展第一節(jié)保險的要素與特征一、保險的定義二、保險的要素三、保險

2025-01-03 10:37

excel上機(jī)2-圖表練習(xí)-資料下載頁

【總結(jié)】Excel練習(xí)（10分）：對上機(jī)文件夾中的“成績單．XLS”工作簿操作。①切換到sheet2工作表，利用該表的數(shù)據(jù)，按如下要求建立嵌入式圖表：①圖表包括全部人員，采用折線圖的第四種格式（即默認(rèn)格式）。②以姓名為分類軸，高等數(shù)學(xué)、英語、政治經(jīng)濟(jì)學(xué)為數(shù)值軸，系列產(chǎn)生在列上。③圖表標(biāo)題為“各科成績分析比較圖”、字號26、隸書、紅色。④圖例字號為10、位置靠右。⑤設(shè)置分類

2025-09-25 17:41

[精選]2-倉儲2-資料下載頁

【總結(jié)】第二章物流功能要素管理第二節(jié)倉儲與裝卸搬運(yùn)一、倉儲的概念1、倉庫：Warehouse(n.)對存放、保管、儲存物品的建筑物和場所的總稱。一、倉儲的概念2、儲存：storing(v.)將儲存對象儲存以備使用，具有收存，保護(hù)，管理，交付使用的意思。一、倉儲的概念3、倉儲：warehousing(n.)是指在倉庫中進(jìn)

2025-02-18 18:45

167;2[1]2-整式的加減-復(fù)習(xí)課-資料下載頁

【總結(jié)】第二章:整式的加減——復(fù)習(xí)課本章知識結(jié)構(gòu)：?一、整式的有關(guān)概念1、代數(shù)式2、代數(shù)式的值3、單項式4、單項式的系數(shù)及次數(shù)5、多項式6、多項式的項、次數(shù)7、同類項8、整式?二、整式的加減一、整式的有關(guān)概念

2025-07-24 17:10

[精選]2-設(shè)備生產(chǎn)的效率化-資料下載頁

【總結(jié)】1主要內(nèi)容?全面生產(chǎn)維護(hù)——TPM?TPM實施前的技術(shù)準(zhǔn)備?TPM——推進(jìn)手法和技巧?點(diǎn)檢屋——設(shè)備點(diǎn)檢管理新視角?TPM——活動的推進(jìn)步驟?設(shè)備管理的新思維與新模式?怎樣做一名優(yōu)秀的設(shè)備管理者2一二關(guān)于生產(chǎn)的效率化TPM的八大支柱全面生產(chǎn)維護(hù)——TPM中國制造新動力—

2025-02-19 10:11

2-平面體系的幾何構(gòu)造分析-資料下載頁

【總結(jié)】12結(jié)構(gòu)的幾何組成分析2幾何組成分析的目的、幾何不變體系和幾何可變體系自由度和約束的概念體系的計算自由度公式幾何不變無多余約束的平面桿件體系的幾何組成規(guī)則幾何組成分析舉例結(jié)構(gòu)幾何組成和靜定性的關(guān)系3幾何組成分析的目的、幾何不變體系和幾何可變體系

2025-08-04 07:51

2-電壓：電流形成的原因-資料下載頁

【總結(jié)】認(rèn)識電壓一新課講解電源電壓電流提供形成抽水機(jī)水壓水流提供形成1、電源是提供電壓的裝置，電壓是形成電流的原因。2、單位是：伏特簡稱伏（V）

2025-08-05 18:03

［管理精品］2-3風(fēng)險評估涉及的制度索引-資料下載頁

【總結(jié)】風(fēng)險評估涉及的制度索引風(fēng)險評估涉及的制度索引框架要素文件名稱文件號風(fēng)險評估1.《中國石油天然氣股份有限公司規(guī)劃工作管理暫行辦法》石油計字[2021]第22號2.《中國石油天然氣股份有限公司預(yù)算管理暫行辦法》石油財字[1999]第25號3.《中國石油天然氣股份有限公司高級管理人員業(yè)績考核辦法

2025-04-24 17:40

2-樓層主管的崗位職責(zé)-資料下載頁

【總結(jié)】第一篇：2-樓層主管的崗位職責(zé) 樓層主管的崗位職責(zé) 崗位名稱：樓層主管直接上級：管家部經(jīng)理直接下級：樓層領(lǐng)班、房務(wù)中心領(lǐng)班、布草房領(lǐng)班具體內(nèi)容：1、2、3、傳達(dá)執(zhí)行本部門下達(dá)的各項指令...

2025-10-18 07:51