正文內(nèi)容

講稿2-索引的建立-在線瀏覽

2025-07-01 03:27本頁面

　　

【正文】是同類中文獻(xiàn)的相關(guān)度x要大，不同類之間的相關(guān)度y要小。文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系，二者存在互逆性。信息模型人工標(biāo)引通常是通過分析文獻(xiàn)內(nèi)容本身來確定標(biāo)引詞進(jìn)行標(biāo)引，而自動標(biāo)引是利用計算機從已有的文獻(xiàn)數(shù)據(jù)庫（信息系統(tǒng)）中獲取信息來確定標(biāo)引詞的過程。（1）標(biāo)引詞的信息量設(shè)文獻(xiàn)庫D={d1,d2,...,dn}為對象庫，稱為外延空間，而標(biāo)引詞庫T={t1,t2,...,tn} 為屬性集，稱為內(nèi)涵空間，矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫：R=R也稱為“對象屬性數(shù)據(jù)”系統(tǒng)。 j=1,...,m）.數(shù)據(jù)是一種抽象的數(shù)量概念，數(shù)據(jù)所表示的含義即為信息，信息是對數(shù)據(jù)的解釋，數(shù)據(jù)是信息的載體，假若對數(shù)據(jù)賦予某種意義，此數(shù)據(jù)即為信息，故“對象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。在計算這種信息的信息量時，最樸素的思想是信息的外延越大，其內(nèi)涵越弱，信息量越小；反之，信息的外延越窄，其內(nèi)涵越強，信息量越大。對I(t)可以直觀地理解：標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多，它的外延對象越廣，則信息量越?。环粗?，標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少，它的外延對象越窄，則信息量越大。記為T中元素經(jīng)、運算后得到的所有元素的集合，顯然。定理1：對t,t’，有表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。定義3：稱（）為由標(biāo)引詞t推測標(biāo)引詞t’的確定率。我們的目的是從標(biāo)引詞t出發(fā)，對標(biāo)引詞t’作一推測。這種推測是一種或然推理，具有或然性。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞：某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。通過對這些詞語的統(tǒng)計，求出其中的高頻詞、中頻詞和低頻詞，并使用中等頻率的詞語作為標(biāo)識文獻(xiàn)的主題詞。基于詞頻的基本方法大量詞頻統(tǒng)計結(jié)果表明，文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞，作者重點闡述某主題時所用的核心詞，其出現(xiàn)頻率通常較高。詞頻統(tǒng)計法的出發(fā)思想是：根據(jù)詞頻統(tǒng)計結(jié)果，將出現(xiàn)頻率較高并含有實質(zhì)意義的詞匯作為反映一篇文章主題的有效測度，這一測度就確定了標(biāo)引詞的選擇范圍。齊普夫定律是描述一系列實際現(xiàn)象的特點非常到位的經(jīng)驗定律之一。換句話來說，一般來講，排在第k位的項目其比重為第一項的1/k。排在第二位的詞語：%，%。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象，但科學(xué)家們發(fā)現(xiàn)，它可以描述極其廣泛的一系列統(tǒng)計分布，譬如個人的財富和收入、城市人口甚至博客讀者數(shù)量[6]。定律描述了文本中高頻詞的出現(xiàn)規(guī)律，而其修正定律即Zipf第二定律（低頻詞定律）則描述了低頻詞的出現(xiàn)情況，如式（74）所示：（74）這兩個完全不同的定律刻畫了文本中詞分布的兩個極端情況。可以定義另一個上限閾值: 如果某個詞的頻率超過這個閾值，不被當(dāng)作索引詞。信息量是指對詞所蘊含含義的質(zhì)量的測量。只是通過直覺來使用。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計標(biāo)引方法，其主要步驟是：n 給定m篇文獻(xiàn)組成的一個集合，設(shè)第k個詞在第i篇文獻(xiàn)中發(fā)生的頻率fik 。n 剩余的中頻詞用于文獻(xiàn)的標(biāo)引。為確定臨界點，設(shè)低頻詞定律具有高頻詞特征，也就是詞頻為n的詞數(shù)接近于1 （），即每個詞具有唯一的級數(shù)，則式（74）變?yōu)椋? 上述整理式為一元二次方程，解此方程保留正平方根，得：求得n之后，以n為臨界區(qū)的中點，以最高詞頻處為臨界區(qū)的上界，取與n到上界之間等級距離相等的另一端為臨界區(qū)的下屆，位于臨界區(qū)內(nèi)的詞經(jīng)過禁用詞表處理即可選為標(biāo)引詞。也就是說，某個有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。詞的鑒別值對于索引詞的選擇是非常重要的。鑒別值的計算在矢量模型中被提出。在矢量模型中，每個文檔由加權(quán)的矢量來表示，例子如下： t1 t2 t3 … tndi 224。已知一個文檔集，就有了一個矩陣。這里，Sim是標(biāo)準(zhǔn)化的公式，它的取值是[0，1]（在矢量模型中將給出更多的介紹）計算去掉第j個詞后的文獻(xiàn)空間密度，用U2表示詞j的鑒別值定義為：DVj = U2 U1 在鑒別值的計算中，我們不能以詞的頻率為主，而是要關(guān)注詞在文檔集中的分配。如果一個詞的區(qū)分值大于零，則用其做標(biāo)引詞會使文獻(xiàn)間的相似度減少，使文獻(xiàn)空間密度降低，從而使標(biāo)引效率提高，因而設(shè)計詞權(quán)時應(yīng)取較大的取值；如果一個詞的區(qū)分值小于零，則用其做標(biāo)引詞會使文獻(xiàn)間的相似度增加，使文獻(xiàn)空間密度增大，從而使標(biāo)引效率降低，因而設(shè)計詞權(quán)時應(yīng)取較小的權(quán)值。根據(jù)這一思想的加權(quán)函數(shù)如下： Wij =Fij *DVj詞區(qū)分值加權(quán)標(biāo)引與逆文獻(xiàn)頻率加權(quán)標(biāo)引基本上是一致的。若詞的文獻(xiàn)頻率高，用其做標(biāo)引詞會使文獻(xiàn)密度增大，從而使詞區(qū)分值減小；若詞的文獻(xiàn)頻率低，用其做標(biāo)引詞會使文獻(xiàn)空間密度減小，從而使詞區(qū)分值增大。這說明兩種標(biāo)引方法在本質(zhì)上是一致的。Tf是指詞的頻率，idf 指倒置文檔頻率。通過 idf, 來測量詞的鑒別性，是對整個文檔集合而言的。 tf = f(t,d), 詞t在文檔d中出現(xiàn)的次數(shù)；tf = f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現(xiàn)的最大次數(shù)；tf = log(f(t,d)) tf = log (f(t,d)+1)其中，a、詞頻的標(biāo)準(zhǔn)化方法See Normalization，也稱為TF的歸一化：將一篇文檔中所有Term的TF值歸一化到[0,1]之間。其中，1+log(N/n)，是對DF進(jìn)行緩沖。一種形式的tf * idf的公式如下： tf * idf = [f(t,d) /MAX[f(t,d)]] * log (N/n)對tf * idf進(jìn)行歸一化（TFC）：降低TF的作用（LTC）：tf*idf 公式綜合考慮了兩個因素：（tf）。 ngram索引方法ngram標(biāo)引法的基本原理是以n字符串為統(tǒng)計對象，將其統(tǒng)計得分賦予該串中心字符，然后選擇包含得分超過特定閾值字符的單詞或短語作為標(biāo)引詞。如對COMPUTER進(jìn)行3gram處理，可得3字母集合{COM，OMP，MPU，PUT，UTE，TER} 早在1951年，現(xiàn)代信息論創(chuàng)始人Shannon便用ngram進(jìn)行文本壓縮的檢驗。 1995年Cohen用ngram分析法選擇被其稱為“最亮點（Highlights）”的標(biāo)引詞。無意義字符如標(biāo)點符號、數(shù)字等用禁用符號替換?？紤]一個長為S具有符號 s1,s2,...,ss的文本樣本，給定正整數(shù)n（典型的n值從3到6），則定義第j個ngram gj如下：gj =（sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1）抽出文本的全部ngram之后，用一HASH表統(tǒng)計ngram。經(jīng)過大量實驗，Cohen 選擇了下面的HASH函數(shù)：k(gj)= mod M其中，是不同的大質(zhì)數(shù)，M是HASH表規(guī)模，Ord（）給出了相應(yīng)字符的數(shù)量值。n 對文獻(xiàn)中發(fā)現(xiàn)的每個ngram，用其計數(shù)與在“背景文獻(xiàn)”中對應(yīng)的計數(shù)比較。假定文本樣本由ngram gj(j=1,2,...,S)組成，計數(shù)Ci（i=1，2，...,N）是等于第i個可能的ngram值的{ gj }數(shù)。類似地，“背景文獻(xiàn)”中對應(yīng)的計數(shù)，總計數(shù)R=，的潛在概率向量為，則：通過對數(shù)線形聯(lián)列表分析，第i個ngram的得分為： ngram的得分越高，其特性越強。n 確定字符得分閾值，其中 n 抽取文獻(xiàn)中字符得分超過閾值的單詞，如果合適的話，將鄰近的單詞抽為短語。n 每個被抽出的單詞或短語取其所包含字符得分的平均值為其一種特例得分。n 對詞表按單詞或短語的總分排序并適當(dāng)去除低分詞，便得到標(biāo)引文獻(xiàn)的“最亮點”標(biāo)引詞表。其他計算方法：例如：“Party on Peter Chen’s birthday”，統(tǒng)計學(xué)習(xí)索引法統(tǒng)計學(xué)習(xí)標(biāo)引法首先通過學(xué)習(xí)過程建立候選標(biāo)引詞與對其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系，然后由標(biāo)引過程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來確定其是否作為標(biāo)引詞。學(xué)習(xí)過程假設(shè)存在n個受控標(biāo)引詞I1，I2,...,In 和在將處理的文獻(xiàn)中可能出現(xiàn)的m個不同的單詞w1,w2,w3,...,wm 。（1）匯集肯定和否定訓(xùn)練（Training）集合對一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來（當(dāng)然，這些文獻(xiàn)事先由標(biāo)引員標(biāo)引），這些文獻(xiàn)稱為Ij 的肯定訓(xùn)練集合。（2）統(tǒng)計在集合中出現(xiàn)的單詞的詞頻統(tǒng)計肯定訓(xùn)練集合中的每個詞，然后將詞頻轉(zhuǎn)為相應(yīng)的zscore。通過這一步，便可得到兩個zscore表，此表描述了在Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計分布。對于一列n個變量：x1,x2,x3, ..., xn 平均值=（x1+x2+x3+ ...+ xn）/n 方差=（）/（n1）標(biāo)準(zhǔn)偏差=（方差） xi 的zscore =（xi平均值）/標(biāo)準(zhǔn)偏差（3）選擇促進(jìn)詞和削弱詞如果一個詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引，則此詞稱為Ij的促進(jìn)詞。選擇促進(jìn)詞和削弱詞的方法描述如下。n 削弱詞選擇IF（

點擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

講稿2-索引的建立-在線瀏覽

核酸2-(2)-在線瀏覽

2-陶校長的演講-在線瀏覽

2-梁思成的故事課件-在線瀏覽

2-財務(wù)決策的基礎(chǔ)-在線瀏覽

2-財務(wù)決策的基礎(chǔ)-在線瀏覽

2-所有員工的共同職責(zé)-在線瀏覽

以2-(2-吡啶基)苯并咪唑為配體的cr(三價)和以2-(2-羥基苯基)苯并咪唑cu(2價)的金屬配合物的合成及在抗癌活性方面的研究-在線瀏覽

2-危險化學(xué)品的分類-在線瀏覽

2-管理評審報告-在線瀏覽

［管理精品］2-3風(fēng)險評估涉及的制度索引(2)-在線瀏覽

2-蝸牛的獎杯1-在線瀏覽

1、項目名稱：2－丙烯酰氨基－2－甲基丙磺酸出現(xiàn)-在線瀏覽

2-星期日的安排-在線瀏覽

2-生命的起源與多樣性-在線瀏覽

2-入黨志愿-在線瀏覽

講稿2-索引的建立(文件)

講稿2-索引的建立-全文預(yù)覽

講稿2-索引的建立-預(yù)覽頁

講稿2-索引的建立-免費閱讀

講稿2-索引的建立(存儲版)

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

講稿2-索引的建立-在線瀏覽

核酸2-(2)-在線瀏覽

2-陶校長的演講-在線瀏覽

2-梁思成的故事課件-在線瀏覽

2-財務(wù)決策的基礎(chǔ)-在線瀏覽

2-財務(wù)決策的基礎(chǔ)-在線瀏覽

2-所有員工的共同職責(zé)-在線瀏覽

以2-(2-吡啶基)苯并咪唑為配體的cr(三價)和以2-(2-羥基苯基)苯并咪唑cu(2價)的金屬配合物的合成及在抗癌活性方面的研究-在線瀏覽

2-危險化學(xué)品的分類-在線瀏覽

2-管理評審報告-在線瀏覽

［管理精品］2-3風(fēng)險評估涉及的制度索引(2)-在線瀏覽

2-蝸牛的獎杯1-在線瀏覽

1、項目名稱：2－丙烯酰氨基－2－甲基丙磺酸出現(xiàn)-在線瀏覽

2-星期日的安排-在線瀏覽

2-生命的起源與多樣性-在線瀏覽

2-入黨志愿-在線瀏覽

講稿2-索引的建立(文件)

講稿2-索引的建立-全文預(yù)覽

講稿2-索引的建立-預(yù)覽頁

講稿2-索引的建立-免費閱讀

講稿2-索引的建立(存儲版)

1、項目名稱：2－丙烯酰氨基－2－甲基丙磺酸出現(xiàn)-在線瀏覽