freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-在線瀏覽

2025-07-01 03:27本頁面
  

【正文】 是同類中文獻(xiàn)的相關(guān)度x要大,不同類之間的相關(guān)度y要小。 文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。 信息模型人工標(biāo)引通常是通過分析文獻(xiàn)內(nèi)容本身來確定標(biāo)引詞進(jìn)行標(biāo)引,而自動(dòng)標(biāo)引是利用計(jì)算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫(信息系統(tǒng))中獲取信息來確定標(biāo)引詞的過程。(1)標(biāo)引詞的信息量設(shè)文獻(xiàn)庫D={d1,d2,...,dn}為對(duì)象庫,稱為外延空間,而標(biāo)引詞庫T={t1,t2,...,tn} 為屬性集,稱為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫:R=R也稱為“對(duì)象屬性數(shù)據(jù)”系統(tǒng)。 j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對(duì)數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對(duì)數(shù)據(jù)賦予某種意義,此數(shù)據(jù)即為信息,故“對(duì)象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。在計(jì)算這種信息的信息量時(shí),最樸素的思想是信息的外延越大,其內(nèi)涵越弱,信息量越??;反之,信息的外延越窄,其內(nèi)涵越強(qiáng),信息量越大。對(duì)I(t)可以直觀地理解:標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多,它的外延對(duì)象越廣,則信息量越小;反之,標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少,它的外延對(duì)象越窄,則信息量越大。記為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然。定理1:對(duì)t,t’,有 表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。表示“文獻(xiàn)具有標(biāo)引詞t與 t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。定義3:稱 ()為由標(biāo)引詞t推測(cè)標(biāo)引詞t’的確定率。我們的目的是從標(biāo)引詞t出發(fā),對(duì)標(biāo)引詞t’作一推測(cè)。這種推測(cè)是一種或然推理,具有或然性。4 基于詞匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來選擇索引詞:某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。通過對(duì)這些詞語的統(tǒng)計(jì),求出其中的高頻詞、中頻詞和低頻詞,并使用中等頻率的詞語作為標(biāo)識(shí)文獻(xiàn)的主題詞。 基于詞頻的基本方法 大量詞頻統(tǒng)計(jì)結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時(shí)所用的核心詞,其出現(xiàn)頻率通常較高。詞頻統(tǒng)計(jì)法的出發(fā)思想是:根據(jù)詞頻統(tǒng)計(jì)結(jié)果,將出現(xiàn)頻率較高并含有實(shí)質(zhì)意義的詞匯作為反映一篇文章主題的有效測(cè)度,這一測(cè)度就確定了標(biāo)引詞的選擇范圍。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。換句話來說,一般來講,排在第k位的項(xiàng)目其比重為第一項(xiàng)的1/k。排在第二位的詞語:%,%。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計(jì)分布,譬如個(gè)人的財(cái)富和收入、城市人口甚至博客讀者數(shù)量[6]。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即Zipf第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式(74)所示: (74)這兩個(gè)完全不同的定律刻畫了文本中詞分布的兩個(gè)極端情況。可以定義另一個(gè)上限閾值: 如果某個(gè)詞的頻率超過這個(gè)閾值,不被當(dāng)作索引詞。信息量是指對(duì)詞所蘊(yùn)含含義的質(zhì)量的測(cè)量。只是通過直覺來使用。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計(jì)標(biāo)引方法,其主要步驟是:n 給定m篇文獻(xiàn)組成的一個(gè)集合,設(shè)第k個(gè)詞在第i篇文獻(xiàn)中發(fā)生的頻率fik 。n 剩余的中頻詞用于文獻(xiàn)的標(biāo)引。為確定臨界點(diǎn),設(shè)低頻詞定律具有高頻詞特征,也就是詞頻為n的詞數(shù)接近于1 (),即每個(gè)詞具有唯一的級(jí)數(shù),則式(74)變?yōu)椋? 上述整理式為一元二次方程,解此方程保留正平方根,得: 求得n之后,以n為臨界區(qū)的中點(diǎn),以最高詞頻處為臨界區(qū)的上界,取與n到上界之間等級(jí)距離相等的另一端為臨界區(qū)的下屆,位于臨界區(qū)內(nèi)的詞經(jīng)過禁用詞表處理即可選為標(biāo)引詞。也就是說,某個(gè)有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。 詞的鑒別值對(duì)于索引詞的選擇是非常重要的。鑒別值的計(jì)算在矢量模型中被提出。在矢量模型中,每個(gè)文檔由加權(quán)的矢量來表示,例子如下: t1 t2 t3 … tndi 224。已知一個(gè)文檔集,就有了一個(gè)矩陣。這里,Sim是標(biāo)準(zhǔn)化的公式,它的取值是[0,1](在矢量模型中將給出更多的介紹) 計(jì)算去掉第j個(gè)詞后的文獻(xiàn)空間密度,用U2表示 詞j的鑒別值定義為:DVj = U2 U1 在鑒別值的計(jì)算中,我們不能以詞的頻率為主,而是要關(guān)注詞在文檔集中的分配。 如果一個(gè)詞的區(qū)分值大于零,則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度減少,使文獻(xiàn)空間密度降低,從而使標(biāo)引效率提高, 因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較大的取值;如果一個(gè)詞的區(qū)分值小于零,則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度增加,使文獻(xiàn)空間密度增大,從而使標(biāo)引效率降低,因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較小的權(quán)值。根據(jù)這一思想的加權(quán)函數(shù)如下: Wij =Fij *DVj詞區(qū)分值加權(quán)標(biāo)引與逆文獻(xiàn)頻率加權(quán)標(biāo)引基本上是一致的。若詞的文獻(xiàn)頻率高,用其做標(biāo)引詞會(huì)使文獻(xiàn)密度增大,從而使詞區(qū)分值減小;若詞的文獻(xiàn)頻率低,用其做標(biāo)引詞會(huì)使文獻(xiàn)空間密度減小,從而使詞區(qū)分值增大。這說明兩種標(biāo)引方法在本質(zhì)上是一致的。Tf是指詞的頻率,idf 指倒置文檔頻率。通過 idf, 來測(cè)量詞的鑒別性,是對(duì)整個(gè)文檔集合而言的。 tf = f(t,d), 詞t在文檔d中出現(xiàn)的次數(shù);tf = f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現(xiàn)的最大次數(shù);tf = log(f(t,d)) tf = log (f(t,d)+1)其中,a、 詞頻的標(biāo)準(zhǔn)化方法See Normalization,也稱為TF的歸一化:將一篇文檔中所有Term的TF值歸一化到[0,1]之間。 其中,1+log(N/n),是對(duì)DF進(jìn)行緩沖。一種形式的tf * idf的公式如下: tf * idf = [f(t,d) /MAX[f(t,d)]] * log (N/n)對(duì)tf * idf進(jìn)行歸一化(TFC):降低TF的作用(LTC):tf*idf 公式 綜合考慮了兩個(gè)因素:(tf)。 ngram索引方法ngram標(biāo)引法的基本原理是以n字符串為統(tǒng)計(jì)對(duì)象,將其統(tǒng)計(jì)得分賦予該串中心字符,然后選擇包含得分超過特定閾值字符的單詞或短語作為標(biāo)引詞。如對(duì)COMPUTER進(jìn)行3gram處理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER} 早在1951年,現(xiàn)代信息論創(chuàng)始人Shannon便用ngram進(jìn)行文本壓縮的檢驗(yàn)。 1995年Cohen用ngram分析法選擇被其稱為“最亮點(diǎn)(Highlights)”的標(biāo)引詞。無意義字符如標(biāo)點(diǎn)符號(hào)、數(shù)字等用禁用符號(hào)替換。考慮一個(gè)長(zhǎng)為S具有符號(hào) s1,s2,...,ss的文本樣本,給定正整數(shù)n(典型的n值從3到6),則定義第j個(gè)ngram gj如下:gj =(sj(n1)/2, sj(n1)/2+1, ... , sj(n1)/2+n1) 抽出文本的全部ngram之后,用一HASH表統(tǒng)計(jì)ngram。經(jīng)過大量實(shí)驗(yàn),Cohen 選擇了下面的HASH函數(shù):k(gj)= mod M其中,是不同的大質(zhì)數(shù),M是HASH表規(guī)模,Ord()給出了相應(yīng)字符的數(shù)量值。n 對(duì)文獻(xiàn)中發(fā)現(xiàn)的每個(gè)ngram,用其計(jì)數(shù)與在“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)比較。假定文本樣本由ngram gj(j=1,2,...,S)組成,計(jì)數(shù)Ci(i=1,2,...,N)是等于第i個(gè)可能的ngram值的{ gj }數(shù)。 類似地,“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù),總計(jì)數(shù)R=,的潛在概率向量為,則:通過對(duì)數(shù)線形聯(lián)列表分析,第i個(gè)ngram的得分為: ngram的得分越高,其特性越強(qiáng)。n 確定字符得分閾值,其中 n 抽取文獻(xiàn)中字符得分超過閾值的單詞,如果合適的話,將鄰近的單詞抽為短語。n 每個(gè)被抽出的單詞或短語取其所包含字符得分的平均值為其一種特例得分。n 對(duì)詞表按單詞或短語的總分排序并適當(dāng)去除低分詞,便得到標(biāo)引文獻(xiàn)的“最亮點(diǎn)”標(biāo)引詞表。其他計(jì)算方法:例如:“Party on Peter Chen’s birthday”, 統(tǒng)計(jì)學(xué)習(xí)索引法統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法首先通過學(xué)習(xí)過程建立候選標(biāo)引詞與對(duì)其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系,然后由標(biāo)引過程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來確定其是否作為標(biāo)引詞。 學(xué)習(xí)過程假設(shè)存在n個(gè)受控標(biāo)引詞I1,I2,...,In 和在將處理的文獻(xiàn)中可能出現(xiàn)的m個(gè)不同的單詞w1,w2,w3,...,wm 。 (1) 匯集肯定和否定訓(xùn)練(Training)集合 對(duì)一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(當(dāng)然,這些文獻(xiàn)事先由標(biāo)引員標(biāo)引),這些文獻(xiàn)稱為Ij 的肯定訓(xùn)練集合。 (2) 統(tǒng)計(jì)在集合中出現(xiàn)的單詞的詞頻 統(tǒng)計(jì)肯定訓(xùn)練集合中的每個(gè)詞,然后將詞頻轉(zhuǎn)為相應(yīng)的zscore。通過這一步,便可得到兩個(gè)zscore表,此表描述了在Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計(jì)分布。對(duì)于一列n個(gè)變量:x1,x2,x3, ..., xn 平均值=(x1+x2+x3+ ...+ xn)/n 方差=()/(n1) 標(biāo)準(zhǔn)偏差=(方差) xi 的zscore =(xi平均值)/標(biāo)準(zhǔn)偏差(3) 選擇促進(jìn)詞和削弱詞如果一個(gè)詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引,則此詞稱為Ij的促進(jìn)詞。選擇促進(jìn)詞和削弱詞的方法描述如下。n 削弱詞選擇IF(
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1