freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-免費閱讀

2025-06-07 03:27 上一頁面

下一頁面
  

【正文】 索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。還有,在不同的模型中,即使是相同的詞的集合也會有不同的意義??赡艿姆椒ㄊ菓?yīng)用概率的方式來確定一個單詞的種類。但是,對于詞“vocation”,應(yīng)用這個規(guī)則,變?yōu)椤皏ocer”,這不是一個正確的轉(zhuǎn)換。但是,大多數(shù)的轉(zhuǎn)換還是有道理的。因此,必須去掉這些詞之間的不同,也就是把這些詞表示成相同的形式。這些詞通常是介詞(. Of, to),副詞(elsewhere, now),形容詞(certain, possible)等在這個表中的某些詞不是沒有意義的(取決于領(lǐng)域,在語言學(xué)上它們不是沒有意義的)。通常情況下,tf * idf的衡量方法取得了比較好的性能。它完全摒棄了人工的構(gòu)造字典,對每個漢字的標(biāo)引完全由計算機自動進行,保存了文獻文本的原貌,因此也就沒有主觀性的成分 陳光祚. 論單漢字檢索系統(tǒng). 情報學(xué)報,1992(1):1 1~1 。 漢語文獻標(biāo)引專家系統(tǒng) 漢語文獻自動標(biāo)引專家系統(tǒng)的基本原理是,以現(xiàn)有的漢語專業(yè)主題詞表為基礎(chǔ),構(gòu)建概念語義網(wǎng)絡(luò),根據(jù)一定的抽詞規(guī)則、標(biāo)引規(guī)則和專門知識,對所處理的素材進行分析、判斷,選擇和確定標(biāo)引主題詞。實現(xiàn)時,機器自左至右掃描漢字,逐字對照非用字后綴表。會,經(jīng)濟和科學(xué)技術(shù)都飛速發(fā)展,新概念、新詞匯層出不窮,詞典法的明顯缺陷就在于學(xué)習(xí)新詞的能力差、設(shè)計詞典的工作繁重、需要大量的專業(yè)人員的參加、空間開銷很大、更新滯后等。系統(tǒng)依據(jù)語義特征之間的聯(lián)系和相互作用, 構(gòu)成系統(tǒng)的產(chǎn)生式規(guī)則庫。 語義分析標(biāo)引法語義分析標(biāo)引法通過分析文本或話語的語義結(jié)構(gòu)來識別文獻中那些與主題相關(guān)的詞。5 基于語言規(guī)則與內(nèi)容的索引 句法分析標(biāo)引法句法分析法利用計算機自動分析文本的句法結(jié)構(gòu),鑒別詞在句子中的語法作用和詞間句法關(guān)系,前蘇聯(lián)開發(fā)的自動標(biāo)引系統(tǒng)多采用此法。 標(biāo)引過程經(jīng)過上述四步學(xué)習(xí)過程之后,得到關(guān)于標(biāo)引詞Ij的關(guān)系Rj和閾值Mj。n 削弱詞選擇IF(一個在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)AND(一個在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的削弱詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。 (2) 統(tǒng)計在集合中出現(xiàn)的單詞的詞頻 統(tǒng)計肯定訓(xùn)練集合中的每個詞,然后將詞頻轉(zhuǎn)為相應(yīng)的zscore。n 對詞表按單詞或短語的總分排序并適當(dāng)去除低分詞,便得到標(biāo)引文獻的“最亮點”標(biāo)引詞表。假定文本樣本由ngram gj(j=1,2,...,S)組成,計數(shù)Ci(i=1,2,...,N)是等于第i個可能的ngram值的{ gj }數(shù)。無意義字符如標(biāo)點符號、數(shù)字等用禁用符號替換。一種形式的tf * idf的公式如下: tf * idf = [f(t,d) /MAX[f(t,d)]] * log (N/n)對tf * idf進行歸一化(TFC):降低TF的作用(LTC):tf*idf 公式 綜合考慮了兩個因素:(tf)。Tf是指詞的頻率,idf 指倒置文檔頻率。 如果一個詞的區(qū)分值大于零,則用其做標(biāo)引詞會使文獻間的相似度減少,使文獻空間密度降低,從而使標(biāo)引效率提高, 因而設(shè)計詞權(quán)時應(yīng)取較大的取值;如果一個詞的區(qū)分值小于零,則用其做標(biāo)引詞會使文獻間的相似度增加,使文獻空間密度增大,從而使標(biāo)引效率降低,因而設(shè)計詞權(quán)時應(yīng)取較小的權(quán)值。鑒別值的計算在矢量模型中被提出。n 剩余的中頻詞用于文獻的標(biāo)引??梢远x另一個上限閾值: 如果某個詞的頻率超過這個閾值,不被當(dāng)作索引詞。換句話來說,一般來講,排在第k位的項目其比重為第一項的1/k。通過對這些詞語的統(tǒng)計,求出其中的高頻詞、中頻詞和低頻詞,并使用中等頻率的詞語作為標(biāo)識文獻的主題詞。定義3:稱 ()為由標(biāo)引詞t推測標(biāo)引詞t’的確定率。對I(t)可以直觀地理解:標(biāo)引詞標(biāo)引文獻的篇數(shù)越多,它的外延對象越廣,則信息量越小;反之,標(biāo)引詞標(biāo)引文獻的篇數(shù)月少,它的外延對象越窄,則信息量越大。 信息模型人工標(biāo)引通常是通過分析文獻內(nèi)容本身來確定標(biāo)引詞進行標(biāo)引,而自動標(biāo)引是利用計算機從已有的文獻數(shù)據(jù)庫(信息系統(tǒng))中獲取信息來確定標(biāo)引詞的過程。給定一個m篇文獻的集合構(gòu)成的文獻類P,其矩心定義如下: 其中, (k=1,2,...,t)同理可求出整個文獻的矩心。由于文獻Di是由相應(yīng)的標(biāo)引詞的權(quán)值來表示的,即Di=(di1,di2,...,dit),故文獻之間相關(guān)度為:可以設(shè)想,在一個理想的文獻空間中,滿足用戶情報需求的文獻應(yīng)是緊緊地聚集在一起。由于文獻標(biāo)引性能可以從文獻空間密度直接反映出來,因此這種以文獻向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動標(biāo)引的一種數(shù)學(xué)模型。如果詞條t在文獻d中被識別出來,同時也符合r(s,t),則形成從t 到s的敘詞指引。還有許多利用文本中“信息豐富”部分的抽詞標(biāo)引的思路被提出,如利用一下一些元素:文章各級標(biāo)題,介詞短語、后接入“conclusions”和“summary”的線索詞的文本等等。實際上,沒有必要計算詞在整個文本數(shù)據(jù)庫中的出現(xiàn)頻數(shù),而只需計算詞在倒排文檔中的頻數(shù)即可。文獻因此可以由詞和短語聯(lián)合來描述,選擇短語的頻率要比選擇重要詞的頻率標(biāo)準(zhǔn)低一些。自動索引的基本原理自動抽詞標(biāo)引是指直接從原文中抽取詞或短語作為標(biāo)引詞來描述文獻主題內(nèi)容的過程。80年代以來見諸報端的自動分詞方法歸納起來有:最大匹配法、逆向最大匹配法,逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想———回溯法、雙向掃描法、鄰接約束法、擴棄轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語境相關(guān)法、全自動詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法等22種[3]。研究表明使用中文分詞,按詞索引結(jié)合二元組(bigram)索引是檢索效率和效果較優(yōu)的索引綜合考慮方式,通常通過自動分詞來選擇索引詞。表示法的選擇應(yīng)考慮下面三個準(zhǔn)則:精確表示語義涵蓋所有內(nèi)容易于計算機處理實際上,人們更加傾向于研究概念的表示形式。對于IR來講,這種分析是非常復(fù)雜的也是很難進行的。但是,單詞經(jīng)常不能給出專一的描述。索引詞的選取過程見圖223 所示。在這一章中,我們將介紹以單詞和合成詞為表示形式的自動索引方法。標(biāo)引程序的基本算法是,抽取文本中的詞匯,將詞匯與一個“禁用詞表”比較,除去各種非實義詞(冠詞、介詞、連詞等),然后統(tǒng)計剩下的詞匯的出現(xiàn)頻率,并按其降序排列,排在前面的一些高頻詞被選作文獻的“標(biāo)引詞”。詞和短語除了根據(jù)頻率抽取之外,還可以通過與某種機內(nèi)詞典中“可接受的”詞語相匹配的方式從文本中抽取。頻率標(biāo)準(zhǔn)還可用其他標(biāo)準(zhǔn)來補充。標(biāo)引時用被標(biāo)引文獻中的詞與詞表中的詞進行比較,將匹配成功的詞賦予該文獻?;诟拍畹馁x詞標(biāo)引基于概念的賦詞標(biāo)引主要是使用概念詞表作為標(biāo)引詞的來源。這一現(xiàn)象正好反映了文獻空間中某兩篇文獻的相關(guān)程度的大小,即余弦值小,夾角大,則相關(guān)度低;反之,則相關(guān)度高。第二,式(21)的計算量較大,對具有n篇文獻的集合而言,共需計算次。所以y/x可用來作為測量文獻空間密度的標(biāo)準(zhǔn), y/x值大,則空間密度高,反之則空間密度低。如數(shù)據(jù): ()表示了“文獻庫D中的文獻是否具有標(biāo)引詞t”這樣一條信息。, 表示“文獻具有標(biāo)引詞t與 t’”的信息量大于等于僅含有標(biāo)引詞t或 t’的信息量。當(dāng)確定率達到1時,就是推斷,即通常的精確推理。 詞頻統(tǒng)計法的理論基礎(chǔ)是著名的齊普夫定律(Zipf’s Law)。Zipf第一定律即高頻詞定律可用式(73)表示: RF=C (73)式(73)中, R為詞頻等級數(shù),F(xiàn)為詞頻,C為常數(shù),例子見表1。但是,在信息理論中,我們可以發(fā)現(xiàn)它的等價物(例如,Shannon理論或熵)信息量和頻率之間的對應(yīng)關(guān)系如下:因此,在這兩個閾值之間選擇詞的時候,希望獲得信息量被最好地展現(xiàn)出來的那些詞。出現(xiàn)在大多數(shù)文檔中的詞沒有鑒別力。一個詞的鑒別值的計算方法如下: 計算文檔集的矩心Pj=Σi Pij / N其中,Pj表示第j個詞的權(quán)重,Pij 表示在第i個文檔中第j個詞的權(quán)重 計算文檔的空間密度,也就是每個文檔和文檔集的矩心的相關(guān)性的平均值U1 = C * Σj Sim(di, V) 其中,C 是標(biāo)準(zhǔn)化常量,常取 C = 1/ N,Sim(di, V) 是文檔di 和文檔集矩心V的相關(guān)度。 因此,詞的文獻頻率與詞區(qū)分值有互逆關(guān)系,故詞區(qū)分詞加權(quán)標(biāo)引中的詞權(quán)與文獻頻率存在互逆關(guān)系,或者說逆文獻頻率加權(quán)標(biāo)引中的詞權(quán)與詞區(qū)分值相一致。包括:?? Maximum Normalization: ??Augmented Maximum Normalization: ?? Cosine Normalization:b、對TF進行緩沖:1+log(TF), 1+log(1+log(TF)),c、Log的作用:將值域拉平,使得函數(shù)的變化更平緩idf = log (N/n), 其中,N是文檔集中的文檔數(shù), n是包含某個特征詞的文檔數(shù)。1979年Burnett、Willet等人將這種方法引入情報檢索領(lǐng)域。在統(tǒng)計中如發(fā)現(xiàn)某ngram包含禁用符號,則該ngram不被統(tǒng)計。這些被抽出的單詞或短語即為文獻標(biāo)引詞(最亮點)。對一特定標(biāo)引詞Ij,將實施由
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1