freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-展示頁(yè)

2025-05-23 03:27本頁(yè)面
  

【正文】 典中“可接受的”詞語(yǔ)相匹配的方式從文本中抽取。取詞根程序可以自動(dòng)去除指定的詞尾,如“ed”、“ing”等。除了選擇詞和短語(yǔ),標(biāo)引程序還可以選擇詞根。更復(fù)雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語(yǔ)。標(biāo)引程序的基本算法是,抽取文本中的詞匯,將詞匯與一個(gè)“禁用詞表”比較,除去各種非實(shí)義詞(冠詞、介詞、連詞等),然后統(tǒng)計(jì)剩下的詞匯的出現(xiàn)頻率,并按其降序排列,排在前面的一些高頻詞被選作文獻(xiàn)的“標(biāo)引詞”。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語(yǔ)在文獻(xiàn)中出現(xiàn)的頻率、詞語(yǔ)出現(xiàn)的位置(標(biāo)題、結(jié)論、插圖說(shuō)明等)及其語(yǔ)境。它涉及如何從原文中抽取能夠表達(dá)其實(shí)質(zhì)意義的詞匯,以及如何根據(jù)這些詞匯確定標(biāo)引詞。其中,重點(diǎn)介紹基于詞匯分布特征的索引方法,其它方法只是簡(jiǎn)單講解,同學(xué)們課后可以查閱相關(guān)的資料,對(duì)每個(gè)方法進(jìn)行總結(jié),形成介紹性的文章。在這一章中,我們將介紹以單詞和合成詞為表示形式的自動(dòng)索引方法。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。由于漢語(yǔ)結(jié)構(gòu)上的復(fù)雜性、切分的模糊性以及語(yǔ)法分析問(wèn)題等諸多因素的影響,漢語(yǔ)自動(dòng)分詞未能取得重大的實(shí)質(zhì)性突破。圖22 索引詞選取框圖(英文文檔)詞或詞組停用詞中文切詞中文文檔自動(dòng)或手工索引結(jié)構(gòu)識(shí)別索引詞集合 結(jié)構(gòu)圖23 索引詞選取框圖(中文文檔)語(yǔ)言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者在漢語(yǔ)自動(dòng)分詞與索引的研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決漢語(yǔ)分詞的方法。索引詞的選取過(guò)程見(jiàn)圖223 所示。 涵蓋率(Recall)精確度(Precision)字符串 詞 合成詞 概念圖21 概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來(lái)表示,可以是一組索引詞或關(guān)鍵詞。在文檔索引過(guò)程中,先通過(guò)中文自動(dòng)分詞程序的處理,把文檔正文分割成為獨(dú)立的分詞單位,然后在這些分詞單位基礎(chǔ)上選擇索引詞。因此,研究者們提出了新的方法,建議將單詞組織起來(lái)形成合成詞,文獻(xiàn)可以由詞和短語(yǔ)聯(lián)合來(lái)描述。但是,單詞經(jīng)常不能給出專一的描述。事實(shí)上,詞是最容易識(shí)別的語(yǔ)言單位,并且,它們也能充分地表達(dá)語(yǔ)義。概念表示形式可以是字、詞、詞組等,概念表示形式與精確度關(guān)系如圖21所示。建立索引的目標(biāo)是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。對(duì)于IR來(lái)講,這種分析是非常復(fù)雜的也是很難進(jìn)行的。二 索引的建立目的、標(biāo)準(zhǔn)在大量的文檔集中(通常情況下大約為100,000個(gè)文檔以上),為了提高檢索性能和速度, 需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。為了找到這些內(nèi)容,必須進(jìn)行語(yǔ)義分析來(lái)確定哪些是某一文檔中的概念。目前存在的技術(shù),大多限制在某一特別領(lǐng)域。表示法的選擇應(yīng)考慮下面三個(gè)準(zhǔn)則:精確表示語(yǔ)義涵蓋所有內(nèi)容易于計(jì)算機(jī)處理實(shí)際上,人們更加傾向于研究概念的表示形式。選用詞作為概念的表示形式的想法是很自然的。在現(xiàn)有的系統(tǒng)中,它是最常用的方法。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確性。研究表明使用中文分詞,按詞索引結(jié)合二元組(bigram)索引是檢索效率和效果較優(yōu)的索引綜合考慮方式,通常通過(guò)自動(dòng)分詞來(lái)選擇索引詞。分詞單位是指具有確定語(yǔ)義或語(yǔ)法功能的基本單位,通常被直接選作索引詞[7]。既可以自動(dòng)提取,也可以是由人主觀指定。首先,對(duì)文本信息進(jìn)行預(yù)處理,預(yù)處理技術(shù)主要包括結(jié)構(gòu)提取、分詞(中文)、詞干提取等,然后選擇特征表示形式和進(jìn)行特征提取, 以一定特征項(xiàng)(如詞或詞組)來(lái)代表文檔,在檢索時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理。80年代以來(lái)見(jiàn)諸報(bào)端的自動(dòng)分詞方法歸納起來(lái)有:最大匹配法、逆向最大匹配法,逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想———回溯法、雙向掃描法、鄰接約束法、擴(kuò)棄轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語(yǔ)境相關(guān)法、全自動(dòng)詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法等22種[3]。這一問(wèn)題的擱淺直接影響了漢語(yǔ)文獻(xiàn)的自動(dòng)索引及漢語(yǔ)的句法分析與語(yǔ)義分析研究,成為中文自動(dòng)索引研究發(fā)展的瓶頸。索引從原理上分抽詞索引和賦詞索引,各種方法和技術(shù)以自然語(yǔ)言的規(guī)律為基礎(chǔ),構(gòu)建在相應(yīng)的數(shù)學(xué)模型上。首先,介紹自動(dòng)索引的基本原理,然后,介紹基于詞匯分布特征的索引方法:統(tǒng)計(jì)標(biāo)引法、ngram標(biāo)引法和概率標(biāo)引、基于語(yǔ)言規(guī)則與內(nèi)容的索引:句法分析標(biāo)引法、語(yǔ)義分析標(biāo)引法和基于概念的標(biāo)引法、人工智能索引法:知識(shí)產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法和漢語(yǔ)自動(dòng)索引。自動(dòng)索引的基本原理自動(dòng)抽詞標(biāo)引是指直接從原文中抽取詞或短語(yǔ)作為標(biāo)引詞來(lái)描述文獻(xiàn)主題內(nèi)容的過(guò)程。自動(dòng)抽詞標(biāo)引思路在手工標(biāo)引中,標(biāo)引員總是盡量選擇能較好反映文獻(xiàn)主題的原文詞語(yǔ)。假定文本以機(jī)器可讀的形式存在,計(jì)算機(jī)程序就可以模仿人,通過(guò)對(duì)文本中詞的頻率、位置和語(yǔ)境標(biāo)準(zhǔn)來(lái)實(shí)施抽詞標(biāo)引。選擇標(biāo)引詞的分界點(diǎn)可根據(jù)下面幾種標(biāo)準(zhǔn)來(lái)確定:詞的絕對(duì)數(shù)、與文本長(zhǎng)度有關(guān)的數(shù)、詞頻超過(guò)一定閾值的詞數(shù)。文獻(xiàn)因此可以由詞和短語(yǔ)聯(lián)合來(lái)描述,選擇短語(yǔ)的頻率要比選擇重要詞的頻率標(biāo)準(zhǔn)低一些。因此詞根(如“beat”)可以被選擇并存儲(chǔ),它代替了多種對(duì)應(yīng)的變體“beat”、“beating”、和“beated”。當(dāng)然,詞、短語(yǔ)或詞根都可以給予反映它們?cè)谖墨I(xiàn)中出現(xiàn)頻率的權(quán)重。選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中,計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法(tf),有時(shí)考察詞在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)的頻率可能更重要(df,idf)。實(shí)際上,沒(méi)有必要計(jì)算詞在整個(gè)文本數(shù)據(jù)庫(kù)中的出現(xiàn)頻數(shù),而只需計(jì)算詞在倒排文檔中的頻數(shù)即可。這種方法比絕對(duì)頻率法要復(fù)雜一些,因?yàn)樗枰酪粋€(gè)詞在數(shù)據(jù)庫(kù)中出現(xiàn)頻率,并將該頻率與詞在一特定文獻(xiàn)中的頻率相比較。少數(shù)新詞語(yǔ)將是那些在一特定文獻(xiàn)中很少出現(xiàn),但是在整個(gè)數(shù)據(jù)庫(kù)中更少出現(xiàn)的詞語(yǔ),如果一個(gè)詞在一個(gè)有1000萬(wàn)詞的數(shù)據(jù)庫(kù)中只出現(xiàn)5次,則它盡管在一篇5000詞的期刊論文中只出現(xiàn)1次,仍然是很重要的,而那些在一篇文獻(xiàn)和整個(gè)數(shù)據(jù)庫(kù)都頻繁出現(xiàn)的詞語(yǔ)(可稱為“泛濫詞”)則要去除。例如,Baxendale在1985年提出了對(duì)段落主題句抽詞的思想,認(rèn)為只需對(duì)每段文本的第一個(gè)和最后一個(gè)句子進(jìn)行處理。還有許多利用文本中“信息豐富”部分的抽詞標(biāo)引的思路被提出,如利用一下一些元素:文章各級(jí)標(biāo)題,介詞短語(yǔ)、后接入“conclusions”和“summary”的線索詞的文本等等。在理想情況下,索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語(yǔ)義單位,對(duì)應(yīng)著語(yǔ)言學(xué)里的詞匯詞的概念,它是專門(mén)表示含義,而其實(shí)際意義無(wú)法由組合成分相加得到的最小語(yǔ)言單位[7]。自動(dòng)賦詞標(biāo)引類型主要有以下兩種:基于概率的賦詞標(biāo)引Maron于1979年提出的概率標(biāo)引模型采用基于相關(guān)概率的賦詞標(biāo)引方法,其標(biāo)引過(guò)程是:選一批樣品文獻(xiàn),去掉高頻詞和低頻詞,把這些文獻(xiàn)按其主題歸入適當(dāng)?shù)念惸恐?,然后統(tǒng)計(jì)候選關(guān)鍵詞在類目中出現(xiàn)的頻率,再由人工最后確定一個(gè)詞表。DIA(Darmstadt Indexing Approach)方法則是基于決策概率(某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率)的一種賦詞標(biāo)引方法。如果詞條t在文獻(xiàn)d中被識(shí)別出來(lái),同時(shí)也符合r(s,t),則形成從t 到s的敘詞指引?!∠旅娴倪^(guò)程就是用相關(guān)性描述y(s,d)來(lái)估算概率P(c/y), P(c/y)是給定相關(guān)性描述y,敘詞s標(biāo)引文獻(xiàn)d正確的概率?;靖怕蕯?shù)大于零的敘詞,便可用于對(duì)具有該詞的文獻(xiàn)進(jìn)行標(biāo)引。FASIT法就是一種典型的基于概念的賦詞標(biāo)引方法,F(xiàn)ASIT法的實(shí)現(xiàn)過(guò)程是:對(duì)文獻(xiàn)中與其主題相關(guān)的詞或短語(yǔ)賦予一定的句法范疇或幾個(gè)范疇的組合,并給出相應(yīng)的標(biāo)記;然后采用與上下文相關(guān)的消除歧義規(guī)則,消除多重標(biāo)記詞的歧義性;最后利用一個(gè)概念形式詞典進(jìn)行概念選擇,選出的概念經(jīng)規(guī)范化處理后,計(jì)算其與其他概念之間的關(guān)聯(lián)度,進(jìn)而將統(tǒng)一概念進(jìn)行概念歸類,最終以概念類來(lái)標(biāo)引文獻(xiàn)。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來(lái),因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動(dòng)標(biāo)引的一種數(shù)學(xué)模型。(1)文獻(xiàn)向量的相關(guān)性  有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個(gè)確定的位置,文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。根據(jù)向量代數(shù)中數(shù)量積計(jì)算公式有:其中,|a|,|b|分別為向量和的模,=(a,b)為向量和的夾角,又設(shè)向量和的坐標(biāo)分別為={a1,a2,...,at}和={b1,b2,...,bt},則:由余弦函數(shù)的性質(zhì)可知,在[0,]上,其余弦值隨其角度變小而增大。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。由于文獻(xiàn)Di是由相應(yīng)的標(biāo)引詞的權(quán)值來(lái)表示的,即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為:可以設(shè)想,在一個(gè)理想的文獻(xiàn)空間中,滿足用戶情報(bào)需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。因此,為了達(dá)到理想的檢索效果,應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開(kāi),即對(duì)式(21)求最小值。但這會(huì)產(chǎn)生兩個(gè)方面的問(wèn)題:第一,這種將點(diǎn)分開(kāi)的方式是否基于這樣一個(gè)事實(shí),即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開(kāi)。由于上述原因,我們考慮使用聚類文獻(xiàn)空間。給定一個(gè)m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P,其矩心定義如下: 其中, (k=1,2,...,t)同理可求出整個(gè)文獻(xiàn)的矩心。而聚類文獻(xiàn)的空間密度由式(22)給出:其中,為整個(gè)文獻(xiàn)集合矩心,為文獻(xiàn)與矩心的相關(guān)度。(2)空間密度與標(biāo)引性能的關(guān)系一個(gè)理想的文獻(xiàn)空間應(yīng)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1