freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立-閱讀頁

2025-05-29 03:27本頁面
  

【正文】 一個在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)AND(一個在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的削弱詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。Rj可用加權(quán)向量描述: Rj = {wj1,wj2,...,wjm}其中,wjk 為在關(guān)系Rj中第k個詞的權(quán)重,m 為肯定及否定訓(xùn)練集合中不同單詞數(shù)。但我們需確定一閾值,以便將具有高標(biāo)引值的文獻從低標(biāo)引值文獻中區(qū)分出。在前一步計算的關(guān)系Rj 基礎(chǔ)上,我們分別計算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。 標(biāo)引過程經(jīng)過上述四步學(xué)習(xí)過程之后,得到關(guān)于標(biāo)引詞Ij的關(guān)系Rj和閾值Mj。到目前為止,概率標(biāo)引法所依據(jù)的概率主要有相關(guān)概率,決策概率和出現(xiàn)概率?;跊Q策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻這一決策事件正確的概率來標(biāo)引文獻,如DIA標(biāo)引方法?;诔霈F(xiàn)概率的標(biāo)引方法是根據(jù)詞在文獻中的出現(xiàn)頻次所服從的概率分布的特征來選擇標(biāo)引詞,如2—Poisson模型。5 基于語言規(guī)則與內(nèi)容的索引 句法分析標(biāo)引法句法分析法利用計算機自動分析文本的句法結(jié)構(gòu),鑒別詞在句子中的語法作用和詞間句法關(guān)系,前蘇聯(lián)開發(fā)的自動標(biāo)引系統(tǒng)多采用此法。句法分析法從文獻的標(biāo)題出發(fā),分析其內(nèi)在結(jié)構(gòu),其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。 句法分析基于深層結(jié)構(gòu)的標(biāo)引法將文獻標(biāo)題可能反映的主題內(nèi)容歸納為有限的幾種元素基本范疇,并使用簡潔的句法規(guī)則,減小了句法分析的復(fù)雜性。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù),影響了其自動標(biāo)引效率。 語義分析標(biāo)引法語義分析標(biāo)引法通過分析文本或話語的語義結(jié)構(gòu)來識別文獻中那些與主題相關(guān)的詞。學(xué)術(shù)界對從語言學(xué)角度研究自動標(biāo)引的做法頗有爭議,反對者的主要理由包括:語言法的使用限制多、語言學(xué)領(lǐng)域的研究成果對促進自動發(fā)展幫助甚微等6 人工智能索引法人工智能是計算機科學(xué)的一個分支,它專門研究怎樣用機器理解和模擬人類特有的智能系統(tǒng)的活動,探索人們?nèi)绾芜\用已有的知識、經(jīng)驗和技能去解決問題。 人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識表示方法主要有產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法。其中具有代表性的有:基于產(chǎn)生式表示法的JAKS系統(tǒng)、基于語義網(wǎng)絡(luò)表示法的WorldViews、MedIndEx系統(tǒng)和漢語自動標(biāo)引專家系統(tǒng)DIES DIES (Document Indexing Expert System ) 是北京文獻服務(wù)處開發(fā)的一個試驗系統(tǒng)。系統(tǒng)依據(jù)語義特征之間的聯(lián)系和相互作用, 構(gòu)成系統(tǒng)的產(chǎn)生式規(guī)則庫。7 漢語自動索引我國研究人員60年代初開始關(guān)注自動標(biāo)引的研究動向,70年代末開始探索漢語文獻自動標(biāo)引問題,他們在TK 70計算機上建立了一個試驗系統(tǒng),借助詞典對文獻題名進行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 蘇新寧. 漢語文獻自動標(biāo)引綜析 . 情報學(xué)報,1993(2):92~99。 詞典標(biāo)引法 詞典標(biāo)引法是一個傳統(tǒng)的標(biāo)引法,在目前的 國內(nèi)自動標(biāo)引中應(yīng)用得相當(dāng)普遍。但是詞典的構(gòu)造困難,詞典的維護也需要付出相當(dāng)大的代價,并且是永無盡頭的。會,經(jīng)濟和科學(xué)技術(shù)都飛速發(fā)展,新概念、新詞匯層出不窮,詞典法的明顯缺陷就在于學(xué)習(xí)新詞的能力差、設(shè)計詞典的工作繁重、需要大量的專業(yè)人員的參加、空間開銷很大、更新滯后等。 切分標(biāo)記法 切分標(biāo)記法是將能夠斷開句子或表示漢字之間關(guān)系的漢字集合組成切分標(biāo)記機內(nèi)字典。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語詞組或短語之后,再按一定的分解模式分割成單詞或?qū)S迷~組。吳蔚天、田鶴卿先生提出的實現(xiàn)漢字科技文獻自動標(biāo)引的非用字后綴法是一個典型的切分標(biāo)記法。實現(xiàn)時,機器自左至右掃描漢字,逐字對照非用字后綴表。切分的原則是有聯(lián)系則取,無聯(lián)系則斷。 語法分析標(biāo)引法 語法分析標(biāo)引法是通過對自然語言文法或句型文法的分析來抽取主題詞加以標(biāo)引由于漢語自然語言文法復(fù)雜,規(guī)則較多,目前還沒有一個形式化系統(tǒng)能對漢語文法進行描述。如:科技文獻的標(biāo)題和文摘中的句型種類較為有限,如“本文討論了……”等,幾乎出現(xiàn)在每一篇文獻中,而這些句子對自動標(biāo)引來說則非常重要,因為這些句型正是表達文獻主題內(nèi)容的句型。 漢語文獻標(biāo)引專家系統(tǒng) 漢語文獻自動標(biāo)引專家系統(tǒng)的基本原理是,以現(xiàn)有的漢語專業(yè)主題詞表為基礎(chǔ),構(gòu)建概念語義網(wǎng)絡(luò),根據(jù)一定的抽詞規(guī)則、標(biāo)引規(guī)則和專門知識,對所處理的素材進行分析、判斷,選擇和確定標(biāo)引主題詞。由于漢字構(gòu)詞具有極大的靈活性,漢語詞性缺乏嚴(yán)格的規(guī)定性,漢語詞匯沒有嚴(yán)格的形態(tài)變化,再加上漢語文獻作者使用語言的多樣性和不規(guī)范性,造成同一主題可以有多種表達方式,一種表達方式在不同的語境中可以表達多個主題。要提高標(biāo)引的準(zhǔn)確性和真實性,就必須進行語義理解,在語言深層實現(xiàn)標(biāo)引,因此漢語自動標(biāo)引專家系統(tǒng)代表了今后漢語自動標(biāo)引的發(fā)展方向。目前漢語自動標(biāo)引專家系統(tǒng)只處在初期的試驗階段,遠(yuǎn)未達到實用水平。它完全摒棄了人工的構(gòu)造字典,對每個漢字的標(biāo)引完全由計算機自動進行,保存了文獻文本的原貌,因此也就沒有主觀性的成分 陳光祚. 論單漢字檢索系統(tǒng). 情報學(xué)報,1992(1):1 1~1 。單漢字標(biāo)引和檢索的基本過程中,標(biāo)引時計算機對處理的文本逐一抽字,經(jīng)過一些處理(如去掉無意義的虛字)后,建立索引文件。8 特征詞的權(quán)重一個詞所擁有的權(quán)重的衡量是變化多樣的。它也可以是一種公式tf * idf。通常情況下,tf * idf的衡量方法取得了比較好的性能。這是常用的方法。 改善方法1:過濾功能詞某些功能詞,如“beforehand”,“thus”等,在文章中出現(xiàn)的不是很頻繁。但又不想把它們作為索引詞,因為它們沒有實際意義。這些詞通常是介詞(. Of, to),副詞(elsewhere, now),形容詞(certain, possible)等在這個表中的某些詞不是沒有意義的(取決于領(lǐng)域,在語言學(xué)上它們不是沒有意義的)。系統(tǒng)所使用的列表是變化的. 這取決于應(yīng)用領(lǐng)域。如果是,不能將它作為索引詞。比如下面的詞在意思上是相近的:transformer, transforme, transforment, transformation, transformateur, … 這些詞之間形式的不同對于信息檢索是不利的。因此,必須去掉這些詞之間的不同,也就是把這些詞表示成相同的形式。去掉這些詞的結(jié)尾部分,保留根部,它們會有相同的形式。這種方法在Porter算法中被采納。如,在某些形容詞后加入ness,happiness, 在動詞后加入able, adjustable。但是,大多數(shù)的轉(zhuǎn)換還是有道理的。這個算法被當(dāng)作一個典型的算法。Porter algorithm:(Porter, ., 1980, An algorithm for suffix stripping, Program, 14(3) :130137)Step 1: plurals and past participles n SSES SS caresses caress n (*v*) ING motoring motor Step 2: adjn, nv, nadj, …n (m0) OUSNESS OUS callousness callous n (m0) ATIONAL ATE relational relate Step 3: n (m0) ICATE IC triplicate triplic Step 4:n (m1) AL revival revivn (m1) ANCE allowance allow Step 5: n (m1) E probate probat n (m 1 and *d and *L) single letter controll control 借助于字典。例如,我們應(yīng)用規(guī)則:將以 ation結(jié)尾的詞替換為er結(jié)尾,transformation 224。但是,對于詞“vocation”,應(yīng)用這個規(guī)則,變?yōu)椤皏ocer”,這不是一個正確的轉(zhuǎn)換。 如果不存在,不能進行轉(zhuǎn)換。字典的使用提供了很多優(yōu)勢,但它也在存取的過程中付出了很大的代價。 正確的語法種類識別??赡艿姆椒ㄊ菓?yīng)用概率的方式來確定一個單詞的種類。 借助于這種種類識別結(jié)構(gòu),可以將單詞轉(zhuǎn)換成標(biāo)準(zhǔn)形式。因此,索引的結(jié)果是詞的集合,這里的詞或者是詞本身,或者是詞根,或者是合成詞(如果加入了合成詞鑒別功能)d224。這個詞及其權(quán)重的集合用來構(gòu)成文檔內(nèi)容的表示。還有,在不同的模型中,即使是相同的詞的集合也會有不同的意義。使用的方法一般有統(tǒng)計法、信息論法和概率法。 索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應(yīng)的文檔。 索引器可以使用集中式索引算法或分布式索引算法。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。在下一章中, 我們將介紹一些傳統(tǒng)的信息檢索模型。[5] 搜索引擎技術(shù)及趨勢, ,李曉明(北京大學(xué)計算機科學(xué)技術(shù)系教授) 劉建國(北京大學(xué)計算機系副教授)[6] 通信網(wǎng)絡(luò)價值的魔鬼 梅特卡夫定律錯在何處[7]彭波, 搜索引擎的混合索引技術(shù), 北京大學(xué)計算機科學(xué)技術(shù)系網(wǎng)絡(luò)與分布式系統(tǒng)實驗室,北京[8]劉挺,搜索引擎技術(shù),哈工大信息檢索實驗室23 / 2
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1