freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(已改無錯字)

2023-06-14 03:27:38 本頁面
  

【正文】 的單詞w1,w2,w3,...,wm 。對一特定標(biāo)引詞Ij,將實(shí)施由四步組成的學(xué)習(xí)過程。 (1) 匯集肯定和否定訓(xùn)練(Training)集合 對一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(當(dāng)然,這些文獻(xiàn)事先由標(biāo)引員標(biāo)引),這些文獻(xiàn)稱為Ij 的肯定訓(xùn)練集合。同時一些未被Ij 標(biāo)引的文獻(xiàn)也被匯集起來,這些文獻(xiàn)稱為Ij 的否定訓(xùn)練集合。 (2) 統(tǒng)計在集合中出現(xiàn)的單詞的詞頻 統(tǒng)計肯定訓(xùn)練集合中的每個詞,然后將詞頻轉(zhuǎn)為相應(yīng)的zscore。類似地,在否定集合中的每個詞亦被統(tǒng)計,其zscore也被計算出來。通過這一步,便可得到兩個zscore表,此表描述了在Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計分布。zscore及其他相關(guān)的統(tǒng)計測量指標(biāo)定義如下。對于一列n個變量:x1,x2,x3, ..., xn 平均值=(x1+x2+x3+ ...+ xn)/n 方差=()/(n1) 標(biāo)準(zhǔn)偏差=(方差) xi 的zscore =(xi平均值)/標(biāo)準(zhǔn)偏差(3) 選擇促進(jìn)詞和削弱詞如果一個詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引,則此詞稱為Ij的促進(jìn)詞。相反地,如果一個詞的出現(xiàn)削弱了Ij 的標(biāo)引,則該詞稱為Ij的削弱詞。選擇促進(jìn)詞和削弱詞的方法描述如下。n 促進(jìn)詞選擇IF(一個在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)AND(一個在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的促進(jìn)詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。n 削弱詞選擇IF(一個在Ij的否定訓(xùn)練集合中的詞的zscore 閾值)AND(一個在Ij的肯定訓(xùn)練集合中的詞的zscore 閾值)THEN該詞被選為Ij 的削弱詞;詞權(quán)值 = 在肯定訓(xùn)練集合中的zscore 在否定訓(xùn)練集合中的zscore。在這一步之后,我們建立了標(biāo)引詞Ij和促進(jìn)詞及削弱詞集合之間的關(guān)系Rj。Rj可用加權(quán)向量描述: Rj = {wj1,wj2,...,wjm}其中,wjk 為在關(guān)系Rj中第k個詞的權(quán)重,m 為肯定及否定訓(xùn)練集合中不同單詞數(shù)。 (4) 確定兩個平均標(biāo)引值之間的中值測量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計算如下: 標(biāo)引值 = 標(biāo)引值越大,標(biāo)引詞Ij 賦予文獻(xiàn)的概率越大。但我們需確定一閾值,以便將具有高標(biāo)引值的文獻(xiàn)從低標(biāo)引值文獻(xiàn)中區(qū)分出。這一步驟的目的就是為標(biāo)引詞Ij計算閾值。在前一步計算的關(guān)系Rj 基礎(chǔ)上,我們分別計算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。這兩個平均標(biāo)引值的中值(表示為Mj)定義如下: Mj = Mj 將作為閾值來決定標(biāo)引詞Ij是否應(yīng)賦予一文獻(xiàn)。 標(biāo)引過程經(jīng)過上述四步學(xué)習(xí)過程之后,得到關(guān)于標(biāo)引詞Ij的關(guān)系Rj和閾值Mj。標(biāo)引過程描述如下: FOR (j=1 to n) DO /* 假設(shè)有n個可能被確定的標(biāo)引詞*/ IF Mj THEN 標(biāo)引詞Ij 賦予文獻(xiàn) ENDIF從概率論的角度進(jìn)行文獻(xiàn)自動標(biāo)引的方法最初由Maron 和Kuhns 于1960年提出,其基本思想事:文獻(xiàn)檢索系統(tǒng)可根據(jù)文獻(xiàn)滿足提問的概率來估計輸出文獻(xiàn)并對其分級。到目前為止,概率標(biāo)引法所依據(jù)的概率主要有相關(guān)概率,決策概率和出現(xiàn)概率?;谙嚓P(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問與文獻(xiàn)的相關(guān)概率來標(biāo)引劃分文獻(xiàn),如二值獨(dú)立性標(biāo)引模型;一是根據(jù)具有一定聯(lián)系的文獻(xiàn)之間的相關(guān)概率來標(biāo)引特定的文獻(xiàn),如基于被引用與引用文獻(xiàn)的標(biāo)引方法?;跊Q策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確的概率來標(biāo)引文獻(xiàn),如DIA標(biāo)引方法。而RPI模型則是同時以 需求一文獻(xiàn)相關(guān)概率和敘詞標(biāo)引文獻(xiàn)正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法?;诔霈F(xiàn)概率的標(biāo)引方法是根據(jù)詞在文獻(xiàn)中的出現(xiàn)頻次所服從的概率分布的特征來選擇標(biāo)引詞,如2—Poisson模型。 這種標(biāo)引方法目前還處于理論階段,具體的標(biāo)引工具還沒有出現(xiàn)。5 基于語言規(guī)則與內(nèi)容的索引 句法分析標(biāo)引法句法分析法利用計算機(jī)自動分析文本的句法結(jié)構(gòu),鑒別詞在句子中的語法作用和詞間句法關(guān)系,前蘇聯(lián)開發(fā)的自動標(biāo)引系統(tǒng)多采用此法。它們一般都借助詞典來制定詞的語法范疇,以此作為句法分析的基礎(chǔ),最終抽出可做標(biāo)引詞的詞語。句法分析法從文獻(xiàn)的標(biāo)題出發(fā),分析其內(nèi)在結(jié)構(gòu),其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。它從語法角度上確定句子中每個詞的作用 (如主語還是謂語 )和詞之間的相互關(guān)系 (如是修飾還是被修飾 ),并通過與事先準(zhǔn)備好的解析規(guī)則或語法相比較而實(shí)現(xiàn)。 句法分析基于深層結(jié)構(gòu)的標(biāo)引法將文獻(xiàn)標(biāo)題可能反映的主題內(nèi)容歸納為有限的幾種元素基本范疇,并使用簡潔的句法規(guī)則,減小了句法分析的復(fù)雜性。數(shù)字化指示符和處理碼標(biāo)識的運(yùn)用更方便了計算機(jī)的識別處理。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù),影響了其自動標(biāo)引效率。另外,這種方法僅以文獻(xiàn)標(biāo)題為標(biāo)引對象,雖然主題內(nèi)容容易突出,但標(biāo)題句法形式的規(guī)范性一般較差,增加了句法分析的難度,同時過窄的分析范圍容易漏標(biāo)一些相關(guān)主題[4]。 語義分析標(biāo)引法語義分析標(biāo)引法通過分析文本或話語的語義結(jié)構(gòu)來識別文獻(xiàn)中那些與主題相關(guān)的詞。這種方法本身受制于語言學(xué)的發(fā)展,而眾所周知的是語言學(xué),尤其是計算語言學(xué)本身的研究難度,所以目前利用語義分析的方法進(jìn)行標(biāo)引的研究還不多,所能見到的有諸如:潛在語義分析標(biāo)引法、相信函數(shù)模型和語義矢量空間模型等。學(xué)術(shù)界對從語言學(xué)角度研究自動標(biāo)引的做法頗有爭議,反對者的主要理由包括:語言法的使用限制多、語言學(xué)領(lǐng)域的研究成果對促進(jìn)自動發(fā)展幫助甚微等6 人工智能索引法人工智能是計算機(jī)科學(xué)的一個分支,它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動,探索人們?nèi)绾芜\(yùn)用已有的知識、經(jīng)驗(yàn)和技能去解決問題。實(shí)現(xiàn)自動標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動,即讓計算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作,因此,人們把人工智能法運(yùn)用于自動標(biāo)引研究既順應(yīng)自然,又帶來新的活力。 人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識表示方法主要有產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和框架表示法。采用人工智能法進(jìn)行自動標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法要復(fù)雜,但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過程,這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其它自動標(biāo)引方法更有希望獲得理想的標(biāo)引效果。其中具有代表性的有:基于產(chǎn)生式表示法的JAKS系統(tǒng)、基于語義網(wǎng)絡(luò)表示法的WorldViews、MedIndEx系統(tǒng)和漢語自動標(biāo)引專家系統(tǒng)DIES DIES (Document Indexing Expert System ) 是北京文獻(xiàn)服務(wù)處開發(fā)的一個試驗(yàn)系統(tǒng)。DIES 系統(tǒng)定義了一些語義特征, 如object (對象)、human(人類)、course (學(xué)科)、operate(操作)等。系統(tǒng)依據(jù)語義特征之間的聯(lián)系和相互作用, 構(gòu)成系統(tǒng)的產(chǎn)生式規(guī)則庫。等。7 漢語自動索引我國研究人員60年代初開始關(guān)注自動標(biāo)引的研究動向,70年代末開始探索漢語文獻(xiàn)自動標(biāo)引問題,他們在TK 70計算機(jī)上建立了一個試驗(yàn)系統(tǒng),借助詞典對文獻(xiàn)題名進(jìn)行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 蘇新寧. 漢語文獻(xiàn)自動標(biāo)引綜析 . 情報學(xué)報,1993(2):92~99。比較有代表性的自動標(biāo)引系統(tǒng)有基于部件詞典的啟動標(biāo)引系統(tǒng)、基于規(guī)則與詞典的自動標(biāo)方法、基于非用字后綴表法的自動標(biāo)引等 顧敏、史麗萍、李春玲. 自動標(biāo)引綜述. 黑龍江水專學(xué)報,2000(9):103~104。 詞典標(biāo)引法 詞典標(biāo)引法是一個傳統(tǒng)的標(biāo)引法,在目前的 國內(nèi)自動標(biāo)引中應(yīng)用得相當(dāng)普遍。其思想是構(gòu)造 一個詞典(主題詞典、關(guān)鍵詞典、部件詞典等),然后設(shè)計各種算法用文獻(xiàn)數(shù)據(jù)去匹配詞典,抽出標(biāo)引詞。但是詞典的構(gòu)造困難,詞典的維護(hù)也需要付出相當(dāng)大的代價,并且是永無盡頭的。當(dāng)今社會,經(jīng)濟(jì)和科學(xué)技術(shù)都飛速發(fā)展,新概念、新詞匯層出不窮,詞典法的明顯缺陷就在于學(xué)習(xí)新詞的能力差、設(shè)計詞典的工作繁重、需要大量的專業(yè)人員的參加、空間開銷很大、更新滯后等。所以詞典法里詞典的構(gòu)造完善與否直接影響到標(biāo)引質(zhì)量。 切分標(biāo)記法 切分標(biāo)記法是將能夠斷開句子或表示漢字之間關(guān)系的漢字集合組成切分標(biāo)記機(jī)內(nèi)字典。切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來構(gòu)建的,也有用“非用字”、“條件用字”等來組成的。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語詞組或短語之后,再按一定的分解模式分割成單詞或?qū)S迷~組。 該方法的關(guān)鍵在于詞語切分。吳蔚天、田鶴卿先生提出的實(shí)現(xiàn)漢字科技文獻(xiàn)自動標(biāo)引的非用字后綴法是一個典型的切分標(biāo)記法。該法將漢字用與不用機(jī)械地分為四個類別:A表外用字、B表內(nèi)用字、C條件用字、D非用字,并根據(jù)這些字的屬性構(gòu)造了一個字典——非用字后綴表。實(shí)現(xiàn)時,機(jī)器自左至右掃描漢字,逐字對照非用字后綴表。將用字取出,非用字舍去。切分的原則是有聯(lián)系則取,無聯(lián)系則斷。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引,證明其簡單易行,并能獲得較高的準(zhǔn)確率。 語法分析標(biāo)引法 語法分析標(biāo)引法是通過對自然語言文法或句型文法的分析來抽取主題詞加以標(biāo)引由于漢語自然語言文法復(fù)雜,規(guī)則較多,目前還沒有一個形式化系統(tǒng)能對漢語文法進(jìn)行描述。但是句型文法分析則相對容易。如:科技文獻(xiàn)的標(biāo)題和文摘中的句型種類較為有限,如“本文討論了……”等,幾乎出現(xiàn)在每一篇文獻(xiàn)中,而這些句子對自動標(biāo)引來說則非常重要,因?yàn)檫@些句型正是表達(dá)文獻(xiàn)主題內(nèi)容的句型。因此
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1