freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web的大規(guī)模中文人物信息提取說明書(編輯修改稿)

2025-06-12 18:53 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 詞詞典建立 .................................................................................. 29 基于詞典匹配的方法 .......................................................................... 31 非結(jié)構(gòu)化人物信息提取 .................................................................................. 32 文本分析 .............................................................................................. 32 觸發(fā)詞庫(kù)建立 ...................................................................................... 32 規(guī)則庫(kù)建立 .......................................................................................... 33 算法描述 .............................................................................................. 33 實(shí)驗(yàn)結(jié)果 ......................................................................................................... 34 本章小結(jié) ......................................................................................................... 35 總結(jié) ................................................................................................................................ 35 致謝 ................................................................................................................................ 37 參考 文獻(xiàn) ........................................................................................................................ 38 攻讀碩士學(xué)位期間發(fā)表的論文和科研情況 ................................................................ 42 西南交通大學(xué)碩士研究生學(xué)位論文 第 1 頁 1 第 1 章 緒論 項(xiàng)目背景 本課題結(jié)合自然科學(xué)基金委主任項(xiàng)目“基于人機(jī)共建智慧平臺(tái)的語義搜索引擎”開展。語義搜索引擎是下一代的搜素引擎,旨在解決普通的搜索引擎技術(shù)的種種弊端。語義智能搜索引擎技術(shù)的成熟可能還需要十幾二十年甚至更長(zhǎng),但是 蘋果 iphone 手機(jī) 的語音識(shí)別智能搜索技術(shù)是智能搜索引擎技術(shù)已經(jīng)開始應(yīng)用的實(shí)例之一。 語義搜索引擎具有智能化功能,可以理解用戶的搜索意圖,根據(jù)用戶的意圖直接給出答案,免去用戶使用現(xiàn)在搜索引擎過程中那種繁瑣的搜索查找過程。在處理過程中,語義搜索引擎或者直接檢索知識(shí)庫(kù),或者查找互聯(lián)網(wǎng)并經(jīng)過匹配、篩選、提取等一系列的處理。用戶的查詢更加的方便、迅速,信息也更準(zhǔn)確,特別適合于移動(dòng)搜索用戶,因?yàn)橐苿?dòng)終端具有屏幕小、流量計(jì)費(fèi)的限制。但是,語義搜索引擎不局限于移動(dòng)終端,它是一場(chǎng)搜索引擎的革命,終將改變的是所有網(wǎng)絡(luò)終端中搜索引擎用戶的搜索體驗(yàn)。 項(xiàng)目 研究的語義搜索引擎的核心技術(shù)是知識(shí)庫(kù)和智能引擎,本課題的研究成果有助于知識(shí)庫(kù)中人物部分的構(gòu)建。 目的和意義 隨著互聯(lián)網(wǎng)的迅速發(fā)展和普及,人們?cè)絹碓揭蕾囉诨ヂ?lián)網(wǎng)共享和獲取信息。網(wǎng)絡(luò)上海量的信息對(duì)人們是巨大而寶貴的資源,如何更加高效而方便的利用這些資源是擺在我們面前急需解決的問題。這些信息格式和內(nèi)容紛雜多變,又充斥著大量虛假和垃圾信息,普通的搜索引擎不能解決這些問題已經(jīng)不能滿足我們的需求。從而,越來越多的人開始研究 web 信息抽取技術(shù),希望能從互聯(lián)網(wǎng)的汪洋大海中自動(dòng)高效地抽取出有用的、準(zhǔn)確的、結(jié)構(gòu)化的信息 。 人物信息是互聯(lián)網(wǎng)上的重要信息,也是人們最關(guān)心的信息類型之一。 據(jù)調(diào)查,AllTheWeb 搜索引擎上有 5%到 10%的檢索詞中包含人 名 [1]。 人物信息主要包括人物的姓名、性別、生日、籍貫、職務(wù)、工作單位以及經(jīng)歷等。但是,人物信息抽取技術(shù)面臨諸多問題,除了信息抽取的一般問題外,還具有人物相關(guān)的特殊性。互聯(lián)網(wǎng)上的人物信息既有結(jié)構(gòu)化的又有非結(jié)構(gòu)化的,越是普通人物,越以非結(jié)構(gòu)化人物信息方式呈現(xiàn)。所以,研究自動(dòng)化的人物信息抽取技術(shù)很有意義。 研究現(xiàn)狀分析 信息抽取技術(shù)在國(guó)內(nèi)外有了二十年左右的研究,有了成熟的發(fā)展 。 信息抽取的前身是文本理解,然而信息抽取出現(xiàn)之前已經(jīng)有大量關(guān)于自然語言處理的研究和系統(tǒng), 但 是 西南交通大學(xué)碩士研究生學(xué)位論文 第 2 頁 2 這些系統(tǒng)通常 只能適用于一定的范圍或領(lǐng)域,具有很大 局限性 [2]。 信息抽取技術(shù)的發(fā)展離不開消息理解會(huì)議 (MUC)的召開。從 1987 年到 1998 年, MUC 會(huì)議召開了七屆,會(huì)議的一項(xiàng)重要活動(dòng)是對(duì)信息抽取系統(tǒng)的評(píng)測(cè) ,評(píng)測(cè)主要考慮兩個(gè)評(píng)價(jià)指標(biāo):召回率和準(zhǔn)確 率[3]。 1993 年, Hobbs 在第五屆 MUC 會(huì)議上提出了一個(gè)信息抽取系統(tǒng)的體系結(jié)構(gòu),認(rèn)為信息抽取系統(tǒng)應(yīng)該由十個(gè)模塊組 成 [4]。 Web 信息抽取技術(shù)是信息抽取技術(shù)最重要的組成部分 ,主要分為基于 DOM 樹、基于包裝器、基于統(tǒng)計(jì)理論、基于視覺特征等幾類,也有了成熟的發(fā)展。但是,人物信息抽取具有人物相關(guān)的特殊性,比如人名識(shí)別和同名消岐的問題。最后的問題才是人物信息提取的問題。人名識(shí)別是各種結(jié)構(gòu)的正文中識(shí)別出人的姓名。英文人名識(shí)別與中文人名識(shí)別差別較大。首先,英文單詞都是間隔的,但是中文單詞混合在句子中,所以分詞對(duì)中文姓名的識(shí)別很重要。其次,中國(guó)人名數(shù)量很大,且很多人名隨意性太大。早期,研究人員主要采用的方法是基于語料庫(kù)和規(guī)則庫(kù)的識(shí)別方法。很多的研究人員又提出了各種人名識(shí)別的方法,比如中科院 計(jì)算所張華平提出的基于角色標(biāo)注的人名識(shí) 別 [5],毛婷婷等人提出了一種支持向量機(jī)和概率統(tǒng)計(jì)模型相結(jié)合的中國(guó)人名自動(dòng)識(shí)別方 法 [6],戴播等提出了 一種基于共坐標(biāo)上升算法的人名識(shí)別方 法 [7],文獻(xiàn) [8]采用了最大熵統(tǒng)計(jì)模型進(jìn)行人名的提取。 現(xiàn)在,人名識(shí)別雖然不能做到完全正確,但是有了很好的發(fā)展和應(yīng)用,許多的分詞軟件已經(jīng)能夠?qū)崿F(xiàn)很好的人名識(shí)別,方法研究與實(shí)現(xiàn)就不是本課題研究的重點(diǎn)了。人名消岐簡(jiǎn)單分為單文檔消岐和跨文檔消歧,國(guó)內(nèi)外對(duì)人名消岐有很多的研究。 2021 年, 采用對(duì)人物屬性特征進(jìn)行層次凝聚式聚類的方 法進(jìn)行人名消 歧 [9]。 2021 年, 提出了基于頁面的鏈接關(guān)系和基于多路分布式聚類方法的算法框架找到指向同一人物的同名頁 面 [10]。 2021 年,國(guó)內(nèi)的陳晨等人也提出了一種基于社會(huì)網(wǎng)絡(luò)的跨文本同名消歧,陳晨等使用譜聚類對(duì)社會(huì)網(wǎng)絡(luò)中的人名進(jìn)行聚類 , 又引入了模塊度閾值作為社會(huì)網(wǎng)絡(luò)劃分的停止條 件 [11]。 除了人物信息提取方面的研究外,人物相關(guān)的研究還包括人物傳記的生成方 面 [12]、人物社交網(wǎng)絡(luò)方 面 [13]等。 在中文人物信息結(jié)構(gòu)化提取方面,國(guó)內(nèi)一些研究人員做了一定的研究,提出了一些解決方法。但是, 人物信息提取不僅要提取網(wǎng)頁正文,還要實(shí)現(xiàn)非結(jié)構(gòu)人物信息的結(jié)構(gòu)化,這就需要對(duì)自然語言理解有一定研究,所以中文人物信息提取面臨許多困難。人物信息主要分為兩類: 半 結(jié)構(gòu)化人物信息和非結(jié)構(gòu)人物信息。 半 結(jié)構(gòu)化人物信息指網(wǎng)頁中人物的信息以“字段名:字段值”這種方式呈現(xiàn),非結(jié)構(gòu)化人物信息以描述性的自由文本呈現(xiàn)。 半 結(jié)構(gòu)化的人物信息抽取直接利用屬性名匹配就能達(dá)到很好的抽取效果,比如天津工業(yè)大學(xué)的燕敏就是用這種方法實(shí)現(xiàn)對(duì) 半 結(jié)構(gòu)化人物信息的提 取 [14]。非結(jié)構(gòu)化的人物信息抽取就要困難很多。 2021 年,解放軍電子工程學(xué)院的劉金紅等提 出了一種基于語義上下文分析的人物信息挖掘技術(shù),這種方法利用語義特征詞提取人物信息,但是方法有很大的局限性,因?yàn)榫W(wǎng)絡(luò)上更多的非結(jié)構(gòu)化人物信息沒有語義特征 詞 [15]。 2021 年,蘭 西南交通大學(xué)碩士研究生學(xué)位論文 第 3 頁 3 州大學(xué)的陳曉云提出了一種基于 DOM 的中文人物信息提取方法,作者為網(wǎng)頁的 DOM樹中的節(jié)點(diǎn)加入了主題相關(guān)度影響因子,達(dá)到了很好的正文提取效果,對(duì)正文再應(yīng)用模式匹配的方法較好的實(shí)現(xiàn)了中文人物信息的抽 取 [16]。這種基于匹配的方法也主要面臨兩個(gè)問題,一方面是對(duì)網(wǎng)頁正文準(zhǔn)確的提取,另一方面是知識(shí)庫(kù)全面而正確的構(gòu)建。 通過論文搜索尚未發(fā)現(xiàn)國(guó)內(nèi)研究 人員有做基于互聯(lián)網(wǎng)的大規(guī)模人物信息自動(dòng)提取的,這些研究人員大都是在小規(guī)模的網(wǎng)頁數(shù)據(jù)庫(kù)上做的算法研究,或者針對(duì)某一領(lǐng)域人物如教師信息進(jìn)行抽取的,所以 本文希望采集盡可能多的人物網(wǎng)頁數(shù)據(jù),研究通用的方法,獲取大規(guī)模的人物數(shù)據(jù) 。 本文主要研究?jī)?nèi)容 基于互聯(lián)網(wǎng)的大規(guī)模中文人物信息提取過程相對(duì)復(fù)雜,涉及到的問題很多。本文介紹的是一個(gè)從網(wǎng)頁數(shù)據(jù)下載、網(wǎng)頁正文抽取、中文分詞處理、半結(jié)構(gòu)化和非結(jié)構(gòu)化人物信息的結(jié)構(gòu)化的完整過程。作者結(jié)合項(xiàng)目需要對(duì)課題展開研究,解決了過程中遇到的每個(gè)問題并用程序?qū)崿F(xiàn)方法,得到實(shí)驗(yàn)結(jié)果。有 一般方法的借鑒,有自己原創(chuàng)方法的提出,也有因?yàn)闀r(shí)間倉(cāng)促、能力有限而難免掛一漏萬、考慮不周的各種問題。慶幸的是,該文實(shí)現(xiàn)并論述了一個(gè)完整的過程,滿足了作者所在項(xiàng)目的需求。作者按照實(shí)現(xiàn)過程的邏輯先后順序,完成了本文的論述,每一個(gè)模塊對(duì)應(yīng)了一章的內(nèi)容。文章共分五章,內(nèi)容如下: 第 1 章是緒論部分。主要講述了項(xiàng)目背景、課題的目的和意義、研究現(xiàn)狀分析。 第 2 章是人物網(wǎng)頁數(shù)據(jù)的采集。本章詳述了網(wǎng)站的選取和網(wǎng)頁的下載方法。網(wǎng)頁下載有很多的困難,特別是現(xiàn)在網(wǎng)站對(duì)爬蟲的限制越來越多。本章結(jié)合幾個(gè)網(wǎng)站的特點(diǎn)詳細(xì)講述了三種網(wǎng)頁數(shù)據(jù) 的下載方式:一般下載方式、代理下載方式和動(dòng)態(tài)網(wǎng)頁數(shù)據(jù)的下載方式。 第 3 章敘述了網(wǎng)頁的正文抽取過程。本章首先綜述了網(wǎng)頁正文抽取的研究方法,確定了基于統(tǒng)計(jì)和 DOM 的方法進(jìn)行正文抽??;然后,介紹了 DOM 的一般知識(shí)和 HTML解析工具 Jsoup;接著,結(jié)合數(shù)學(xué)公式講解了算法的原理和實(shí)現(xiàn)過程;最后給出了實(shí)驗(yàn)結(jié)果。 第 4 章主要內(nèi)容是對(duì)抽取的網(wǎng)頁正文進(jìn)行分詞處理。引言中給出了正文分詞處理的必要性和一般分詞系統(tǒng)在實(shí)體識(shí)別中的不足,從而引出 西南交通大學(xué)思維與智慧研究所開發(fā)的 中文分詞系統(tǒng)。本章重點(diǎn)講述了基于詞頻統(tǒng)計(jì)的機(jī)構(gòu)名識(shí)別算 法的實(shí)現(xiàn)過程。最后的實(shí)驗(yàn)部分,給出了識(shí)別方法的性能度量結(jié)果和分詞系統(tǒng)對(duì)網(wǎng)頁正文分詞處理的結(jié)果。 第 5 章講述網(wǎng)頁信息的結(jié)構(gòu)化。本章給出了對(duì)網(wǎng)頁信息呈現(xiàn)方式的分類:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。 半 結(jié)構(gòu)化的信息 提取方法簡(jiǎn)單 , 把網(wǎng)頁正文匹配人物屬性詞典,結(jié)合簡(jiǎn)單規(guī)則直接提取屬性值。 本模塊中較復(fù)雜的是對(duì)屬性的映射問題,論文結(jié)合了百 西南交通大學(xué)碩士研究生學(xué)位論文 第 4 頁 4 度百科人物屬性的處理,給出了基于語義相似度的屬性同義詞處理方法。 對(duì)非結(jié)構(gòu)化人物信息 , 本文 采用 了 基于規(guī)則的提取方法, 首先建立 觸發(fā)詞庫(kù)和規(guī)則庫(kù) , 然后實(shí)現(xiàn)基于規(guī)則的抽取 算法 。 第 2 章 人物網(wǎng)頁數(shù)據(jù)采集 引言 人物信息提取的第一步就是數(shù)據(jù)源的獲取。但是,互聯(lián)網(wǎng)信息浩如煙海,本文以較 西南交通大學(xué)碩士研究生學(xué)位論文 第 5 頁 5 高效率獲取大量重要人物的相關(guān)網(wǎng)頁為目標(biāo),進(jìn)行了長(zhǎng)時(shí)間的觀察和大量的調(diào)研,選定了一批網(wǎng)站為主要的人物網(wǎng)頁數(shù)據(jù)來源。主要有百度百科、評(píng)師網(wǎng)、好大夫 在線 、中國(guó)知網(wǎng)( CNKI)等。 百度百科是一部?jī)?nèi)容開放、自由的網(wǎng)絡(luò)百科全書,涵蓋了各個(gè)領(lǐng)域的知識(shí),有 400 多萬的百科詞條,而且數(shù)量還在不斷的增長(zhǎng)。其中的人物相關(guān)詞條幾乎涵蓋了各個(gè)領(lǐng)域的重要人物,比如演藝明星、學(xué)術(shù)人物、運(yùn)動(dòng)員、醫(yī)生、律 師、網(wǎng)絡(luò)草根紅人等各個(gè)領(lǐng)域。百度百科的人物詞條也有一定的規(guī)模限制,為了進(jìn)一步擴(kuò)大重要人物的數(shù)量,作者又選擇了一些人們比較
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1