【正文】
fTextTag: Text類標簽的個數(shù); _lengthOfText: Text類標簽中的文本長度; 湖南大學(xué)畢業(yè)論文 第 22 頁 湖南大學(xué)軟件學(xué)院 _numberOfImgTag: Img標簽的個數(shù); _numberOfATag: A標簽的個數(shù); _numberOfStrongTag: Strong標簽的個 數(shù); _numberOfPTag: P標簽的個數(shù); _numberOfBRTag: BR標簽的個數(shù)。所以 , 在處理門戶網(wǎng)站中的網(wǎng)頁時 , 這種思想是比較可取的 。 如圖 , 整個頁面用一個大的 DIV來布局 , 它的 里面 又嵌套著不同的 DIV。 隨著互聯(lián)網(wǎng)的深入發(fā)展 , 網(wǎng)頁格式越來越復(fù)雜 , 共同特征越來越少。該區(qū)域可以被某些標記繼續(xù)分割為更小的區(qū)域。標記經(jīng)常成對出現(xiàn) , 分別為開始標記和結(jié)束標記。所以可以根據(jù)網(wǎng)頁信息的格式并結(jié)合 HMM的文本信息抽取算法把網(wǎng)頁分成許多小塊。為此, 出現(xiàn) 了“塊”的概念。圖 , 其中提到“ ?? 吉林霧凇 , 與桂林山水、云南石林、長江三峽并譽為中國四大自然奇觀” , 又恰好在左欄的導(dǎo)航目錄里有“吉林三寶”的條目 , 使得這個頁面被錯誤的當成了相關(guān)項;圖 的“三道茶” , 但因為在左側(cè)的超鏈接目錄里出現(xiàn)了“桂林三寶” , 真正提供具體信息的應(yīng)該是它指向的頁面 , 而那個頁面一般也會被檢索到 , 因此圖 一個多余的間接項。 [11] 在中文搜索引擎的查詢結(jié)果里仍然普遍存在著大量的無關(guān)項和不含具體信息的間接項 , 使用戶不得不浪費大量的時間在結(jié)果列表中尋找相關(guān)信息。 URL特征 URL是否包含“博客”或 者“ blog”字符; 錨文本是否包含“博客”或者“ blog”字符; URL字符中是否包含比較多的數(shù)字; 錨文本相同的鏈接數(shù)量 / 所有鏈接數(shù)量; URI的長度; URL的長度; URL中 URL的深度; 在 URL中,文件擴展名的數(shù)量,例如: .htm, .asp; URL中是否包含日期字符。用驗證集來驗證所得分類器或者回歸的錯誤碼率。同時,降低網(wǎng)頁分類中的計算量,提高博客網(wǎng)頁分類的精度。 博文網(wǎng)頁 —— 即博客中某篇文章所在的頁面,這里一般會出現(xiàn)文章標題、更新時間、文章正文以及相關(guān)評論等信息。具體實現(xiàn)過程將在下節(jié)進行詳細介紹。因此,在博客搜索之中, 對博客正文的檢索也是最重要的內(nèi)容。由于博客的內(nèi)容具有很高的有用性和共享性,以專門搜索博客文章內(nèi)容的博客搜索引擎應(yīng)運而生。 博客搜索的 概況 博客,即 Blog或 Weblog,這一詞源于“ WebLog(網(wǎng)絡(luò)日志 )”的縮寫,是一種網(wǎng)絡(luò)個人信息的發(fā)布形 式 。用戶可以定制某網(wǎng)站信息 , 因此在抽取知識中要加入用戶的興趣描述。頁面內(nèi)容全部取自數(shù)據(jù)庫 ) 。 基本全自動化的 網(wǎng) 頁數(shù)據(jù)抽取方法。 無論挖掘的目的是什么,都可以把 Web文本挖掘的一般處理過程用圖 。例如,一門課程可能在一個或多個學(xué)院開設(shè),從而多次出現(xiàn)在不同的網(wǎng)頁中,最終也會被多次地抽取,但是在數(shù)據(jù)庫中只需要保存一條關(guān)于這門課程的記錄。例如,課程開設(shè)時間的表達形式多種多樣, 如 “23pm”、 “3pm4:30pm”、 “15001630”等,如果要考察各門課程的開設(shè)是否重現(xiàn)了重疊情況時,就會發(fā)現(xiàn)很難對時間做出比較,此時就需要對時間轉(zhuǎn)化成統(tǒng)一的形式。因為要抽取的內(nèi)容關(guān)聯(lián)不大,而且稀疏地分布在文本之中。例如,一些課程的描述可能包括好幾段文字,而其他的可能就只有一段。 分類,即確定在文本片段中要抽 取的是哪一個目標域。接下來,以美國勞動部的 繼續(xù)教育系統(tǒng)中 的 課程抽取問題為例,介紹信息抽取的五個主要的子步驟(如圖 、圖 ): 圖 課程抽取系統(tǒng)中的示例文章 [7] 分塊,即找到文本片段開始和結(jié)束的邊界。利用啟發(fā)知識,在所抽取的常量與關(guān)鍵字之間建立關(guān)聯(lián)。步驟是設(shè)計構(gòu)造描述特定內(nèi)容的本體模型 ( Ontology Model) ,并由此產(chǎn)生一個數(shù)據(jù)庫模式以及產(chǎn)生有關(guān)常量 、 關(guān)鍵字的匹配規(guī)則。 另一類是基于概念模型的多記錄信息抽取方法。 EC 樹的葉節(jié)點用以描述用戶感興趣的相關(guān)數(shù)據(jù);EC 樹的內(nèi)部節(jié)點用以描述由多個項目組成的列表。 [6] Web 信息抽取的方法 Web 信息抽取的方法主要可以分為以下兩類: 一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,如 WHIRL、 Ariadne、 CiteSeer 等 , 基于層次結(jié)構(gòu)的 Wrapper 歸納方法。從互聯(lián)網(wǎng)資源中抽取數(shù)據(jù)的傳統(tǒng)方法就是編寫特定的程序,這種程序被稱為 湖南大學(xué)畢業(yè)論文 第 8 頁 湖南大學(xué)軟件學(xué)院 “ Wrapper”。找出它們的源數(shù)據(jù)集的嵌 套結(jié)構(gòu),并將源數(shù)據(jù)集從網(wǎng)頁中抽取出來。 而 Web 網(wǎng)頁的內(nèi)容描述是針對互聯(lián)網(wǎng)用戶瀏覽而進行的相關(guān)格式定義設(shè)計,并沒有為計算機本身閱讀和理解這些網(wǎng)頁內(nèi)容提供任何特殊的說明與注釋。 Web 信息抽取的概念 目前各類信息服務(wù)網(wǎng)站提供了大量的信息資源,但是互聯(lián)網(wǎng)用戶卻很難享受到有效的信息服務(wù),因為用戶不可能天天都去訪問所有這些網(wǎng)站。 首先, 闡述了信息抽取理論的發(fā) 展歷史,發(fā)展現(xiàn)狀。與 MUC相比,目前的 ACE評測不針對某個具體的領(lǐng)域或場景,采用基于漏報(標準答案中有而系統(tǒng)輸出中沒有)和 誤報(標準答案中沒有而系統(tǒng)輸出中有)為基礎(chǔ)的一套評價體系,還對系統(tǒng)跨文檔處理( Crossdocument processing)能力進行評測。至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有: Cymfony公司、 Bhasha公司、 Linguamatics公司、Revsolutions公司等。 MUC由美國國防高級研究計劃委員會( DARPA, the Defense Advanced Research Projects Agency)資助,其顯著特點并不是會議本身,而在于對信息抽取系統(tǒng)的評測。兩種算法都選擇命名實體左右兩個詞為特征詞 , 并得出結(jié)論 : 信息抽取系統(tǒng)若需要追求抽取的高性能 , 則選擇 SVM算法 ; 若需要追求高的學(xué)習(xí)效率 , 則選擇 Winnow算法。 [4] Intel中國研究中心的 Zhang Yimin等人在 ACL20xx上演示了他們開發(fā)的一個抽取中文命名實體及其關(guān)系的信息抽取系統(tǒng)。在 MUC6和MUC7上 , 增加 了中文系統(tǒng)的評測項目,國立臺灣大學(xué) ( National Taiwan University)和新加坡肯特崗數(shù)字實驗室參加了 MUC7中文命名實體識別任務(wù)的評測 , 測試了中文命名實體 ( 人名、地名、時間、事件等名詞性短語 ) 的識別,取得了與英文命名實體識別 湖南大學(xué)畢業(yè)論文 第 4 頁 湖南大學(xué)軟件學(xué)院 系統(tǒng)相近的性能。 本課題研究的目的旨在 傳統(tǒng)信息抽 取 思想的 基礎(chǔ)上 , 提出 一 種互聯(lián)網(wǎng)網(wǎng)頁文本對象的抽取實現(xiàn)方法 , 為解決當前 博客垂直搜索的 問題提供一種切實可行的方式。如今,新型的搜索引擎把研究單元定格在了對象級別。 [2] 信息抽取技術(shù)對于搜索引擎的發(fā)展有著重大的意義,它推動著通用搜索引擎向新型的垂直搜索引擎發(fā)展,從而 能夠更好地滿足用戶的需要,讓搜索變得更快、更直接、更有效。由于采用的技術(shù)不同,信息檢索系統(tǒng)通常是領(lǐng)域無關(guān)的,而信息抽取系統(tǒng)則是領(lǐng)域相關(guān)的,只能抽取系統(tǒng)預(yù)先設(shè)定好的有限種類的事實信息。信息檢索系統(tǒng)主要是從大量的文檔集合中找到與用戶需求相關(guān)的文檔列表;而信息抽取系統(tǒng)則旨在從文本中直接獲得用戶感興趣的事實信息。網(wǎng)絡(luò)搜索引擎的發(fā)明在一定程度上緩解了這種窘境,通過網(wǎng)絡(luò)搜索引擎服務(wù)商對信息的收集和篩選,人們能夠方便地獲得某些所需信息。 [2] 目前,隨著對信息抽取技術(shù)的不斷發(fā)展,各種抽取系統(tǒng)也層出不窮。該系統(tǒng)采用了期望驅(qū)動( topdown,腳本)與數(shù)據(jù)驅(qū)動( bottomup,輸入文本)相結(jié)合的處理方法。該項目的主要研究內(nèi)容是建立一個大規(guī)模的英語計算語法,與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的 X光報告和醫(yī)院出院記錄中抽取信息格式( Information Formats),這種信息格式實際上就是現(xiàn)在所說的模板( Templates)。廣義上信息抽取技術(shù)的抽取對象并不局限于文本 , 其他形式存在的信息也可以作為信息抽取的對象 , 而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。 課題 背景 及目的 為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。 作者簽名: 日期: 年 月 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。 作者簽名: 日 期: 湖南大學(xué)畢業(yè)論文 第 IV 頁 湖南大學(xué)軟件學(xué)院 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交 的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。 關(guān)鍵詞: 互聯(lián)網(wǎng) , 信息爆炸, 信息抽取 , 博客 , HTML,機器學(xué)習(xí),決策樹, 搜索引擎 , Geeseek 湖南大學(xué)畢業(yè)論文 第 II 頁 湖南大學(xué)軟件學(xué)院 Implementation of text object extraction for Inter web pages Author: Zhang Hui Tutor: Lin Ya ping Abstract Nowadays, there is a large number of semistructural information which represents objects in the real world on the Inter. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the objectlevel searching, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem. Based on the traditional theory of Information Extraction and aiming at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface presentation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the newstyle vertical Search E