freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取實現(xiàn)技術本科畢業(yè)論文-預覽頁

2025-08-18 13:33 上一頁面

下一頁面
 

【正文】 實現(xiàn)策略。 湖南大學畢業(yè)論文 第 7 頁 湖南大學軟件學院 2. Web 信息抽取 及網(wǎng)頁文本對象抽取 概述 本章主要 介紹互聯(lián)網(wǎng)信息抽取的概念 、 方法 、 典型流程,具體闡述了本文所討論的網(wǎng)頁文本對象抽取的理論和方法 。目前 的信息服務還無法有效地整合多個信息服務站點的相關內(nèi)容 , 因為互聯(lián)網(wǎng)的信息發(fā)布與瀏覽均是基于 HTML 語法而編寫的 Web網(wǎng)頁來進行的 。 Web 信息抽取 ( Web Information Extraction,簡稱 WIE) 是指:給 出 屬 于 同一類型的若干樣本網(wǎng)頁。 圖 信息抽取流程 [5] Web 信息抽取漸漸成為一個嶄新而熱門的課題,各種應用于網(wǎng)絡數(shù)據(jù)抽取的工具也層出不窮。 根據(jù)各種工具用于產(chǎn)生 Wrapper 而采取的不同技術, 目前的 Web 數(shù)據(jù)抽取工具 可分為 六種: Wrapper 開發(fā)語言,可感知 HTML 的工具,基于 NLP 的工具, Wrapper 歸納工具,基于建模的工具,基于語義的工具 ?;趯哟谓Y構的 Wrapper 歸納方法引入嵌套目錄捕述方法 ( EmbeddedCatalog, 簡稱 EC) ,該方法將頁面內(nèi)容按照層次結構樹 ( EC 樹 ) 的形式加以描述。依次從父節(jié)點抽取路徑上的每個子節(jié)點, Wrapper 就能夠從頁面中抽取任何用戶感興趣的項目。利用 Wrapper 進行有效的記錄抽取。并將他們存入數(shù)據(jù)記錄表 ( DataRecord Table);最后利用啟發(fā)知識,并根據(jù)有關的數(shù)據(jù)庫模式 ,將所獲得的數(shù)據(jù)填人相應的數(shù)據(jù)庫中。 [5] 湖南大學畢業(yè)論文 第 9 頁 湖南大學軟件學院 Web 信息抽取的典型流程 信息抽取技術是指從一段文本中抽取指定的事件、事實等信息,形成結構化的數(shù)據(jù)并存入一個數(shù)據(jù)庫,供用戶查詢和使用的過程。例如在 “Intro to Linguistics is taught”這句話中,你不能把這句話都包含進來,也不能只保留 “Intro to”。 聯(lián)合,即確定哪些域是屬于同一條記錄的。如果要在一篇新聞中抽取一次國際貿(mào)易商討會的相關信息,例如雙方的代表人是誰,分別來自國家等等,這樣的問題就復雜得多了。 標準化,即將信息都標準化成一種統(tǒng)一的形式,這樣能夠進行可靠的比較。 去重,即去除重復的信息,使得數(shù)據(jù)庫中不會出現(xiàn)重復的記錄。因此需要開發(fā)一種合適的信息抽取技術來從大量不同的網(wǎng)頁中抽取信息。然后根據(jù)提取規(guī)則生成 JAVA類,將該類作為 Web數(shù)據(jù)源 Wrapper組成的重要構件:將網(wǎng)頁信息抽取知識分為若 干 層 , 利用各層模式之間相互聯(lián)系的特點 , 動態(tài)獲取各層中與 HTML頁面內(nèi)容具體描述密切相關的信息識別模式知識 ; 最終再利用所獲得的多層信息識別模式 , 完成相應各個 HTML網(wǎng)頁的具體信息抽取 工 作 。但目前這些方法還僅限于基于后臺數(shù)據(jù)庫模式由腳本語言直接生成的網(wǎng)頁 ( 網(wǎng)頁結構基本不變。所謂自主抽取是指根據(jù)用戶的需求去訪問專業(yè)信息服務網(wǎng)站的相關頁面,自動抽取用戶感興趣的信息 ( 尤其是多記錄構成的表格信息的內(nèi)容 ) ,而不是以一種固定模式將所有信息內(nèi)容全部都抽取出來。 html 文檔集 特征的建立 特征集的縮減 學習與知識模式的提取 模型 質量 的評價 知識模式 湖南大學畢業(yè)論文 第 13 頁 湖南大學軟件學院 圖 信息自主抽取的兩個階段 [5] Web 文檔 DOM 抽取結果 文檔解析 信息自主 抽取 湖南大學畢業(yè)論文 第 14 頁 湖南大學軟件學院 3. 博客正文信息抽取系統(tǒng)的 設計 本章主要介紹 博客搜索的概況 ,提出基于 HTML特征和機器學習的 博客正文信息抽取 算法 的設計方案 , 對該算法進行 測試 和評估,并總結算法的優(yōu)點和需要改進的地方 ?,F(xiàn)在,人們以博客來共享思想與資源,并且進行相互學習的行為已經(jīng)變得越來越流行,博客已經(jīng)逐漸成為了一個技術交流的場所。 正文中往往含有豐富的文本、圖片和視頻 /音頻信息,是整個博客當中信息的主要載體。 本文就 提出 了一種基于 HTML特征和機器學習的博客正文抽取實現(xiàn)方法。這里一般會出現(xiàn)博主昵稱、文章列表等特征明顯的信息。 采用一種基于體裁的增量式博客網(wǎng)頁分類方法,目的是克服基于內(nèi)容方法在博客網(wǎng)頁分類中的無效問題。 k折交叉驗證( Kfold crossvalidation)是指將樣本集分為 k份,其中 k1份作為訓練數(shù)據(jù)集,而另外的 1份作為驗證數(shù)據(jù)集。 本系統(tǒng)的基于體裁的增量式博客網(wǎng)頁分類方法流程圖如下: 湖南大學畢業(yè)論文 第 16 頁 湖南大學軟件學院 訓 練 集 網(wǎng) 頁提 取 體 裁 特 征特 征 選 擇建 立 體 裁決 策 樹 模 型是 否 達 到 分 類所 需 精 度分 類 器分 類 結 果 評 價測 試 集 網(wǎng) 頁多 次 使 用測 試 集 進 行 實 驗提 取 錯 誤 分 類網(wǎng) 頁 體 裁 特 征優(yōu) 化 體 裁決 策 樹 模 型是否 圖 基于體 裁的增量式博客網(wǎng)頁分類流程圖 具體步驟如下: Html特征 指向相同域名的鏈接數(shù)量 / 所有鏈接數(shù)量; 指向不同域名的鏈接數(shù)量 / 所有鏈接數(shù)量; 在以下 5組標簽中,某特定標簽數(shù)量 / 所有標簽數(shù)量; 文本格式 : abbr, acronym,address, b, basefont, bdo,big, blockquote, center, cite,code, del, dfn, em, font,h1, h2, h3, h4, h5, h6,i, ins, kbd, pre, q, s,samp, small, strike, strong,style, sub, sup, tt, u,var; 文檔結構 : br, caption,col, colgroup, dd, dir,div, dl, dt, frame, hr,iframe, li, menu, noframes,ol, p, span, table, 湖南大學畢業(yè)論文 第 17 頁 湖南大學軟件學院 tbody,td, tfoot, th, thead, tr,ul; 用戶交互 : button, fieldset,form, input, isindex, label,legend, optgroup, option,select, textarea; 導航 : 計算以下標簽的鏈接屬性 a, area, link和 base; 鏈接數(shù)量 : 所有域名 , 外部域名 , 交 互標簽; 表單元素數(shù)量 : Form標簽 , 復選框標簽 , 列表 , 密碼文本框 , 文本區(qū)域 , 按鈕 , 單選按鈕 , 文件上傳; 表單鏈接數(shù)量 : 域名; 1標簽數(shù)量 : 所有強調(diào) ( 粗體 , 斜體 , 下滑線 ) , 字體 , 腳本 , 表格 , 段落 ,圖片; 1 HTML 深度 : 最大 HTML深度 , 最大 table深度; 1 URL 長度 : 所有 URL長度 , 目錄路徑長度; 1錨文本包含事先定義的關鍵詞的鏈接數(shù)量 / 所有鏈接數(shù)量; 1 URL字符中包含事先定義的關鍵詞的鏈接數(shù)量 / 所有鏈接數(shù)量。其中 , “網(wǎng)頁分塊”作為一個新穎的技術點 , 以其獨特的研究視角 , 正越來越受到人們的關注。例如 , 圖 “桂林三寶”作為關鍵字進行檢索時得到的結果。因此 , 在預處理階段過濾掉一些和主題無關的文字 ,從而消除前面所提到的無關項和間接項。可以認為網(wǎng)頁是由不同的內(nèi)容塊組成的。標記包括“ ”和“ ” , 在“ ”和“ ”之間為標記名稱。該離散區(qū)域的開始為開始標記的出現(xiàn)位置 ; 該離散區(qū)域的結束為開始標記相對應的結束標記的位置。 [13]從大量博客網(wǎng) 頁數(shù)據(jù)集的頁面分析樹中我 發(fā)現(xiàn)了分塊的 方法 —— 利用 DIV標記的布局特性進行解析 。因此 , 可利用“ DIV”標記對頁面進行解析。雖然思路簡單 , 但用 DIV標記進行挖掘 , 對網(wǎng)頁開發(fā)工具制作出來的格式特別復雜的頁面來說 ,是比較有效的 , 它往 往能勝任其他方法所應付不了的復雜網(wǎng)頁。通過對大量的博客網(wǎng)頁的 HTML代碼的分析,提取出所有博客文章正文塊的特征 (系統(tǒng)中的Features類 )。同時 weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。最后一項的 ArticleType是一個二值,YES代表該塊是正文塊, NO代表該塊不是正文塊。 圖 訓練博客數(shù)據(jù)集示意圖 獲取決策樹 在上一步的訓練過程中, 右鍵點擊 “Results list”剛才出現(xiàn)的那一項,彈出菜單中選擇 “Visualize tree”,新窗口里可以看到圖形模式的決策樹 , [15] 如圖 : 湖南大學畢業(yè)論文 第 24 頁 湖南大學軟件學院 圖 博文統(tǒng)計訓練后獲得的決策樹示意圖 在獲得決策樹后,將其編碼實 現(xiàn),就可以對經(jīng)過分塊預處理后的博文頁面進行文章正文的抽取。中文搜索引擎經(jīng)常會返回大量的無關項或者不含具體信息的間接項 , 產(chǎn)生這類問題的一個原因是網(wǎng)頁中存在著大量與主題無關的文字。以此為基礎,運用發(fā)散思維,可以進一步開展其他方面的研究,例如對文章評論進行抽取、統(tǒng)計博主的活躍程度等等。 所 以, 從整體上來看, 該 算 法的實現(xiàn) 并不復雜;從效果上來看, 對博客正文抽取的準 確 率也比較高。 這些都是以后可以進行拓展和改進的地方。當然,目前的搜索引擎利用統(tǒng)計學的方法將這兩個詞理解為同義詞,解決了基本的同義詞理解問題。 目前 Geeseek項目 正針對于博客領域的搜索,但 至今所做的工作基本沒有脫離現(xiàn)階段已有搜索引擎的模式。 博客正文抽取模塊簡介 在 Geeseek中,博客正文抽取模塊的實現(xiàn)主要在 WrapperInducer項目中。 博客正文抽取模塊的主要數(shù)據(jù)類 Block類 —— 用于表示網(wǎng)頁分塊的類,它的類定義如表 : 表 網(wǎng)頁分塊 Block 類定義表 字段名 類型 備注 TextOfBlock string 分塊 的文本信息 features Features 分塊的特征信息 Features類 —— 用于描述分塊特征集的類 , 它的類定義 如表 : 表 網(wǎng)頁分塊特征 Features 類定義表 字段名 類型 備注 PositionOfBlock int 網(wǎng)頁分塊的第一個標簽在文章中的位置 NumberOfPageTag int 整個網(wǎng)頁中的所有標簽數(shù) Indexer WrapperInducer NICTCLAS Indexcore 包裝器,實現(xiàn)網(wǎng)頁分塊、決策樹以及底層的抽取功能 中科院分詞系統(tǒng),用于分詞處理 索引器,分詞后實現(xiàn)倒排索引 湖南大學畢業(yè)論文 第 30 頁 湖南大學軟件學院 NumberOfAllTag int 網(wǎng)頁分塊的所有標簽數(shù) NumberOfImgTag int 網(wǎng)頁分塊中的 Img標簽數(shù) NumberOfATag int 網(wǎng)頁分塊中的 A標簽數(shù) NumberOfStrongTag int 網(wǎng)頁分塊中的 Strong標簽數(shù) NumberOfTextTag int 網(wǎng)頁分塊中的 Text標簽數(shù) LengthOfText int 網(wǎng)頁分塊中的 Text標簽的文本長度之和 NumberOfDIVTag int 網(wǎng)頁分塊中的 DIV標簽數(shù) NumberOfPTag int 網(wǎng)頁分塊中的 P標簽數(shù) NumberOfBRTag int 網(wǎng)頁分塊中的 BR標簽數(shù) 博客正文抽取模塊的實現(xiàn)思路 博客正文抽取模塊中有三個很重 要的方法: GetArticleBlocks()—— 以頁面 page類為輸入,獲得所有正文分塊的文本信息,并以字符串類型返回; ComputeFeatures()—— 以 Mocrosoft的 MSHTML組件中的 IHTMLDOMNode類實例 blockBeginNode為輸入,即從分塊的第一個結點起統(tǒng)計這個分塊的特征信息集( Features類)以及文本信息( TextofBlock),返回包含這兩種信息的 Block類。 strArticleBlock = “”。 if (tempNode結點是 DIV標記 ) blockBeginNode = tempNode。 } } } 對于 blockList中的每一個 block。 } 返回 strArticleBlock。 if (tempNode是 P、 BR、 Img、 A、 Strong標記 ) 湖南大學畢業(yè)論文 第 32 頁 湖南
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1