freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web的大規(guī)模中文人物信息提取說明書-資料下載頁

2025-05-07 18:53本頁面
  

【正文】 通大學碩士研究生學位論文 第 11 頁 11 圖 25 FireBug對交互過程的監(jiān)控圖 實驗結(jié)果 作者根據(jù)觀察和調(diào)研,選擇了上面介紹的一批網(wǎng)站作為重要人物網(wǎng)頁的數(shù)據(jù)來源,幾乎涵蓋了各個領(lǐng)域的重要人物。雖然互聯(lián)網(wǎng)重要人物信息不能窮盡,但是這個規(guī)模已經(jīng)可以說是非常的大了,特別是醫(yī)生、高校教師和學術(shù)論文作者方面非常詳盡。其中,百度百科網(wǎng)頁 400 多萬個, 根據(jù)開放分類找到 人物相關(guān)的 10 萬多 個。好大夫在線網(wǎng)站的近 30 萬個醫(yī)生頁面,幾乎涵蓋全國各大醫(yī)院名醫(yī)。評師網(wǎng)也涵蓋了中國各大高校,實驗中 共下載了高校教師頁面 123 萬個。 CNKI 網(wǎng)站的 3500 萬條論文作者數(shù) 據(jù)收錄了近現(xiàn)代中國幾乎全部的期刊論文、碩士論文和博士論文作者的論文基本信息。 本章 小結(jié) 本章主要講述了人物相關(guān)網(wǎng)頁數(shù)據(jù)的采集。數(shù)據(jù)采集的第一步是選定數(shù)據(jù)源,文章簡要介紹了一批各領(lǐng)域人物信息的重要網(wǎng)站。數(shù)據(jù)源確定后就是數(shù)據(jù)的下載過程遇到的問題和解決方法。本章逐一講述了作者在下載中使用的爬取技術(shù),主要是一般的下載方式、代理下載方式和動態(tài)網(wǎng)頁數(shù)據(jù)的下載方式,對每種下載方式都詳細介紹了程序的實現(xiàn)方法,其中還包括了對實用工具 HttpClient 和 FireBug 的介紹和使用方法。文章最后介紹了下載的選定網(wǎng)站的網(wǎng) 頁數(shù)量和數(shù)據(jù)條數(shù)。 第 3 章 基于 DOM 的網(wǎng)頁正文信息提取 引言 隨著 Inter的迅速發(fā)展, web網(wǎng)頁的規(guī)模急劇膨脹,海量的數(shù)據(jù)遠遠超過以往人類所有的信息載體。這些信息極大的方便了人們獲取信息的途徑,促進了個人的進步和社會的發(fā)展,但是網(wǎng)頁信息的獲取面臨諸多挑戰(zhàn)。 HTML語言在格式上較為自由,不同于數(shù)據(jù)結(jié)構(gòu)化的 XML, HTML網(wǎng)頁工作者也不一定嚴格按照規(guī)范來編寫網(wǎng)頁。不僅大量的垃圾網(wǎng)頁或者垃圾信息充斥著互聯(lián)網(wǎng),而且追求美觀或者個性的網(wǎng)頁結(jié)構(gòu)越來越復雜,風格越來越多變,網(wǎng)頁里嵌入了很多的顯示樣 式或者腳本代碼等噪聲內(nèi)容。網(wǎng)頁噪聲指網(wǎng)頁中的 導航欄、廣告、版權(quán)信息、裝飾信息等與主題內(nèi)容無關(guān)的內(nèi)容。 網(wǎng)頁中的主題內(nèi)容就是我們要抽取的網(wǎng)頁正文,而大量的噪聲信息卻穿插其中,給網(wǎng)頁正文的提取帶 西南交通大學碩士研究生學位論文 第 12 頁 12 來了很大的困難。 許多研究者就網(wǎng)頁正文信息提取領(lǐng)域,提出了大量的方法和技術(shù)。主要有基于模板的方法 [2326],基于視覺特征的方法 [2728]和基于統(tǒng)計的方法 [2930]。基于模板的方法主要適用于結(jié)構(gòu)規(guī)范的網(wǎng)頁,比如網(wǎng)頁取自同一網(wǎng)站或者網(wǎng)頁結(jié)構(gòu)相似?;谝曈X特征的正文抽取方法,適合于 結(jié)構(gòu)復雜 并 且內(nèi)容分布在多個標簽中的網(wǎng) 頁。 基于統(tǒng)計的網(wǎng)頁正文提取方法適用于結(jié)構(gòu)復雜但是內(nèi)容集中的網(wǎng)頁。實際應用中,可以選擇一種方法進行正文抽取,也可以根據(jù)抽取的不同網(wǎng)頁特點采取不同的方法。 基于統(tǒng)計的提取方法,根據(jù)網(wǎng)頁的正文特征,轉(zhuǎn)化成統(tǒng)計信息參數(shù),根據(jù)參數(shù)值來判斷網(wǎng)頁正文位置。 文獻 [31]利用超鏈接數(shù)與文本長度的比值為判斷標準確定正文位置。文獻 [32]在上述基礎上增加了標點符號特征,因為一般情況下標點符號出現(xiàn)在正文中的比例遠遠大于出現(xiàn)在非正文中的情況。 文獻 [33]提出了 SCF 方法,是對上述方法處理過程做了一些改進,效果也得到一定的提升,特在對 風格多樣的網(wǎng)頁內(nèi)容進行抽取時,提取結(jié)果得到改善。一般在基于統(tǒng)計的網(wǎng)頁正文提取時,使用 HTML 解析器將 HTML 網(wǎng)頁轉(zhuǎn)化成對應的 DOM 樹,算法在網(wǎng)頁 DOM 樹的基礎上更容易實現(xiàn)。 DOM 簡介 DOM 是 Document Object Model的縮寫,中文名稱是文檔對象模型。 DOM 是 W3C推薦的處理可擴展置標語言的標準編程接口。它起源于微軟與網(wǎng)景公司的瀏覽器之爭,當時的雙方因為利益沖突爆發(fā)了技術(shù)沖突,最后導致很多網(wǎng)頁在非微軟瀏覽器上不能正常的顯示, DOM 在這種情況下應運而生。 DOM 解決了微軟的 Jscript 和網(wǎng)景的 Javascript之間的沖突,定義了標準的方法,讓 web 設計師和開發(fā)者用統(tǒng)一的方法訪問站點中的數(shù)據(jù)、腳本和表現(xiàn)層對像。 DOM 以對象管理組織的規(guī)約為基礎進行設計,因此不拘泥于某種編程語言,可以以獨立于語言和平臺的方式來訪問、修改文檔的結(jié)構(gòu)和 內(nèi)容 [34]。最初, DOM 是為了解決 JavaScript 在不同瀏覽器間可移植的方法,現(xiàn)在 DOM 的應用范圍卻增強。 DOM 的使用使得頁面的交互性大大的增強,用戶頁面可以動態(tài)變化,可以動態(tài)地顯示、隱藏某個元素,改變元素屬性,增加新的元素等。 DOM 描述文檔模型采用的是面 向?qū)ο蟮姆绞剑x了表示文檔的對象、對象的行為和屬性以及對象之間的關(guān)系。 DOM 被習慣叫做 DOM 樹,可見 DOM 是頁面上數(shù)據(jù)和結(jié)構(gòu)的樹形表示。 依據(jù) DOM 的標準 , HTML 文檔由一個個節(jié)點組成的。 DOM規(guī)定:文檔本身是一個文檔節(jié)點;每一個 HTML 標簽都是一個元素節(jié)點;元素節(jié)點中的文本是文本節(jié)點; HTML 屬性是屬性節(jié)點;注釋是注釋節(jié)點。節(jié)點之間有等級關(guān)系,或者叫層次關(guān)系。HTML 文檔中的所有節(jié)點組成了一個文檔樹。下面是一個 HTML 文檔: html head title文檔標題 /title /head body a href=”” 鏈接 /a 西南交通大學碩士研究生學位論文 第 13 頁 13 圖 31 是 該文檔表示成 DOM 樹形結(jié)構(gòu)的示 意圖 。 圖 31 HTML 文檔的 DOM 樹形結(jié)構(gòu)示意圖 圖 31 中,文檔節(jié)點是根節(jié)點,其它的每個節(jié)點都有父節(jié)點。 head 和 body 的父節(jié)點是 html 節(jié)點,文本節(jié)點 標題 的父節(jié)點是 h1 節(jié)點。反過來, html節(jié)點的子節(jié)點就是 head和 body。有共同父節(jié)點的節(jié)點是兄弟節(jié)點,比如 h1和 a節(jié)點就是兄弟節(jié)點。 節(jié)點的后代包括它的所有子節(jié)點和子節(jié)點的子節(jié)點,以此類推。節(jié)點的先輩是它的父節(jié)點,或者父節(jié)點的父節(jié)點,并以此類推。 html 節(jié)點可作為上面文檔中所有文 本節(jié)點的先輩節(jié)點。雖然很多頁面并不是以樹的方式實現(xiàn),但是通過 DOM 解析器我們可以可以增加、刪除、修改或重排頁面上的節(jié)點或元素。 Html 解析器 在對網(wǎng)頁的正文內(nèi)容進行提取時,需要解析網(wǎng)頁。解析過程就是使用 Html 解析器將 HTML 文檔轉(zhuǎn)換成 DOM 樹,然后分析網(wǎng)頁結(jié)構(gòu),刪除無關(guān)內(nèi)容,獲取網(wǎng)頁正文部分。Html文檔解析器有很多,開源的常用解析器有 HTMLParser、 JSoup、 NekoHTML、 JTiny 西南交通大學碩士研究生學位論文 第 14 頁 14 等。 HTMLParser 是一個 java 語言編寫的 html解析的庫,是一個開源的項目,可以高速、正確的 解析 HTML 文檔,最新版本是 。 HTMLParser 是一個非常好用的HTML 解析工具,得到了廣泛的使用。但是 HTMLParser 更新緩慢,用戶慢慢就轉(zhuǎn)向其它使用更為方便、功能更為強大的解析器,比如 JSoup。 JSoup 也是基于 Java 語言的 HTML 解析器。 可直接解析某個 URL 地址、 HTML 文本內(nèi)容。它提供了一套 非常方便、功能強大 的 API, 而且 Jsoup Cookbook 中文版站點提供了詳盡的使用幫助文檔 ( 。 Jsoup 用戶 能夠用 DOM的方式 來 操作數(shù)據(jù)。 Jsoup 的功能如下: ( 1)、從 URL、網(wǎng)頁文件或字符串中解析 HTML; ( 2)、使用 DOM 或 CSS 選擇器來查找、取出數(shù)據(jù); ( 3)、操作 HTML 元素、屬性和文本。 Jsoup 的 API 設計有很好的可擴展性,用戶可以利用它實現(xiàn) HTML 解析功能 。 Jsoup 項目 開發(fā) 很 活躍, 版本更新較快,本文成稿時的版本是 ,越來越多的用戶使用它進行網(wǎng)頁信息抽取。總之, Jsoup 是 一個功能強大、使用方便的 HTML 解析器。 基于 DOM 的正文抽取方法 原理分析 網(wǎng) 頁的噪聲信息是網(wǎng)頁正文提取過程前需要過濾掉的信息,廣告內(nèi)容很難在預處理階段去除,但是網(wǎng)頁的框架、樣式、風格等設計元素和腳本語言等一般存儲在特定的標簽中,很容易判定,程序可以首先刪除 script、 form、 style、 iframe等標簽。網(wǎng)頁一般都是分塊設計的,內(nèi)容也就分塊存儲,常見的分塊標簽如 table、 tbody、 tr、div、 p等。正文內(nèi)容主要是嵌套在這些標簽中間,正文提取主要對分塊標簽元素進行。網(wǎng)頁的正文肯定是全部文字內(nèi)容的一部分,超鏈接中的大量文本是對正文準確定位的最大干擾了。一般情況下,網(wǎng)頁正文標簽中主要是文本,很少有超鏈接。所以,對每一個分塊來說,只要根據(jù)超鏈接數(shù)和文本長度的比值就可以大概判斷分塊內(nèi)容是不是正文了。本文參考文獻 [31][32],提出了算法的公式 ( 31) 如下: iiiiLC WP? ? (31) 其中, Li 是第 i 分塊的鏈接數(shù); Wi 是第 i 分塊的文本長度; Pi 是第 i 分塊的結(jié)束標點符號數(shù)(結(jié)束標點符號是指像句號、 問號、感嘆號等可以表示一個句子結(jié)束的標點符號) , 。計算結(jié)果 Ci 就是判斷分塊內(nèi)容是不是正文的指標了。如果 Ci 小于閾值 c,該塊文本就是正文內(nèi)容;反之,則不是。閾值 c 過大,在提高正文完整率的同時更易引入噪聲信息,及降低了準確率;閾值 c 過小,噪聲信息較小,準確率升高,但正文的完整率卻減低。 西南交通大學碩士研究生學位論文 第 15 頁 15 作者經(jīng)過反復試驗,最后確定 c 值在 左右時,綜合抽取結(jié)果較好。準確率和完整率的定義會在 節(jié)給出。 算法過程描述 作者使用 jsoup 實現(xiàn)了算法,過程如下: 實驗結(jié)果 在實驗中,作者 分別隨機選取百度百科、搜狐人物、評師網(wǎng)、好大夫在線和中國律師網(wǎng)各 100個網(wǎng)頁。計算算法抽取上述網(wǎng)頁中正文的準確率和完整率。這里的準確率和完整率都是對單個網(wǎng)頁的抽取結(jié)果進行度量的。公式 ( 32) 、 ( 33) 是度量公式。 12 100%CP C?? (32) 13 100%CW C?? (33) 其中, P 表示算法對單個網(wǎng)頁抽取的準確率, W 是對單個網(wǎng)頁抽取的完整率, C1表示抽取出的文本中屬于網(wǎng)頁正文的字符長度, C2 表示抽取出的文本的字符總長度, C3表示網(wǎng)頁正文的字符長度。 表 31 給出了 算法 的性能指標。 表 31 正文抽取算法性能指標 網(wǎng)頁來源 網(wǎng)頁數(shù) 準確率均值 完整率均值 百度百科 100 % % 評師網(wǎng) 100 % % 輸入: HTML 網(wǎng)頁 輸出:網(wǎng)頁正文內(nèi)容 ( 1)將 html文檔轉(zhuǎn)化成 DOM 樹結(jié)構(gòu); ( 2)刪除 DOM 樹中的所有 script、 form、 style、 iframe 等噪聲元素; ( 3)從上到下逐層遍歷,尋找分塊標簽,對包含常見的噪聲詞語(版權(quán)所有、copyright、收藏、聯(lián)系客服等)的塊進行刪除,對都是分塊標簽的兄弟標簽進行合并,把最后所有分塊加入到一個分塊鏈表中; ( 4)遍歷鏈表,對每一個 分塊,統(tǒng)計出分塊內(nèi)鏈接數(shù)、文本字長和結(jié)束標點符號數(shù),計算 Ci值; ( 5)依順序抽取 Ci 值小于閾值 c 的分塊文本,并將文本加入到正文內(nèi)容中,直到全部抽取完成。 西南交通大學碩士研究生學位論文 第 16 頁 16 好大夫在線 100 % % 搜狐人物 100 % % 完成算法的調(diào)試與實驗分析后,對第 2 章采集的網(wǎng)頁進行正文提取。 CNKI 上下載的數(shù)據(jù)已經(jīng)是結(jié)構(gòu)化的數(shù)據(jù),沒有網(wǎng)頁正文提取,也沒有后面的分詞處理、信息結(jié)構(gòu)化過程,后續(xù)章節(jié)不再說明。程序?qū)ο螺d的 10萬 個百科人物頁面、 123 萬個高校教師頁面、30 萬個醫(yī)生頁面等進行正文抽取,抽取的正文保存到文本文件里,用來作為下面章節(jié)分詞處理和信息結(jié)構(gòu)化的數(shù)據(jù)源。正文抽取的結(jié)果如圖 32所示: 圖 32 網(wǎng)頁正文 本章 小結(jié) 本章主要講述了基于 DOM 的網(wǎng)頁正文抽取方法。引言對網(wǎng)頁正文抽取的現(xiàn)狀做了詳細的分析,敘述主流的 各種方法,特別是基于統(tǒng)計的抽取方法。因為抽取時,使用 DOM解析器能夠大大方便算法的實現(xiàn),本章講述了 DOM 的知識和 HTML 解析器 —— Jsoup。在此基礎上,作者選定了標簽的鏈接數(shù)、文本長和結(jié)束標點符號數(shù)三個特征作
點擊復制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1