freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web的大規(guī)模中文人物信息提取說(shuō)明書(shū)-資料下載頁(yè)

2025-05-07 18:53本頁(yè)面
  

【正文】 通大學(xué)碩士研究生學(xué)位論文 第 11 頁(yè) 11 圖 25 FireBug對(duì)交互過(guò)程的監(jiān)控圖 實(shí)驗(yàn)結(jié)果 作者根據(jù)觀察和調(diào)研,選擇了上面介紹的一批網(wǎng)站作為重要人物網(wǎng)頁(yè)的數(shù)據(jù)來(lái)源,幾乎涵蓋了各個(gè)領(lǐng)域的重要人物。雖然互聯(lián)網(wǎng)重要人物信息不能窮盡,但是這個(gè)規(guī)模已經(jīng)可以說(shuō)是非常的大了,特別是醫(yī)生、高校教師和學(xué)術(shù)論文作者方面非常詳盡。其中,百度百科網(wǎng)頁(yè) 400 多萬(wàn)個(gè), 根據(jù)開(kāi)放分類找到 人物相關(guān)的 10 萬(wàn)多 個(gè)。好大夫在線網(wǎng)站的近 30 萬(wàn)個(gè)醫(yī)生頁(yè)面,幾乎涵蓋全國(guó)各大醫(yī)院名醫(yī)。評(píng)師網(wǎng)也涵蓋了中國(guó)各大高校,實(shí)驗(yàn)中 共下載了高校教師頁(yè)面 123 萬(wàn)個(gè)。 CNKI 網(wǎng)站的 3500 萬(wàn)條論文作者數(shù) 據(jù)收錄了近現(xiàn)代中國(guó)幾乎全部的期刊論文、碩士論文和博士論文作者的論文基本信息。 本章 小結(jié) 本章主要講述了人物相關(guān)網(wǎng)頁(yè)數(shù)據(jù)的采集。數(shù)據(jù)采集的第一步是選定數(shù)據(jù)源,文章簡(jiǎn)要介紹了一批各領(lǐng)域人物信息的重要網(wǎng)站。數(shù)據(jù)源確定后就是數(shù)據(jù)的下載過(guò)程遇到的問(wèn)題和解決方法。本章逐一講述了作者在下載中使用的爬取技術(shù),主要是一般的下載方式、代理下載方式和動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)的下載方式,對(duì)每種下載方式都詳細(xì)介紹了程序的實(shí)現(xiàn)方法,其中還包括了對(duì)實(shí)用工具 HttpClient 和 FireBug 的介紹和使用方法。文章最后介紹了下載的選定網(wǎng)站的網(wǎng) 頁(yè)數(shù)量和數(shù)據(jù)條數(shù)。 第 3 章 基于 DOM 的網(wǎng)頁(yè)正文信息提取 引言 隨著 Inter的迅速發(fā)展, web網(wǎng)頁(yè)的規(guī)模急劇膨脹,海量的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)以往人類所有的信息載體。這些信息極大的方便了人們獲取信息的途徑,促進(jìn)了個(gè)人的進(jìn)步和社會(huì)的發(fā)展,但是網(wǎng)頁(yè)信息的獲取面臨諸多挑戰(zhàn)。 HTML語(yǔ)言在格式上較為自由,不同于數(shù)據(jù)結(jié)構(gòu)化的 XML, HTML網(wǎng)頁(yè)工作者也不一定嚴(yán)格按照規(guī)范來(lái)編寫(xiě)網(wǎng)頁(yè)。不僅大量的垃圾網(wǎng)頁(yè)或者垃圾信息充斥著互聯(lián)網(wǎng),而且追求美觀或者個(gè)性的網(wǎng)頁(yè)結(jié)構(gòu)越來(lái)越復(fù)雜,風(fēng)格越來(lái)越多變,網(wǎng)頁(yè)里嵌入了很多的顯示樣 式或者腳本代碼等噪聲內(nèi)容。網(wǎng)頁(yè)噪聲指網(wǎng)頁(yè)中的 導(dǎo)航欄、廣告、版權(quán)信息、裝飾信息等與主題內(nèi)容無(wú)關(guān)的內(nèi)容。 網(wǎng)頁(yè)中的主題內(nèi)容就是我們要抽取的網(wǎng)頁(yè)正文,而大量的噪聲信息卻穿插其中,給網(wǎng)頁(yè)正文的提取帶 西南交通大學(xué)碩士研究生學(xué)位論文 第 12 頁(yè) 12 來(lái)了很大的困難。 許多研究者就網(wǎng)頁(yè)正文信息提取領(lǐng)域,提出了大量的方法和技術(shù)。主要有基于模板的方法 [2326],基于視覺(jué)特征的方法 [2728]和基于統(tǒng)計(jì)的方法 [2930]?;谀0宓姆椒ㄖ饕m用于結(jié)構(gòu)規(guī)范的網(wǎng)頁(yè),比如網(wǎng)頁(yè)取自同一網(wǎng)站或者網(wǎng)頁(yè)結(jié)構(gòu)相似?;谝曈X(jué)特征的正文抽取方法,適合于 結(jié)構(gòu)復(fù)雜 并 且內(nèi)容分布在多個(gè)標(biāo)簽中的網(wǎng) 頁(yè)。 基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取方法適用于結(jié)構(gòu)復(fù)雜但是內(nèi)容集中的網(wǎng)頁(yè)。實(shí)際應(yīng)用中,可以選擇一種方法進(jìn)行正文抽取,也可以根據(jù)抽取的不同網(wǎng)頁(yè)特點(diǎn)采取不同的方法。 基于統(tǒng)計(jì)的提取方法,根據(jù)網(wǎng)頁(yè)的正文特征,轉(zhuǎn)化成統(tǒng)計(jì)信息參數(shù),根據(jù)參數(shù)值來(lái)判斷網(wǎng)頁(yè)正文位置。 文獻(xiàn) [31]利用超鏈接數(shù)與文本長(zhǎng)度的比值為判斷標(biāo)準(zhǔn)確定正文位置。文獻(xiàn) [32]在上述基礎(chǔ)上增加了標(biāo)點(diǎn)符號(hào)特征,因?yàn)橐话闱闆r下標(biāo)點(diǎn)符號(hào)出現(xiàn)在正文中的比例遠(yuǎn)遠(yuǎn)大于出現(xiàn)在非正文中的情況。 文獻(xiàn) [33]提出了 SCF 方法,是對(duì)上述方法處理過(guò)程做了一些改進(jìn),效果也得到一定的提升,特在對(duì) 風(fēng)格多樣的網(wǎng)頁(yè)內(nèi)容進(jìn)行抽取時(shí),提取結(jié)果得到改善。一般在基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取時(shí),使用 HTML 解析器將 HTML 網(wǎng)頁(yè)轉(zhuǎn)化成對(duì)應(yīng)的 DOM 樹(shù),算法在網(wǎng)頁(yè) DOM 樹(shù)的基礎(chǔ)上更容易實(shí)現(xiàn)。 DOM 簡(jiǎn)介 DOM 是 Document Object Model的縮寫(xiě),中文名稱是文檔對(duì)象模型。 DOM 是 W3C推薦的處理可擴(kuò)展置標(biāo)語(yǔ)言的標(biāo)準(zhǔn)編程接口。它起源于微軟與網(wǎng)景公司的瀏覽器之爭(zhēng),當(dāng)時(shí)的雙方因?yàn)槔鏇_突爆發(fā)了技術(shù)沖突,最后導(dǎo)致很多網(wǎng)頁(yè)在非微軟瀏覽器上不能正常的顯示, DOM 在這種情況下應(yīng)運(yùn)而生。 DOM 解決了微軟的 Jscript 和網(wǎng)景的 Javascript之間的沖突,定義了標(biāo)準(zhǔn)的方法,讓 web 設(shè)計(jì)師和開(kāi)發(fā)者用統(tǒng)一的方法訪問(wèn)站點(diǎn)中的數(shù)據(jù)、腳本和表現(xiàn)層對(duì)像。 DOM 以對(duì)象管理組織的規(guī)約為基礎(chǔ)進(jìn)行設(shè)計(jì),因此不拘泥于某種編程語(yǔ)言,可以以獨(dú)立于語(yǔ)言和平臺(tái)的方式來(lái)訪問(wèn)、修改文檔的結(jié)構(gòu)和 內(nèi)容 [34]。最初, DOM 是為了解決 JavaScript 在不同瀏覽器間可移植的方法,現(xiàn)在 DOM 的應(yīng)用范圍卻增強(qiáng)。 DOM 的使用使得頁(yè)面的交互性大大的增強(qiáng),用戶頁(yè)面可以動(dòng)態(tài)變化,可以動(dòng)態(tài)地顯示、隱藏某個(gè)元素,改變?cè)貙傩?,增加新的元素等?DOM 描述文檔模型采用的是面 向?qū)ο蟮姆绞?,它定義了表示文檔的對(duì)象、對(duì)象的行為和屬性以及對(duì)象之間的關(guān)系。 DOM 被習(xí)慣叫做 DOM 樹(shù),可見(jiàn) DOM 是頁(yè)面上數(shù)據(jù)和結(jié)構(gòu)的樹(shù)形表示。 依據(jù) DOM 的標(biāo)準(zhǔn) , HTML 文檔由一個(gè)個(gè)節(jié)點(diǎn)組成的。 DOM規(guī)定:文檔本身是一個(gè)文檔節(jié)點(diǎn);每一個(gè) HTML 標(biāo)簽都是一個(gè)元素節(jié)點(diǎn);元素節(jié)點(diǎn)中的文本是文本節(jié)點(diǎn); HTML 屬性是屬性節(jié)點(diǎn);注釋是注釋節(jié)點(diǎn)。節(jié)點(diǎn)之間有等級(jí)關(guān)系,或者叫層次關(guān)系。HTML 文檔中的所有節(jié)點(diǎn)組成了一個(gè)文檔樹(shù)。下面是一個(gè) HTML 文檔: html head title文檔標(biāo)題 /title /head body a href=”” 鏈接 /a 西南交通大學(xué)碩士研究生學(xué)位論文 第 13 頁(yè) 13 圖 31 是 該文檔表示成 DOM 樹(shù)形結(jié)構(gòu)的示 意圖 。 圖 31 HTML 文檔的 DOM 樹(shù)形結(jié)構(gòu)示意圖 圖 31 中,文檔節(jié)點(diǎn)是根節(jié)點(diǎn),其它的每個(gè)節(jié)點(diǎn)都有父節(jié)點(diǎn)。 head 和 body 的父節(jié)點(diǎn)是 html 節(jié)點(diǎn),文本節(jié)點(diǎn) 標(biāo)題 的父節(jié)點(diǎn)是 h1 節(jié)點(diǎn)。反過(guò)來(lái), html節(jié)點(diǎn)的子節(jié)點(diǎn)就是 head和 body。有共同父節(jié)點(diǎn)的節(jié)點(diǎn)是兄弟節(jié)點(diǎn),比如 h1和 a節(jié)點(diǎn)就是兄弟節(jié)點(diǎn)。 節(jié)點(diǎn)的后代包括它的所有子節(jié)點(diǎn)和子節(jié)點(diǎn)的子節(jié)點(diǎn),以此類推。節(jié)點(diǎn)的先輩是它的父節(jié)點(diǎn),或者父節(jié)點(diǎn)的父節(jié)點(diǎn),并以此類推。 html 節(jié)點(diǎn)可作為上面文檔中所有文 本節(jié)點(diǎn)的先輩節(jié)點(diǎn)。雖然很多頁(yè)面并不是以樹(shù)的方式實(shí)現(xiàn),但是通過(guò) DOM 解析器我們可以可以增加、刪除、修改或重排頁(yè)面上的節(jié)點(diǎn)或元素。 Html 解析器 在對(duì)網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行提取時(shí),需要解析網(wǎng)頁(yè)。解析過(guò)程就是使用 Html 解析器將 HTML 文檔轉(zhuǎn)換成 DOM 樹(shù),然后分析網(wǎng)頁(yè)結(jié)構(gòu),刪除無(wú)關(guān)內(nèi)容,獲取網(wǎng)頁(yè)正文部分。Html文檔解析器有很多,開(kāi)源的常用解析器有 HTMLParser、 JSoup、 NekoHTML、 JTiny 西南交通大學(xué)碩士研究生學(xué)位論文 第 14 頁(yè) 14 等。 HTMLParser 是一個(gè) java 語(yǔ)言編寫(xiě)的 html解析的庫(kù),是一個(gè)開(kāi)源的項(xiàng)目,可以高速、正確的 解析 HTML 文檔,最新版本是 。 HTMLParser 是一個(gè)非常好用的HTML 解析工具,得到了廣泛的使用。但是 HTMLParser 更新緩慢,用戶慢慢就轉(zhuǎn)向其它使用更為方便、功能更為強(qiáng)大的解析器,比如 JSoup。 JSoup 也是基于 Java 語(yǔ)言的 HTML 解析器。 可直接解析某個(gè) URL 地址、 HTML 文本內(nèi)容。它提供了一套 非常方便、功能強(qiáng)大 的 API, 而且 Jsoup Cookbook 中文版站點(diǎn)提供了詳盡的使用幫助文檔 ( 。 Jsoup 用戶 能夠用 DOM的方式 來(lái) 操作數(shù)據(jù)。 Jsoup 的功能如下: ( 1)、從 URL、網(wǎng)頁(yè)文件或字符串中解析 HTML; ( 2)、使用 DOM 或 CSS 選擇器來(lái)查找、取出數(shù)據(jù); ( 3)、操作 HTML 元素、屬性和文本。 Jsoup 的 API 設(shè)計(jì)有很好的可擴(kuò)展性,用戶可以利用它實(shí)現(xiàn) HTML 解析功能 。 Jsoup 項(xiàng)目 開(kāi)發(fā) 很 活躍, 版本更新較快,本文成稿時(shí)的版本是 ,越來(lái)越多的用戶使用它進(jìn)行網(wǎng)頁(yè)信息抽取。總之, Jsoup 是 一個(gè)功能強(qiáng)大、使用方便的 HTML 解析器。 基于 DOM 的正文抽取方法 原理分析 網(wǎng) 頁(yè)的噪聲信息是網(wǎng)頁(yè)正文提取過(guò)程前需要過(guò)濾掉的信息,廣告內(nèi)容很難在預(yù)處理階段去除,但是網(wǎng)頁(yè)的框架、樣式、風(fēng)格等設(shè)計(jì)元素和腳本語(yǔ)言等一般存儲(chǔ)在特定的標(biāo)簽中,很容易判定,程序可以首先刪除 script、 form、 style、 iframe等標(biāo)簽。網(wǎng)頁(yè)一般都是分塊設(shè)計(jì)的,內(nèi)容也就分塊存儲(chǔ),常見(jiàn)的分塊標(biāo)簽如 table、 tbody、 tr、div、 p等。正文內(nèi)容主要是嵌套在這些標(biāo)簽中間,正文提取主要對(duì)分塊標(biāo)簽元素進(jìn)行。網(wǎng)頁(yè)的正文肯定是全部文字內(nèi)容的一部分,超鏈接中的大量文本是對(duì)正文準(zhǔn)確定位的最大干擾了。一般情況下,網(wǎng)頁(yè)正文標(biāo)簽中主要是文本,很少有超鏈接。所以,對(duì)每一個(gè)分塊來(lái)說(shuō),只要根據(jù)超鏈接數(shù)和文本長(zhǎng)度的比值就可以大概判斷分塊內(nèi)容是不是正文了。本文參考文獻(xiàn) [31][32],提出了算法的公式 ( 31) 如下: iiiiLC WP? ? (31) 其中, Li 是第 i 分塊的鏈接數(shù); Wi 是第 i 分塊的文本長(zhǎng)度; Pi 是第 i 分塊的結(jié)束標(biāo)點(diǎn)符號(hào)數(shù)(結(jié)束標(biāo)點(diǎn)符號(hào)是指像句號(hào)、 問(wèn)號(hào)、感嘆號(hào)等可以表示一個(gè)句子結(jié)束的標(biāo)點(diǎn)符號(hào)) , 。計(jì)算結(jié)果 Ci 就是判斷分塊內(nèi)容是不是正文的指標(biāo)了。如果 Ci 小于閾值 c,該塊文本就是正文內(nèi)容;反之,則不是。閾值 c 過(guò)大,在提高正文完整率的同時(shí)更易引入噪聲信息,及降低了準(zhǔn)確率;閾值 c 過(guò)小,噪聲信息較小,準(zhǔn)確率升高,但正文的完整率卻減低。 西南交通大學(xué)碩士研究生學(xué)位論文 第 15 頁(yè) 15 作者經(jīng)過(guò)反復(fù)試驗(yàn),最后確定 c 值在 左右時(shí),綜合抽取結(jié)果較好。準(zhǔn)確率和完整率的定義會(huì)在 節(jié)給出。 算法過(guò)程描述 作者使用 jsoup 實(shí)現(xiàn)了算法,過(guò)程如下: 實(shí)驗(yàn)結(jié)果 在實(shí)驗(yàn)中,作者 分別隨機(jī)選取百度百科、搜狐人物、評(píng)師網(wǎng)、好大夫在線和中國(guó)律師網(wǎng)各 100個(gè)網(wǎng)頁(yè)。計(jì)算算法抽取上述網(wǎng)頁(yè)中正文的準(zhǔn)確率和完整率。這里的準(zhǔn)確率和完整率都是對(duì)單個(gè)網(wǎng)頁(yè)的抽取結(jié)果進(jìn)行度量的。公式 ( 32) 、 ( 33) 是度量公式。 12 100%CP C?? (32) 13 100%CW C?? (33) 其中, P 表示算法對(duì)單個(gè)網(wǎng)頁(yè)抽取的準(zhǔn)確率, W 是對(duì)單個(gè)網(wǎng)頁(yè)抽取的完整率, C1表示抽取出的文本中屬于網(wǎng)頁(yè)正文的字符長(zhǎng)度, C2 表示抽取出的文本的字符總長(zhǎng)度, C3表示網(wǎng)頁(yè)正文的字符長(zhǎng)度。 表 31 給出了 算法 的性能指標(biāo)。 表 31 正文抽取算法性能指標(biāo) 網(wǎng)頁(yè)來(lái)源 網(wǎng)頁(yè)數(shù) 準(zhǔn)確率均值 完整率均值 百度百科 100 % % 評(píng)師網(wǎng) 100 % % 輸入: HTML 網(wǎng)頁(yè) 輸出:網(wǎng)頁(yè)正文內(nèi)容 ( 1)將 html文檔轉(zhuǎn)化成 DOM 樹(shù)結(jié)構(gòu); ( 2)刪除 DOM 樹(shù)中的所有 script、 form、 style、 iframe 等噪聲元素; ( 3)從上到下逐層遍歷,尋找分塊標(biāo)簽,對(duì)包含常見(jiàn)的噪聲詞語(yǔ)(版權(quán)所有、copyright、收藏、聯(lián)系客服等)的塊進(jìn)行刪除,對(duì)都是分塊標(biāo)簽的兄弟標(biāo)簽進(jìn)行合并,把最后所有分塊加入到一個(gè)分塊鏈表中; ( 4)遍歷鏈表,對(duì)每一個(gè) 分塊,統(tǒng)計(jì)出分塊內(nèi)鏈接數(shù)、文本字長(zhǎng)和結(jié)束標(biāo)點(diǎn)符號(hào)數(shù),計(jì)算 Ci值; ( 5)依順序抽取 Ci 值小于閾值 c 的分塊文本,并將文本加入到正文內(nèi)容中,直到全部抽取完成。 西南交通大學(xué)碩士研究生學(xué)位論文 第 16 頁(yè) 16 好大夫在線 100 % % 搜狐人物 100 % % 完成算法的調(diào)試與實(shí)驗(yàn)分析后,對(duì)第 2 章采集的網(wǎng)頁(yè)進(jìn)行正文提取。 CNKI 上下載的數(shù)據(jù)已經(jīng)是結(jié)構(gòu)化的數(shù)據(jù),沒(méi)有網(wǎng)頁(yè)正文提取,也沒(méi)有后面的分詞處理、信息結(jié)構(gòu)化過(guò)程,后續(xù)章節(jié)不再說(shuō)明。程序?qū)ο螺d的 10萬(wàn) 個(gè)百科人物頁(yè)面、 123 萬(wàn)個(gè)高校教師頁(yè)面、30 萬(wàn)個(gè)醫(yī)生頁(yè)面等進(jìn)行正文抽取,抽取的正文保存到文本文件里,用來(lái)作為下面章節(jié)分詞處理和信息結(jié)構(gòu)化的數(shù)據(jù)源。正文抽取的結(jié)果如圖 32所示: 圖 32 網(wǎng)頁(yè)正文 本章 小結(jié) 本章主要講述了基于 DOM 的網(wǎng)頁(yè)正文抽取方法。引言對(duì)網(wǎng)頁(yè)正文抽取的現(xiàn)狀做了詳細(xì)的分析,敘述主流的 各種方法,特別是基于統(tǒng)計(jì)的抽取方法。因?yàn)槌槿r(shí),使用 DOM解析器能夠大大方便算法的實(shí)現(xiàn),本章講述了 DOM 的知識(shí)和 HTML 解析器 —— Jsoup。在此基礎(chǔ)上,作者選定了標(biāo)簽的鏈接數(shù)、文本長(zhǎng)和結(jié)束標(biāo)點(diǎn)符號(hào)數(shù)三個(gè)特征作
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1