freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計與實現(xiàn)畢業(yè)設(shè)計(編輯修改稿)

2025-07-26 02:35 本頁面
 

【文章內(nèi)容簡介】 方法的不足,本文提出了利用中文標(biāo)點結(jié)合鏈接數(shù)的方法定位包含正文的標(biāo)簽,然后利用中文標(biāo)點及鏈接在每個子標(biāo)簽中的比例去除其中的噪聲,準(zhǔn)確提取正文內(nèi)容。針對有些網(wǎng)頁尾部包含的無關(guān)鏈接的摘要噪聲與正文形式類似的情況,本文發(fā)現(xiàn)正文塊之間包含的鏈接個數(shù)較少,而正文與無關(guān)摘要噪聲間通常相隔若干鏈接群的特點,提出了正文間最大鏈接數(shù)目的概念,可以有效去除正文后面跟隨的無關(guān)鏈接的摘要信息,提高正文提取的準(zhǔn)確率。 本文提取網(wǎng)頁正文的方法分為兩個步驟,首先利用網(wǎng)頁的HTML內(nèi)容建立符合W3C組織發(fā)布的DOM(Document Object Model)標(biāo)準(zhǔn)的樹形結(jié)構(gòu);然后遍歷網(wǎng)頁的DOM樹的各個標(biāo)簽節(jié)點,利用中文標(biāo)點和鏈接信息定位正文所在標(biāo)簽,對此標(biāo)簽內(nèi)容進行二次抽取,提取出準(zhǔn)確的正文內(nèi)容。系統(tǒng)的原理流程圖如圖21所示。 網(wǎng)頁預(yù)處理系統(tǒng) HTML標(biāo)簽規(guī)范化由于HTML標(biāo)簽文法的自由性,導(dǎo)致許多網(wǎng)頁的標(biāo)簽使用不規(guī)范,為網(wǎng)頁處理帶來了很大困難。例如某些開始標(biāo)簽沒有對應(yīng)的結(jié)束標(biāo)簽,標(biāo)簽的嵌套順序錯亂等。因此首先需要對網(wǎng)頁的HTML標(biāo)簽進行規(guī)范化。本文采用開源工具HTML Tidy來對網(wǎng)頁進行規(guī)范化,形成利于處理的規(guī)范HTML網(wǎng)頁。下面就處理頁面源碼時遇到的情況分類說明。SpiderHtmlTidyTiny對Dom Tree進行遍歷,刪除其中的鏈接群,以及廣告,Css,腳本等信息。正文快照保存將Xml轉(zhuǎn)換成Dom樹將Html網(wǎng)頁凈化,生成Xml文檔圖21 原理流程圖(1) 結(jié)束符丟失或不匹配的檢測和糾正h1headingh2subheading/h3修改為h1heading/h1h2subheading/h2(2) 結(jié)束標(biāo)記錯位的糾正phere is a para bbold ibold italic/b bold?/i normal?修改為phere is a para bbold ibold italic/i bold?/b normal?(3) 標(biāo)題的修復(fù)h1iitalic heading/h1pnew paragraph這類錯誤將影響到標(biāo)題的顯示,字體的顏色、大小等達(dá)不到預(yù)期的效果。修改為 h1iitalic heading/i/h1pnew paragraph(4) 標(biāo)簽的順序錯位ih1heading/h1/ipnew paragraph bbold textpsome more bold text修改為h1iheading/i/h1pnew paragraph bbold text/bpbsome more bold text/b(5) 將hr匹配到正確的地方。h1hrheading/h1h2subhrheading/h2修改為hrh1heading/h1h2sub/h2hrh2heading/h2(6) 在結(jié)束標(biāo)簽中丟失“/”a href=refsReferencesa修改為a href=refsReferences/a(7) 列出丟失的標(biāo)簽body li1st list item li2nd list item修改為 body ul li1st list item/li li2nd list item/li /ul 建立網(wǎng)頁的DOM樹結(jié)構(gòu)當(dāng)建立了規(guī)范的HTML網(wǎng)頁后,就需要將網(wǎng)頁建立成符合W3C組織發(fā)布的DOM標(biāo)準(zhǔn)的樹形結(jié)構(gòu),以方便網(wǎng)頁的處理。本文采用開源工具TinyXml建立網(wǎng)頁的DOM樹。建立網(wǎng)頁的DOM樹后,每一個HTML標(biāo)簽對應(yīng)一個樹節(jié)點,嵌套的標(biāo)簽利用子樹表示,因此可以方便地對網(wǎng)頁標(biāo)簽進行遍歷和其它操作。因為我們已經(jīng)知道要抽取的正文是放在table 中的,文獻(xiàn)[ 11 ]告訴我們,這類問題應(yīng)該采用基于樹結(jié)構(gòu)的解決方案。所以,我們需要先把網(wǎng)頁表示成一棵樹。由于
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1