【正文】
body ul li1st list item/li li2nd list item/li /ul 建立網(wǎng)頁的DOM樹結(jié)構(gòu)當(dāng)建立了規(guī)范的HTML網(wǎng)頁后,就需要將網(wǎng)頁建立成符合W3C組織發(fā)布的DOM標(biāo)準(zhǔn)的樹形結(jié)構(gòu),以方便網(wǎng)頁的處理。正文快照保存將Xml轉(zhuǎn)換成Dom樹將Html網(wǎng)頁凈化,生成Xml文檔圖21 原理流程圖(1) 結(jié)束符丟失或不匹配的檢測(cè)和糾正h1headingh2subheading/h3修改為h1heading/h1h2subheading/h2(2) 結(jié)束標(biāo)記錯(cuò)位的糾正phere is a para bbold ibold italic/b bold?/i normal?修改為phere is a para bbold ibold italic/i bold?/b normal?(3) 標(biāo)題的修復(fù)h1iitalic heading/h1pnew paragraph這類錯(cuò)誤將影響到標(biāo)題的顯示,字體的顏色、大小等達(dá)不到預(yù)期的效果。下面就處理頁面源碼時(shí)遇到的情況分類說明。因此首先需要對(duì)網(wǎng)頁的HTML標(biāo)簽進(jìn)行規(guī)范化。 網(wǎng)頁預(yù)處理系統(tǒng) HTML標(biāo)簽規(guī)范化由于HTML標(biāo)簽文法的自由性,導(dǎo)致許多網(wǎng)頁的標(biāo)簽使用不規(guī)范,為網(wǎng)頁處理帶來了很大困難。 本文提取網(wǎng)頁正文的方法分為兩個(gè)步驟,首先利用網(wǎng)頁的HTML內(nèi)容建立符合W3C組織發(fā)布的DOM(Document Object Model)標(biāo)準(zhǔn)的樹形結(jié)構(gòu);然后遍歷網(wǎng)頁的DOM樹的各個(gè)標(biāo)簽節(jié)點(diǎn),利用中文標(biāo)點(diǎn)和鏈接信息定位正文所在標(biāo)簽,對(duì)此標(biāo)簽內(nèi)容進(jìn)行二次抽取,提取出準(zhǔn)確的正文內(nèi)容。因此根據(jù)中文新聞網(wǎng)頁的特點(diǎn),本文采用文獻(xiàn)[4]提到的方法,利用中文標(biāo)點(diǎn)符號(hào)定位正文所在標(biāo)簽,并針對(duì)此方法的不足,本文提出了利用中文標(biāo)點(diǎn)結(jié)合鏈接數(shù)的方法定位包含正文的標(biāo)簽,然后利用中文標(biāo)點(diǎn)及鏈接在每個(gè)子標(biāo)簽中的比例去除其中的噪聲,準(zhǔn)確提取正文內(nèi)容。 基本原理目前互聯(lián)網(wǎng)上的大部分網(wǎng)頁都是采用HTML格式,此格式采用大量的標(biāo)簽來控制網(wǎng)頁顯示的內(nèi)容,例如,table標(biāo)簽用來定義表格,p標(biāo)簽用來進(jìn)行文字分段。研究的重點(diǎn)是合理的機(jī)內(nèi)文本表示,尋找“發(fā)現(xiàn)”正文和噪聲的方法,提取正文,去除噪聲。本次設(shè)計(jì)出來的網(wǎng)頁正文提取系統(tǒng)所具有的特點(diǎn)是應(yīng)用范圍廣。在設(shè)計(jì)開發(fā)的過程中,提取系統(tǒng)應(yīng)體現(xiàn)自己的特點(diǎn)。 主要研究?jī)?nèi)容此次課題主要是通過對(duì)現(xiàn)在流行的幾種垂直搜索技術(shù)進(jìn)行研究,總結(jié)出開發(fā)垂直搜索引擎的一般模塊及功能。然后將符合要求的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、所以再以搜索的方式滿足用戶的需求。垂直搜索引擎的產(chǎn)生正是有效的解決了以上通用搜索引擎無法滿足的市場(chǎng)需求。他們可以滿足大量信息的橫向搜索、提供,但很難兼顧搜索的準(zhǔn)確度與相關(guān)度的質(zhì)量。因此,如何從海量信息中得到有用信息是大家共同關(guān)注的熱點(diǎn)問題。信息爆炸帶來了劇烈的市場(chǎng)變化。一個(gè)不大的企業(yè)每天要生產(chǎn)100MB以上來自各方面的營業(yè)數(shù)據(jù)。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會(huì)用“virus”這個(gè)詞來檢索,結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。搜索引擎的最新技術(shù)發(fā)展包括以下幾個(gè)方面[2]: (1) 提高搜索引擎對(duì)用戶檢索提問的理解為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。搜索引擎的發(fā)展歷史是一個(gè)挖掘用戶需求然后滿足用戶需求的過程。互聯(lián)網(wǎng)每一個(gè)殺手級(jí)應(yīng)用都離不開信息和傳遞這兩個(gè)關(guān)鍵詞。因此從這個(gè)意義上說,它們是搜索引擎的搜索引擎[1]。像國外的Inktomi(已被Yahoo收購),它本身并