freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計與實現(xiàn)畢業(yè)設(shè)計-資料下載頁

2025-06-29 02:35本頁面
  

【正文】 等明顯的網(wǎng)頁分隔符則將MaxLinkNum除以2。但找到p標(biāo)簽時,如果MaxLinkNum不為0則根據(jù)公式(22)提取出其中包含的正文內(nèi)容,如果MaxLinkNum減到0則認(rèn)為正文內(nèi)容已經(jīng)結(jié)束,不再向后查找p節(jié)點。 根據(jù)上述方法提取正文不但可以提取盡可能多的正文內(nèi)容,而且可以防止將噪聲信息作為正文提取出來。 本章小結(jié)本章詳細(xì)闡述了本次設(shè)計工作的主要內(nèi)容:正文提取的一種方法是利用HTML的DOM樹來完成對網(wǎng)頁的正文信息的分析和提取。DOM(Document Object Model)是由W3C組織發(fā)布的一種訪問和操作HTML文檔的規(guī)范。DOM將HTML文檔表示為樹形對象集合的形式,一個DOM樹包含有元素、樹形、文本等,每一個HTML的元素被表示為樹的一個節(jié)點,其中HTML中的嵌套結(jié)構(gòu)被用DOM樹中節(jié)點的父子關(guān)系表示,并列結(jié)構(gòu)被表示為節(jié)點的兄弟關(guān)系。利用DOM樹提取網(wǎng)頁正文方法的思路是利用網(wǎng)頁的源文件建立一個DOM樹結(jié)構(gòu),遍歷DOM樹,從網(wǎng)頁中刪除掉所有不是正文的信息,包括廣告信息、圖片、鏈接群等,這樣剩下的就是正文信息。此方法的具體步驟是:(1) 利用開源工具建立HTML文件的DOM樹。由于一些HTML文件書寫錯誤或者不規(guī)范,因此要改正HTML文件中的書寫錯誤,之后再根據(jù)HTML文件建立起與之相對應(yīng)的DOM樹,可以使用OpenXML工具來完成HTML文件的更正和建立DOM樹工作。(2) 遞歸地遍歷DOM樹,移除DOM樹中的各種非正文信息,主要包括廣告信息、鏈接群信息和非重要節(jié)點信息。廣告信息的移除:首先需要建立一個經(jīng)常更新的廣告服務(wù)器列表,然后通過對每個鏈接的鏈接地址(src,href的值)進行判斷,如果地址是指向列表中的廣告服務(wù)器地址則將此鏈接節(jié)點刪除。鏈接群的移除:計算每一個節(jié)點所包含的鏈接個數(shù)相對非鏈接的詞個數(shù)的比例,如果比例大于一個給定的閾值則刪除此節(jié)點。刪除不包含重要信息的節(jié)點:用戶事先指定一些不重要的HTML標(biāo)簽以及一個有用標(biāo)簽至少需要包含多少字符,系統(tǒng)在DOM tree中查找所有用戶指定的HTML標(biāo)簽以及包含字符數(shù)少于閾值的節(jié)點將其刪除。當(dāng)將上述非正文信息移除掉后,DOM樹中剩余的內(nèi)容就是正文信息,可以直接從余下的樹節(jié)點中抽取出正文信息。結(jié) 論全文介紹了嵌入式Linux和搜索引擎的背景資料,提出了此次課題的目標(biāo)和意義。通過研究討論了網(wǎng)頁正文提取主要功能,提出了總體設(shè)計方案——此次設(shè)計提取的流程。之后詳細(xì)總結(jié)說明了網(wǎng)頁預(yù)處理,提取,用戶界面三個組成部分的設(shè)計和實現(xiàn)方法,深入淺出的闡述了編寫基本提取算法的過程,為垂直搜索引擎的技術(shù)發(fā)展提供了一套的解決方案。在論文完成過程中,理論研究方面對垂直搜索引擎所需要的技術(shù)支持進行了系統(tǒng)的研究;針對在網(wǎng)頁去重、建立高質(zhì)量的索引、獲得準(zhǔn)確的分類聚類結(jié)果以及為用戶提供準(zhǔn)確的文摘等方面的廣泛應(yīng)用,設(shè)計實現(xiàn)了網(wǎng)頁正文提取系統(tǒng)。此次設(shè)計雖說已經(jīng)完成了任務(wù),但由于時間倉促,在仍然有著許多不足,主要存在著以下幾個方面:(1) 正文提取對于小網(wǎng)站上不規(guī)范的網(wǎng)頁處理結(jié)果不理想,包含的噪聲較多。(2) 提高程序效率:預(yù)處理費時最多,找到更好的開源工具或?qū)ΜF(xiàn)在所用工具進行優(yōu)化。參考文獻(xiàn)1 盧亮,2007:44462 孫天澤,袁文菊,2005:95973 毛德操, ,2005:23244 :12135 邱哲,2007:236 ,2006:33357 ,2004:238 苗奪謙,2007:349 ,2007:235510 ,2006:112411 Karim, Embedded Linux :36638912 Miro Samek . Practical Statecharts in C/C++ Quantum Programming for Embedded ,2003:647213 Alfred . DesignForTest For Digital IC39。s and Embedded Core ,2005:211255 24
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1