正文內(nèi)容

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧資料

2025-07-05 02:35本頁面

　　

【正文】 body ul li1st list item/li li2nd list item/li /ul 建立網(wǎng)頁的DOM樹結(jié)構(gòu)當(dāng)建立了規(guī)范的HTML網(wǎng)頁后，就需要將網(wǎng)頁建立成符合W3C組織發(fā)布的DOM標(biāo)準(zhǔn)的樹形結(jié)構(gòu)，以方便網(wǎng)頁的處理。正文快照保存將Xml轉(zhuǎn)換成Dom樹將Html網(wǎng)頁凈化，生成Xml文檔圖21 原理流程圖(1) 結(jié)束符丟失或不匹配的檢測(cè)和糾正h1headingh2subheading/h3修改為h1heading/h1h2subheading/h2(2) 結(jié)束標(biāo)記錯(cuò)位的糾正phere is a para bbold ibold italic/b bold?/i normal?修改為phere is a para bbold ibold italic/i bold?/b normal?(3) 標(biāo)題的修復(fù)h1iitalic heading/h1pnew paragraph這類錯(cuò)誤將影響到標(biāo)題的顯示，字體的顏色、大小等達(dá)不到預(yù)期的效果。下面就處理頁面源碼時(shí)遇到的情況分類說明。因此首先需要對(duì)網(wǎng)頁的HTML標(biāo)簽進(jìn)行規(guī)范化。網(wǎng)頁預(yù)處理系統(tǒng) HTML標(biāo)簽規(guī)范化由于HTML標(biāo)簽文法的自由性，導(dǎo)致許多網(wǎng)頁的標(biāo)簽使用不規(guī)范，為網(wǎng)頁處理帶來了很大困難。本文提取網(wǎng)頁正文的方法分為兩個(gè)步驟，首先利用網(wǎng)頁的HTML內(nèi)容建立符合W3C組織發(fā)布的DOM(Document Object Model)標(biāo)準(zhǔn)的樹形結(jié)構(gòu)；然后遍歷網(wǎng)頁的DOM樹的各個(gè)標(biāo)簽節(jié)點(diǎn)，利用中文標(biāo)點(diǎn)和鏈接信息定位正文所在標(biāo)簽，對(duì)此標(biāo)簽內(nèi)容進(jìn)行二次抽取，提取出準(zhǔn)確的正文內(nèi)容。因此根據(jù)中文新聞網(wǎng)頁的特點(diǎn)，本文采用文獻(xiàn)[4]提到的方法，利用中文標(biāo)點(diǎn)符號(hào)定位正文所在標(biāo)簽，并針對(duì)此方法的不足，本文提出了利用中文標(biāo)點(diǎn)結(jié)合鏈接數(shù)的方法定位包含正文的標(biāo)簽，然后利用中文標(biāo)點(diǎn)及鏈接在每個(gè)子標(biāo)簽中的比例去除其中的噪聲，準(zhǔn)確提取正文內(nèi)容。基本原理目前互聯(lián)網(wǎng)上的大部分網(wǎng)頁都是采用HTML格式，此格式采用大量的標(biāo)簽來控制網(wǎng)頁顯示的內(nèi)容，例如，table標(biāo)簽用來定義表格，p標(biāo)簽用來進(jìn)行文字分段。研究的重點(diǎn)是合理的機(jī)內(nèi)文本表示，尋找“發(fā)現(xiàn)”正文和噪聲的方法，提取正文，去除噪聲。本次設(shè)計(jì)出來的網(wǎng)頁正文提取系統(tǒng)所具有的特點(diǎn)是應(yīng)用范圍廣。在設(shè)計(jì)開發(fā)的過程中，提取系統(tǒng)應(yīng)體現(xiàn)自己的特點(diǎn)。主要研究?jī)?nèi)容此次課題主要是通過對(duì)現(xiàn)在流行的幾種垂直搜索技術(shù)進(jìn)行研究，總結(jié)出開發(fā)垂直搜索引擎的一般模塊及功能。然后將符合要求的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫，進(jìn)行進(jìn)一步的加工處理，如：去重、分類等，最后分詞、所以再以搜索的方式滿足用戶的需求。垂直搜索引擎的產(chǎn)生正是有效的解決了以上通用搜索引擎無法滿足的市場(chǎng)需求。他們可以滿足大量信息的橫向搜索、提供，但很難兼顧搜索的準(zhǔn)確度與相關(guān)度的質(zhì)量。因此，如何從海量信息中得到有用信息是大家共同關(guān)注的熱點(diǎn)問題。信息爆炸帶來了劇烈的市場(chǎng)變化。一個(gè)不大的企業(yè)每天要生產(chǎn)100MB以上來自各方面的營業(yè)數(shù)據(jù)。就以上面的例子來講，如果用關(guān)鍵詞查詢，多半人會(huì)用“virus”這個(gè)詞來檢索，結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息，而用“how can kill virus of puter？”，搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶，提高了檢索效率。搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后，或直接給出提問的答案，或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。搜索引擎的最新技術(shù)發(fā)展包括以下幾個(gè)方面[2]： (1) 提高搜索引擎對(duì)用戶檢索提問的理解為了提高搜索引擎對(duì)用戶檢索提問的理解，就必須有一個(gè)好的檢索提問語言，為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn)，現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。搜索引擎的發(fā)展歷史是一個(gè)挖掘用戶需求然后滿足用戶需求的過程。互聯(lián)網(wǎng)每一個(gè)殺手級(jí)應(yīng)用都離不開信息和傳遞這兩個(gè)關(guān)鍵詞。因此從這個(gè)意義上說，它們是搜索引擎的搜索引擎[1]。像國外的Inktomi（已被Yahoo收購），它本身并

點(diǎn)擊復(fù)制文檔內(nèi)容

規(guī)章制度相關(guān)推薦

酒店管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(正文部分源代碼)_畢業(yè)設(shè)計(jì)-文庫吧資料

【摘要】I酒店管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(正文+部分源代碼)目錄摘要......................................................IIIAbstract....................................................IV引言.............

2024-09-03 06:38

畢業(yè)設(shè)計(jì)---考勤管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)設(shè)計(jì)-文庫吧資料

【摘要】考勤管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展，越來越多的公司和企業(yè)對(duì)職工的考勤都實(shí)行了信息化管理，使用計(jì)算機(jī)系統(tǒng)代替復(fù)雜的手工方式來管理考勤事務(wù)?？记诠芾硐到y(tǒng)可以有效地管理公司員工的出勤情況，規(guī)范人事制度管理，保證公司正常的工作，是人力資源管理的重要組成部分。系統(tǒng)的開發(fā)主要包括后臺(tái)數(shù)據(jù)庫的建立，維護(hù)以及前端應(yīng)用程序的開發(fā)兩個(gè)

2025-01-27 04:34

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧資料

酒店管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(正文部分源代碼)_畢業(yè)設(shè)計(jì)-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)與制作教程-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)與制作講義-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)要點(diǎn)匯總-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)fireworkscs-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)作業(yè)答案-文庫吧資料

最新網(wǎng)絡(luò)考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)免費(fèi)下載-文庫吧資料

畢業(yè)設(shè)計(jì)---考勤管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)設(shè)計(jì)-文庫吧資料

畢業(yè)設(shè)計(jì)---網(wǎng)上訂餐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)設(shè)計(jì)-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)課程設(shè)計(jì)報(bào)告-文庫吧資料

購物系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧資料

醫(yī)藥系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧資料

最新網(wǎng)頁版在線音樂播放器詳細(xì)設(shè)計(jì)-文庫吧資料

最新網(wǎng)頁設(shè)計(jì)與制作試卷及答案-文庫吧資料

最新網(wǎng)頁開發(fā)與設(shè)計(jì)課后習(xí)題答案-文庫吧資料

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-資料下載頁

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)(參考版)

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫吧資料

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-展示頁

最新網(wǎng)頁正文提取系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-在線瀏覽