freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

論web爬蟲技術(shù)工作原理的專題研究(doc畢業(yè)設(shè)計論文)(編輯修改稿)

2025-07-20 22:01 本頁面
 

【文章內(nèi)容簡介】 一定的模型下計算鏈接的權(quán)重。   網(wǎng)站劃分情況分為按域名劃分和按IP地址劃分兩。以上討論了在分布式情況下,通過對同一個域名下不同主機、服務(wù)器的IP地址進行站點劃分,構(gòu)造站點圖,利用類似PageRank的方法評價SiteRank。同時,根據(jù)不同文件在各個站點上的分布情況,構(gòu)造文檔圖,結(jié)合SiteRank分布式計算得到DocRank。從而證明了,利用分布式的SiteRank計算,不僅大大降低了單機站點的算法代價,而且克服了單獨站點對整個網(wǎng)絡(luò)覆蓋率有限的缺點。附帶的一個優(yōu)點是,常見PageRank 造假難以對SiteRank進行欺騙?!?網(wǎng)頁塊粒度的分析算法   在一個頁面中,往往含有多個指向其他頁面的鏈接,這些鏈接中只有一部分是指向主題相關(guān)網(wǎng)頁的,或根據(jù)網(wǎng)頁的鏈接錨文本表明其具有較高重要性。但是,在PageRank和HITS算法中,沒有對這些鏈接作區(qū)分,因此常常給網(wǎng)頁分析帶來廣告等噪聲鏈接的干擾。   基于網(wǎng)頁內(nèi)容的網(wǎng)頁分析算法   基于網(wǎng)頁內(nèi)容的分析算法指的是利用網(wǎng)頁內(nèi)容(文本、數(shù)據(jù)等資源)特征進行的網(wǎng)頁評價。網(wǎng)頁的內(nèi)容從原來的以超文本為主,發(fā)展到后來動態(tài)頁面(或稱為Hidden Web)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,Publicly Indexable Web)的400~500倍。另一方面,多媒體數(shù)據(jù)、Web Service等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁內(nèi)容的分析算法,歸納以下三類:第一種針對以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;第二種針對從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風格,且可以直接訪問。   基于文本的網(wǎng)頁分析算法   1) 純文本分類與聚類算法     很大程度上借用了文本檢索的技術(shù)。文本分析算法可以快速有效的對網(wǎng)頁進行分類和聚類,但是由于忽略了網(wǎng)頁間和網(wǎng)頁內(nèi)部的結(jié)構(gòu)信息,很少單獨使用。 2) 超文本分類和聚類算法 Hidden Web的網(wǎng)頁分析方法大約80%的數(shù)據(jù)是動態(tài)生成的。這些內(nèi)容 大多“隱藏”存儲在后臺的可查詢數(shù)據(jù)庫中,因此稱為“Hidden Web”。目前大多數(shù)的通用搜索引擎僅僅覆蓋了部分的PIW,卻忽略了數(shù)據(jù)量約為PIW 400~500倍的Hidden Web(或稱為Deep Web)。針對Hidden Web的爬蟲與普通的聚焦爬蟲相比,需要更多地對網(wǎng)頁中表單進行發(fā)現(xiàn)、探測查詢(probing query)和分析。對于網(wǎng)頁上表單的處理很多時候需要采用用戶輔助的半自動方法,如典型的HIWE系統(tǒng)。該方法將表單表示為一組(element, domain)二元組,并嘗試通過標注、頁面布局等信息確定表單的輸入數(shù)據(jù)模式。另一種無需人工輔助的方法則需要更多對網(wǎng)頁后臺數(shù)據(jù)庫的反復(fù)查詢,分析結(jié)果的數(shù)量和屬性,在利用熵理論上,采用了無需人工輔助的方法來自動發(fā)現(xiàn)領(lǐng)域相關(guān)的Hidden Web資源。 數(shù)據(jù)密集型網(wǎng)頁的分析方法數(shù)據(jù)密集型(data intensive)網(wǎng)頁的數(shù)據(jù)形式介于Hidden Web和文本密集型網(wǎng)頁之間。它們具有良好的結(jié)構(gòu)性,又可以直接從頁面讀??;而且數(shù)據(jù)的語義在網(wǎng)頁上顯示標注,因此不需要對這些網(wǎng)頁之后的數(shù)據(jù)庫進行探測查詢。例如電子商務(wù)網(wǎng)站的產(chǎn)品信息頁面,具有統(tǒng)一的風格,其中的數(shù)據(jù)表示具有固定格式,并按照一定目錄層次結(jié)構(gòu)來組織,因此也稱為分類導(dǎo)向型(taxonomy directed)網(wǎng)頁。的獲取工作主要集中在對網(wǎng)頁數(shù)據(jù)的抽取,如頁面塊或目錄發(fā)現(xiàn),結(jié)構(gòu)化數(shù)據(jù)的記錄邊界確定等等。爬蟲將這些數(shù)據(jù)抽取出來,以一定格式在本地存儲、分析,從而指導(dǎo)下一步的抓取工作?;舅悸肥牵瑢tml頁面轉(zhuǎn)化為token序列或標記樹(tag tree),如DOM樹等數(shù)據(jù)結(jié)構(gòu),再在這種轉(zhuǎn)化的數(shù)據(jù)結(jié)構(gòu)上進行模式發(fā)現(xiàn),實現(xiàn)從抽取出結(jié)構(gòu)化的數(shù)據(jù)。普遍采用的方抽取法是wrapper提取頁面信息。Wrapper可人工維護,或半自動的生成。這種方法通常具有較強的針對性和局限性,動態(tài)性常常導(dǎo)致wrapper失效,因此需要大量的wrapper維護和用互。另一種方法是從具有統(tǒng)一風格和顯示規(guī)則的若干網(wǎng)頁來學(xué)習(xí)并抽取結(jié)構(gòu)化數(shù)據(jù)。包括:進行連續(xù)數(shù)據(jù)記錄之間的記錄邊界發(fā)現(xiàn);在頁面所轉(zhuǎn)化成的標記串上做模式發(fā)現(xiàn)分析;當網(wǎng)頁上的數(shù)據(jù)記錄不連續(xù),記錄的顯示風格也不完全一致時,就需要更魯棒的算法查找標記樹種的重復(fù)結(jié)點。在很多情況下,這些數(shù)據(jù)是以HTML的表格形式(〈table〉〈/table〉)出現(xiàn)的。 用戶協(xié)作網(wǎng)頁分析算法鏈接提供的網(wǎng)頁關(guān)聯(lián)度往往帶有噪音,網(wǎng)絡(luò)的異構(gòu)性和動態(tài)性使得對鏈接結(jié)構(gòu)的建模很難達到令人滿意的效果。而用戶的訪問模式往往可靠反映了資源的主題相關(guān)性,且具有時效性,可即時反應(yīng)網(wǎng)絡(luò)鏈接的變更等情況。提出了通過用戶協(xié)作、學(xué)習(xí)瀏覽模式來抓取網(wǎng)頁的方法。協(xié)作抓取需要獲取用戶瀏覽行為,一般有兩種方法:日志挖掘和用戶標注。這個用戶瀏覽模式挖掘法,對與某一特定查詢謂詞相關(guān)的網(wǎng)頁作相似性建模。以大量公共域名代理的用戶訪問日志為參考,經(jīng)過對大群組用戶信息過濾,統(tǒng)計并總結(jié)出了三種需要考慮的用戶訪問信息:對不同網(wǎng)頁訪問頻率;對不同網(wǎng)頁特征訪問頻率;訪問同一主題網(wǎng)頁的時間局域性。其中,試驗表明,協(xié)作抓取比基于鏈接的智能抓?。╥ntelligent crawling)策略有更好的準確性。用戶在瀏覽過程中,對“有用”網(wǎng)頁進行顯式標注的網(wǎng)頁集合為參考。利用隱含馬爾可夫模型(Hidden Markov Model) 適于進行動態(tài)模式識別模型的特性,學(xué)習(xí)用戶的瀏覽行為,預(yù)測不同網(wǎng)頁聚類之間的語義聯(lián)系。 基于領(lǐng)域概念定制的網(wǎng)頁評價算法聚焦抓取常以三種方法表示:(1)預(yù)給初始種子樣本(如種子URL,目標網(wǎng)頁樣本等);(2)預(yù)定網(wǎng)頁分類結(jié)構(gòu)(如yahoo!)和網(wǎng)頁訓(xùn)練集生成的分類器;(3)用戶顯式標注的或從日志推理得到的“有用”樣本。三種方法都只是對抓取行為的“主題性”或所關(guān)心的“領(lǐng)域”給出了模糊的定義,并采用了預(yù)定義的本體信息,領(lǐng)域核心概念的模式定義以及領(lǐng)域相關(guān)的詞典以及預(yù)定義的元搜索查詢語句來表示領(lǐng)域概念。領(lǐng)域本體由不同的概念、實體及其之間的關(guān)系,以及與之對應(yīng)的詞匯入構(gòu)項(lexical entry)組成。網(wǎng)頁中的關(guān)鍵詞在通過與領(lǐng)域本體對應(yīng)的詞典作規(guī)范化轉(zhuǎn)換之后,進行計數(shù)和加權(quán),算出與所選領(lǐng)域的相關(guān)度。對規(guī)范化后的詞進行加權(quán)時,根據(jù)本體的概念層次,離核心概念越近的權(quán)重越高。該方法比廣度優(yōu)先抓取策略和基于關(guān)鍵字的分類分析算法具有更高的準確性和效率。另一個優(yōu)點在于,即使初始URL與領(lǐng)域不直接相關(guān),也具有較好的抗干擾能力,并逐漸趨近于主題相關(guān)的抓取路徑。五、 聚焦爬蟲系統(tǒng)體系結(jié)構(gòu)下面分析三種具有帶表性的體系結(jié)構(gòu)。 基于分類器的聚焦爬蟲目前大多數(shù)的聚焦抓取都采用了類似的工作流程。根據(jù)一個主題目錄和用戶指定的初始點(如書簽)來描述抓取目標,并在用戶瀏覽過程中,將用戶標注的感興趣網(wǎng)頁放入相應(yīng)的主題目錄,修改主題樣本。系統(tǒng)的兩個主要部分是網(wǎng)頁分類器和網(wǎng)頁選擇器(distiller)。網(wǎng)頁分類器負責學(xué)習(xí)抓取目標的特點,計算網(wǎng)頁的關(guān)聯(lián)度,并過濾網(wǎng)頁。選擇器負責計算網(wǎng)頁的重要程度,發(fā)現(xiàn)中心型網(wǎng)頁,并由此動態(tài)決定網(wǎng)頁的訪問順序。
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1