freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-資料下載頁

2025-06-27 17:38本頁面
  

【正文】 面上的鏈接的被點(diǎn)擊概率的和。阻尼系數(shù)d的引入,是因?yàn)橛脩舨豢赡軣o限的點(diǎn)擊鏈接,常常因勞累而隨機(jī)跳入另一個(gè)頁面。d可以視為用戶無限點(diǎn)擊下去的概率, (1-d)則就是頁面本身所具有的網(wǎng)頁級別。因此我們對公式(31)作了進(jìn)一步的改進(jìn)。PR(A) = (1d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 公式(32)其中 N 是互聯(lián)網(wǎng)上所有網(wǎng)頁的數(shù)量由此,所有頁面的網(wǎng)頁級別形成的一個(gè)概率分布,所有頁面的網(wǎng)頁級別之和是 1。在算法 1 中,隨機(jī)沖浪訪問某個(gè)頁面的概率由互聯(lián)網(wǎng)的總頁數(shù)決定,在公式(32)中,網(wǎng)頁級別是一個(gè)頁面被隨機(jī)訪問的期望值。所有頁面的網(wǎng)頁級別之和等于互聯(lián)網(wǎng)的總頁數(shù)。在網(wǎng)頁數(shù)比較少的情況下,網(wǎng)頁級別方程可以解出,而面對互聯(lián)網(wǎng)上成億的網(wǎng)頁,再解方程是不可能的?! ±鐖D(31)所示的鏈接形式。此處設(shè)阻尼系數(shù)為 ,雖然 Lawrence Page 和 Sergey Brin 在實(shí)際將其設(shè)為 .PR(A) = + PR(C)PR(B) = + (PR(A) / 2)PR(C) = + (PR(A) / 2 + PR(B))解得:PR(A) = 14/13 = PR(B) = 10/13 = PR(C) = 15/13 = 有:PR(A)+PR(B)+PR(C)=3另外由上述公式我們可以發(fā)現(xiàn)公式表現(xiàn)為迭代形式,在計(jì)算時(shí)可以從任何一個(gè)頁面開始,反復(fù)計(jì)算直到收斂。衰減系統(tǒng)d代表瀏覽者對這個(gè)網(wǎng)頁厭倦并轉(zhuǎn)向另一網(wǎng)頁的隨機(jī)概率。各個(gè)網(wǎng)頁的PageRank值構(gòu)成了Web上網(wǎng)頁的隨機(jī)分布,所以Web上所有網(wǎng)頁的PageRank值的和為1。由此我們可以看出影響一個(gè)網(wǎng)頁A的PageRank值因素有以下幾個(gè):(1)網(wǎng)頁A的鏈入數(shù)量。如果鏈入數(shù)量越多,則網(wǎng)頁A的PageRank值就越大;(2)網(wǎng)頁A鏈入網(wǎng)頁圖 31 三個(gè)頁面鏈接形式示意圖西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)―― 22本身的PageRank值。鏈入的網(wǎng)頁本身的重要性,也影響該網(wǎng)頁A的PageRank值;(3)網(wǎng)頁A鏈入網(wǎng)頁本身的鏈出數(shù)量。鏈入網(wǎng)頁的PageRank值被均勻的分布并且傳遞到它所指向的Web網(wǎng)頁。鏈入網(wǎng)頁的鏈出數(shù)量越大,每個(gè)鏈接對該網(wǎng)頁A的PageRank值的貢獻(xiàn)度就越小。 Google是結(jié)合文本的方法來實(shí)現(xiàn)PageRank算法的,所以只返回包含查詢項(xiàng)的網(wǎng)頁,然后根據(jù)網(wǎng)頁的rank值對搜索到的結(jié)果進(jìn)行排序,把PageRank值最高的網(wǎng)頁放置到最前面,但是如果最重要的網(wǎng)頁不在結(jié)果網(wǎng)頁集中,PageRank算法就無能為力了,眾多的例子都說明PageRank算法與查詢的主題無關(guān),不適合進(jìn)行垂直搜索 [29]。PageRank算法中對于向外鏈接的權(quán)值貢獻(xiàn)是平均的,也就是不考慮不同鏈接的重要性,容易出現(xiàn)主題飄移現(xiàn)象。而Web鏈接具有以下特征:(1)有些鏈接具有注釋性,也有些鏈接是起導(dǎo)航或廣告作用。有注釋性的鏈接才用于權(quán)威判斷。(2)基于商業(yè)或競爭因素考慮,很少有Web網(wǎng)頁指向其競爭領(lǐng)域的權(quán)威網(wǎng)頁。(3)權(quán)威網(wǎng)頁很少具有顯示的描述,比如Google主頁上不會(huì)明確給出Web搜索引擎之類的描述信息??梢娖骄姆植伎赡軙?huì)不符合鏈接的實(shí)際情況 [30]。HITS算法是由Kleinberg在90年代末提出的一種鏈接分析算法 [31]。HITS算法更大程度上是一種實(shí)驗(yàn)性質(zhì)的嘗試。它必須在網(wǎng)絡(luò)信息檢索系統(tǒng)進(jìn)行面向內(nèi)容的檢索操作之后,基于內(nèi)容檢索的結(jié)果頁面及其直接相連的頁面之間的鏈接關(guān)系進(jìn)行計(jì)算。這使得在實(shí)際應(yīng)用環(huán)境中使用HITS算法變得十分困難,盡管有人嘗試通過算法改進(jìn)和專門設(shè)立鏈接結(jié)構(gòu)計(jì)算服務(wù)器(Connectivity Server)等操作,可以實(shí)現(xiàn)一定程度的在線實(shí)時(shí)計(jì)算,但這對于每天要處理超過幾十億次用戶需求的商用搜索引擎而言,這樣的計(jì)算代價(jià)仍然是不可接受的 [32]。 具體的HITS算法如下:將待搜索主題的查詢提交給普通的基于關(guān)鍵字的搜索引擎,得到一個(gè)該主題相關(guān)網(wǎng)頁初始集合N。對于第一個(gè)網(wǎng)頁,令H(n)代表其Hub值,A(n)代表其Authority值。對于所有的n,將H(n)和A(n)初始化為1。執(zhí)行I操作:A(n)= 公式(33)??EnH39。, )39。(執(zhí)行O操作::H(n)= 公式(34)A39。,將A(n)和H(n)歸一化,反復(fù)執(zhí)行I操作和O操作,直到A(n)和H(n)收斂。實(shí)際上HITS算法對網(wǎng)頁進(jìn)行質(zhì)量評估的結(jié)果反映在它對每個(gè)網(wǎng)頁給出的兩個(gè)評價(jià)數(shù)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)上。 內(nèi)容權(quán)威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁所引用的網(wǎng)西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)―― 23頁,其內(nèi)容權(quán)威度越高;與之相對應(yīng)的,鏈接權(quán)威度與網(wǎng)頁提供的超鏈接的質(zhì)量相關(guān),引用越多內(nèi)容質(zhì)量高網(wǎng)頁的網(wǎng)頁,其鏈接權(quán)威度越高。如果我們把一個(gè)內(nèi)容權(quán)威度高的網(wǎng)頁比作一個(gè)味道不錯(cuò)的飯館的話,那么鏈接權(quán)威度高的網(wǎng)頁就是旅游雜志中美食家撰寫的一篇推薦飲食地點(diǎn)的文章。 由于網(wǎng)絡(luò)信息檢索所面臨的數(shù)據(jù)對象即萬維網(wǎng)數(shù)據(jù)具有極為繁雜的數(shù)據(jù)規(guī)模,因此,用戶所涉及到的絕大多數(shù)查詢主題都會(huì)返回?cái)?shù)量繁多的相關(guān)查詢結(jié)果。面對數(shù)目動(dòng)輒上千上萬的相關(guān)結(jié)果集合,絕大多數(shù)用戶會(huì)傾向于查找出結(jié)果集合中對自己獲取信息最有價(jià)值的那一部分網(wǎng)頁。HITS算法所解決的正是這一問題:它所施行的數(shù)據(jù)集合,就是網(wǎng)絡(luò)信息檢索工具返回的與查詢主題相關(guān)的結(jié)果集合,而其輸出的結(jié)果,就是對此結(jié)果集合中網(wǎng)頁的內(nèi)容權(quán)威度和鏈接權(quán)威度的評價(jià)。HITS算法因而被認(rèn)為能夠極大地改善用戶的檢索體驗(yàn),也得到了眾多研究人員的關(guān)注。 從具體施行步驟而言,HITS算法的施行是一個(gè)“迭代—收斂”的過程:網(wǎng)頁A鏈接權(quán)威度的數(shù)值是通過其鏈向的網(wǎng)頁的內(nèi)容權(quán)威度決定的,而網(wǎng)頁A的內(nèi)容權(quán)威度的數(shù)值則是由鏈向其網(wǎng)頁的鏈接權(quán)威度所決定的。HITS算法的施行對象及其迭代算法的本質(zhì)決定了其不可能在網(wǎng)絡(luò)信息檢索系統(tǒng)中取得大規(guī)模的應(yīng)用 [33]。而更多的基于實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果證明,這個(gè)算法本身在挑選內(nèi)容或鏈接質(zhì)量較高的頁面時(shí)也并非格外有效,究其原因而言,大致包括以下幾點(diǎn): A. 站點(diǎn)內(nèi)部網(wǎng)頁在權(quán)威度數(shù)值上的的相互加強(qiáng); B. 網(wǎng)頁輔助制作工具自動(dòng)生成的鏈接條目的干擾;C. 與主題無關(guān)的網(wǎng)頁或者主題漂移。針對上述缺點(diǎn), Bharat等人對HITS算法進(jìn)行了相關(guān)的修改,具體內(nèi)容包括忽略站點(diǎn)內(nèi)部的鏈接、或者利用網(wǎng)頁的內(nèi)容相似度對Hub/Authority值進(jìn)行初始化等。綜上所述,利用在搜索網(wǎng)頁內(nèi)容相對集中,如僅限于音樂產(chǎn)品信息查詢的話,HITS算法已經(jīng)足夠求出搜索網(wǎng)頁的權(quán)值排序了。 網(wǎng)頁信息的結(jié)構(gòu)化抽取 在利用 HITS 算法求出網(wǎng)頁的爬行方向和網(wǎng)頁重要度排序后,垂直搜索引擎和通用搜索引擎的另一個(gè)區(qū)別就是對頁面存儲中的網(wǎng)頁信息進(jìn)行結(jié)構(gòu)化抽取,以向用戶提供更加專業(yè)的搜索服務(wù)。如:公司企業(yè)信息搜索應(yīng)該抽取出:公司名稱、地址、電話、聯(lián)系人……等結(jié)構(gòu)化信息;音樂信息搜索的話,我們可以通過比較需要抓取網(wǎng)頁后,對網(wǎng)頁中的音樂信息進(jìn)行抽取,抽取出產(chǎn)品名稱、價(jià)格、簡介……甚至可以進(jìn)一步將產(chǎn)品簡介細(xì)分成“品牌、規(guī)格、產(chǎn)地……”Web 結(jié)構(gòu)化信息抽取的技術(shù)西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)―― 24水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。有兩種方式,簡單的就是模板方式,模板方式是事先對對特定的網(wǎng)頁進(jìn)行配置模板,抽取模板中設(shè)置好的需要的信息,可以針對有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。模板方式的特點(diǎn)是簡單、精確、技術(shù)難度低、方便快速部署。缺點(diǎn)則是需要針對第一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定在信息源多樣性的情況下維護(hù)量巨大是不可完成的維護(hù)量 [34]。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應(yīng)用,很難滿足用戶對查全率的需求。網(wǎng)頁信息結(jié)構(gòu)化抽取的第二種方式就是對網(wǎng)頁不依賴 web 結(jié)構(gòu)化信息抽取方式,該方法采用頁面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法,自動(dòng)抽取結(jié)構(gòu)化的數(shù)據(jù)。特點(diǎn)是可對任意的正常網(wǎng)頁進(jìn)行抽取,完全自動(dòng)化,不用對具體網(wǎng)站事先生成模板,對每個(gè)網(wǎng)頁自動(dòng)實(shí)時(shí)生成抽取規(guī)則,完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高,不是機(jī)械的匹配,采用智能分析技術(shù),準(zhǔn)確率能達(dá)到 98%以上。能保證較快處理速度,由于采用頁面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,使處理速度大大提高。通用性較好,易于維護(hù),只設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能;一般的非專業(yè)人員經(jīng)過簡單培訓(xùn)就能維護(hù)。缺點(diǎn)是技術(shù)難度高,前期研發(fā)成本高,周期長。適合網(wǎng)頁庫級別結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。由上面我們可以得出在實(shí)際應(yīng)用中這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對網(wǎng)頁信息結(jié)構(gòu)化抽取后再對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度的處理,提供專業(yè)的搜索服務(wù)。所以 web 結(jié)構(gòu)化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。其實(shí) web 結(jié)構(gòu)化信息抽取在百度、google 早已經(jīng)廣泛應(yīng)用了,如:MP圖片搜索、google 的本地搜索就是從網(wǎng)頁庫抽取出企業(yè)信息,添加到其地圖搜索中的。同樣的技術(shù)應(yīng)用還在qihoo、sogou 購物、shopping 等各種應(yīng)用中體現(xiàn)。Hobbs曾提出一個(gè)信息抽取系統(tǒng)的通用體系結(jié)構(gòu) [35],他將信息抽取系統(tǒng)抽象為“級聯(lián)的轉(zhuǎn)換器或模塊集合,利用手工編制或自動(dòng)獲得的規(guī)則在每一步過濾掉不相關(guān)的信息,增加新的結(jié)構(gòu)信息”。Hobbs認(rèn)為典型的信息抽取系統(tǒng)應(yīng)該當(dāng)由依次相連的十個(gè)模塊組成:西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)―― 25(1)文本分塊:將輸入文本分割為不同的部分——塊。(2)預(yù)處理:將得到的文本塊轉(zhuǎn)換為句子序列,每個(gè)句子由詞匯項(xiàng)(詞或特定類型短語)及相關(guān)的屬性(如詞類)組成。(3)過濾:過濾掉不相關(guān)的句子。(4)預(yù)分析:在詞匯項(xiàng)(Lexical Items)序列中識別確定的小型結(jié)構(gòu),如名詞短語、動(dòng)詞短語、并列結(jié)構(gòu)等。(5)分析:通過分析小型結(jié)構(gòu)和詞匯項(xiàng)的序列建立描述句子結(jié)構(gòu)的完整分析樹或分析樹片段集合。(6)片段組合:如果上一步?jīng)]有得到完整的分析樹,則需要將分析片段集合或邏輯形式片段組合成整句的一棵分析樹或其他邏輯表示形式。(7)語義解釋:從分析樹或分析樹集合生成語義結(jié)構(gòu)、意義表示或其他邏輯形式。(8)詞匯消歧:消解上一模塊中存在的歧義得到唯一的語義結(jié)構(gòu)表示。(9)共指消解或篇章處理:通過確定同一實(shí)體在文本不同部分中的不同描述將當(dāng)前句的語義結(jié)構(gòu)表示合并到先前的處理結(jié)果中。(10)模板生成:由文本的語義結(jié)構(gòu)表示生成最終的模板。當(dāng)然,并不是所有的信息抽取系統(tǒng)都明確包含所有這些模塊,并且也未必完全遵循以上的處理順序,比如7兩個(gè)模塊執(zhí)行順序可能就相反。但一個(gè)信息抽取系統(tǒng)應(yīng)當(dāng)包含以上模塊中描述的功能。中文網(wǎng)頁的結(jié)構(gòu)化信息抽取過程中,面臨著一些難以克服的困難。其中中文命實(shí)體的識別技術(shù)發(fā)展較為緩慢。命名實(shí)體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)。狹義地講,命名實(shí)體是指現(xiàn)實(shí)世界中的具體的或抽象的實(shí)體,如人、組織、公司、地點(diǎn)等,通常用唯一的標(biāo)志符(專有名稱)表示,如人名、組織名、公司名、地點(diǎn)等。廣義地講,命名實(shí)體還可以包含時(shí)間、數(shù)量表達(dá)式等。至于命名實(shí)體的確切含義,只能根據(jù)具體應(yīng)用來確定。比如,在具體應(yīng)用中,可能需要把住址、電子信箱地址、電話號碼等作為命名實(shí)體。命名實(shí)體識別就是要判斷一個(gè)文本串是否代表一個(gè)命名實(shí)體,并確定它的類別。在信息抽取研究中,命名實(shí)體識別是目前最有實(shí)用價(jià)值的一項(xiàng)技術(shù)。根據(jù) MUC 評測結(jié)果,英文命名實(shí)體識別任務(wù)的 F指數(shù)(召回率與準(zhǔn)確率的加權(quán)幾何平均值,權(quán)重取 1)能達(dá)到 90%以上。命名實(shí)體識別的難點(diǎn)在于:在不同領(lǐng)域、場景下,命名實(shí)體的外延有差異;數(shù)西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)―― 26量巨大,不能枚舉,難以全部收錄在詞典中;某些類型的實(shí)體名稱變化頻繁,并且沒有嚴(yán)格的規(guī)律可以遵循;表達(dá)形式多樣;首次出現(xiàn)后往往采用縮寫形式等。 命名實(shí)體識別的方法主要分為:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。一般來說,基于規(guī)則的方法性能要優(yōu)于基于統(tǒng)計(jì)的方法。但是這些規(guī)則往往依賴于具體語言、領(lǐng)域、文本格式,編制過程耗時(shí)且容易產(chǎn)生錯(cuò)誤,并且需要富有經(jīng)驗(yàn)的語言學(xué)家才需要廣博的計(jì)算語言學(xué)知識,并且可以在較短時(shí)間內(nèi)完成。因此,這類系統(tǒng)在移植到新的領(lǐng)域時(shí)可以不做或少做改動(dòng),只要利用新語料訓(xùn)練一遍即可。此外,基于統(tǒng)計(jì)的系統(tǒng)要移植到其他自然語言文本也相對容易一些。 暗藏網(wǎng)頁的信息抽取因特網(wǎng)上還存在一個(gè)被稱為“暗藏網(wǎng)” (the hidden web) [36],即那些網(wǎng)上數(shù)據(jù)庫系統(tǒng)。估計(jì)因特網(wǎng)上 80%的內(nèi)容存在于這種看不見的因特網(wǎng)中 [37]。搜索引擎的“網(wǎng)絡(luò)爬蟲”抓不到這些網(wǎng)頁。這就意味著需要一種獨(dú)立的工具從這些網(wǎng)頁中收集數(shù)據(jù)。 從網(wǎng)站中抽取信息的工作通常由一種叫做 “分裝器” [38](Wrapper,也譯“包裝器” )的程序完成分裝器是一個(gè)程序,用于從特定的信息源中抽取相關(guān)內(nèi)容,并以特定形式加以表示。在數(shù)據(jù)庫環(huán)境下,分裝器是軟件的組成部分,負(fù)責(zé)把數(shù)據(jù)和查詢請求從一種模式轉(zhuǎn)換成另外一種模式。在因特網(wǎng)環(huán)境下,分裝器的目的是把網(wǎng)頁中儲存的信息用結(jié)構(gòu)化的形式儲存起來,以方便進(jìn)一步的處理。因特網(wǎng)分裝器可接受針對特定信息源的查詢請求,并從信息源中找出相關(guān)的網(wǎng)頁,然后把需要的信息抽取出來返回給用戶。它由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的計(jì)算機(jī)程序代碼組成。通常,一個(gè)分裝器只能處理一種特定的信息源。從幾個(gè)不同信息源中抽取信息,需要一系列的分裝器程
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1