freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

幾種常見的搜索引擎的性能比較與分析2-文庫(kù)吧資料

2025-07-03 02:09本頁(yè)面
  

【正文】 259 718ms/84分新浪 28,380,000 167,725,800 4 16 1,871Ms/34分上述數(shù)據(jù)是 2022 年 4 月 15 號(hào)到 4 月 21 號(hào)的數(shù)據(jù)。但各搜索引擎的數(shù)據(jù)庫(kù)規(guī)模,數(shù)據(jù)更新周期等均為其商業(yè)秘密,具有不可得性。結(jié)合以上兩種指標(biāo)體系,以上述檢索效率的影響因素為依據(jù),我們以數(shù)據(jù)庫(kù)、檢索結(jié)果和用戶界面作為搜索引擎檢索性能的評(píng)價(jià)標(biāo)準(zhǔn)。從用戶的角度來(lái)考慮,用戶追求的是搜索引擎的檢索效率,即在最短的時(shí)間內(nèi)找到他們最需要的結(jié)果。該服務(wù)的缺點(diǎn)是對(duì)于一些沒有申請(qǐng)服務(wù)而相關(guān)度大的網(wǎng)站,其排名將會(huì)相對(duì)靠后,這樣就不利于用戶找到最合適的資料。另外搜索引擎本身也會(huì)做審查的過程,檢搜出來(lái)信息的質(zhì)量也得到了一定的保證。上述從需求和供求兩方面的結(jié)合,就誕生了競(jìng)價(jià)排名這個(gè)檢搜結(jié)果排序方式。作為 inter 第二大應(yīng)用項(xiàng)目的搜索引擎服務(wù),能夠獲取效益的一種手段就是在檢索結(jié)果時(shí)將一些付費(fèi)商業(yè)網(wǎng)站排名前面,為它們做廣告宣傳,自己則獲取廣告收人。另外一方面,從搜索引擎來(lái)說(shuō),各搜索引擎公司也需要贏利方式。因此,他們?cè)敢飧冻鲆欢ǖ拇鷥r(jià)來(lái)?yè)Q取商機(jī)。筆者認(rèn)為,競(jìng)價(jià)排名主要在以下兩個(gè)方面出現(xiàn),一方面,從商業(yè)網(wǎng)站來(lái)說(shuō),上文已經(jīng)說(shuō)過,搜索引擎每次檢索反饋的結(jié)果集合太大太多,需分很多頁(yè)來(lái)顯示,而大部分用戶都不愿意瀏覽第 3 頁(yè)以后的信息,因此導(dǎo)致一些排名靠后的網(wǎng)頁(yè)根本就沒有機(jī)會(huì)被瀏覽。的服務(wù)費(fèi)高于 R,則 R 的排名將會(huì)后退。在拿到服務(wù)費(fèi)以后,F 將對(duì) R 的內(nèi)容進(jìn)行一定的審查 ,審查完畢后 ,R 將獲得在 F 中進(jìn)行詞檢索E 的第 N 位排名。競(jìng)價(jià)排名(payperclick)是指一些商業(yè)網(wǎng)站購(gòu)買關(guān)鍵字排名,搜索引擎公司按照客戶點(diǎn)擊或者按照時(shí)間段對(duì)它們進(jìn)行收費(fèi)的一種服務(wù)。這種方法開始于原來(lái)的 overtune 公司,該公司目前已經(jīng)為這項(xiàng)服務(wù)申請(qǐng)了專利。   不足:人們的查詢具有主題特征,PageRank 忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank 有很嚴(yán)重的對(duì)新網(wǎng)頁(yè)的歧視。這就是搜索引擎使用它的原因。Google 不斷的重復(fù)計(jì)算每個(gè)10頁(yè)面的 PageRank。由于下面的算法,沒有頁(yè)面的PageRank 會(huì)是 0。 換句話說(shuō),根據(jù)鏈出總數(shù)平分一個(gè)頁(yè)面的 PR 值。所以 B 給每個(gè)頁(yè)面半票。 繼續(xù)假設(shè) B 也有鏈接到 C,并且 D 也有鏈接到包括 A 的3個(gè)頁(yè)面。PageRank 的計(jì)算公式如下: 假設(shè)一個(gè)由 4 個(gè)頁(yè)面組成的小團(tuán)體:A ,B,C 和 D。在 google 收集的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中,每一個(gè)網(wǎng)頁(yè)都有一個(gè)自己的 PageRank。隨著 PageRank 的成功,越來(lái)越多的研究單位和商業(yè)組織開始涉足超鏈接分析技術(shù)這一領(lǐng)域的研究與開發(fā)。9 PageRank 算法PageRank 算法是由 google 的創(chuàng)始人之一、斯坦福大學(xué)計(jì)算機(jī)系的 Lawrencepage博士等設(shè)計(jì)的一種對(duì)網(wǎng)頁(yè)進(jìn)行排序的算法。同時(shí)分類目錄進(jìn)行排序時(shí)是各搜索引擎編輯者已經(jīng)排好的,與之相比,該算法又稱為用戶控制排序算法,而分類目錄的排序則稱為編制控制排序算法。對(duì)此,Askjeeves 公司也采用相關(guān)的技術(shù)來(lái)屏蔽一些重復(fù)的點(diǎn)擊,從而保證排名的相對(duì)準(zhǔn)確性。很顯然,用戶點(diǎn)擊反饋越多則該算法的準(zhǔn)確度就越高,因此 DirectHit 與一些搜索引擎建立了合作伙伴關(guān)系,即這些引擎使用 DirectHit 技術(shù)進(jìn)行結(jié)果排序 ,而用戶在使用這些搜索引擎查詢點(diǎn)擊后,搜索引擎將點(diǎn)擊的結(jié)果反饋給 DirectHit,DirectHit 將這些收集這些結(jié)果再計(jì)算相關(guān)度。由于相關(guān)度在不停地變化,對(duì)于同一個(gè)詞在不同的時(shí)間進(jìn)行檢索,得到結(jié)果集合的排序也就有可能不同,即 DirectHit 排序是一種動(dòng)態(tài)排序。DirectHit 算法就是一種按照上述用戶的反饋結(jié)果進(jìn)行排序的技術(shù)。用戶瀏覽返回的結(jié)果、查找自己需要的信息實(shí)際是一個(gè)過濾無(wú)用信息、進(jìn)行二次檢索的過程。 算法 與其它的算法相比,Askjeeves 公司的 directhit 技術(shù)則是一種注重信息的質(zhì)量和用戶8反饋信息的排序方法。因此較易為人利用來(lái)實(shí)現(xiàn)不良競(jìng)爭(zhēng),輕易地把其網(wǎng)頁(yè)設(shè)計(jì)修改成“含有關(guān)鍵詞的網(wǎng)頁(yè)”,從而在搜索引擎結(jié)果中排在前面。該方法的缺點(diǎn)也很明顯,雖然詞的頻次和位置是決定排序結(jié)果的要素,但并不是唯一要素。以詞頻和詞位置計(jì)算相關(guān)度的方法是較為客觀準(zhǔn)確的,它是應(yīng)用最為廣泛也是最成熟的方法,各大搜索引擎迄今仍以它作為計(jì)算相關(guān)度的基本方法。在計(jì)算網(wǎng)頁(yè)的相關(guān)度時(shí),其中各詞的關(guān)系和詞間的相對(duì)位置也是影響因素。例如在網(wǎng)頁(yè) title標(biāo)簽、鏈點(diǎn)標(biāo)簽、Meta keyword 標(biāo)簽、Meta description 標(biāo)簽中選詞并按詞頻計(jì)算權(quán)值時(shí),或索引項(xiàng)出現(xiàn)在網(wǎng)頁(yè)標(biāo)題、文章前幾段、段首等位置時(shí),其權(quán)值會(huì)加大。在與查詢?cè)~匹配時(shí),它所代表的文檔與查詢請(qǐng)求的相關(guān)度就越高。許多搜索引擎都以索引項(xiàng)的詞頻和位置作為相關(guān)度的判定標(biāo)準(zhǔn),采用前述的詞頻加權(quán)方法來(lái)計(jì)算相關(guān)度。一個(gè)詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)決定詞對(duì)網(wǎng)頁(yè)的相關(guān)度,這種想實(shí)際上來(lái)自于盧恩自動(dòng)標(biāo)引的方法。該方法以一個(gè)關(guān)鍵詞與網(wǎng)頁(yè)的相關(guān)度大小作為排序標(biāo)準(zhǔn),而關(guān)鍵詞在網(wǎng)頁(yè)中的相關(guān)度則由它在網(wǎng)頁(yè)中出現(xiàn)的頻次和位置兩方面加權(quán)計(jì)算得出。通用搜索引擎的弊端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來(lái),搜索越來(lái)越難以控制,用戶需求和市場(chǎng)服務(wù)間的巨大反差產(chǎn)生了強(qiáng)大的“搜索噪音” ,垂直搜索引擎的應(yīng)運(yùn)而生,成為搜索引擎發(fā)展史上的一塊里程碑。 (四)垂直搜索引擎:有針對(duì)性的搜索引擎。(二)門戶搜索引擎:如 AOLSearch、MSNSearch 等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他引擎。 其他除上述三大類引擎外,還有以下幾種非主流形式:(一)集合式搜索引擎:如 HotBot 在 2022 年底推出的引擎。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo 等,中文元搜索引擎中具代表性的有搜星搜索引擎。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。目錄索引中最具代表性的莫過于大名鼎鼎的 Yahoo雅虎?!? 圖 121 全球著名全文搜索引擎 LOGO 目錄索引目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按6目錄分類的網(wǎng)站鏈接列表而已。 全文搜索引擎全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma 、WiseNut 等,國(guó)內(nèi)著名的有百度(Baidu ) 。查詢器首先對(duì)用戶輸入的信息進(jìn)行切詞處理,并檢索出所有包含檢索詞的記錄,通過計(jì)算網(wǎng)頁(yè)權(quán)重和級(jí)別對(duì)查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算,最后從文檔數(shù)據(jù)庫(kù)中提取各網(wǎng)頁(yè)的摘要信息反饋給查詢用戶。在進(jìn)行抓取的同時(shí),切詞器和索引器將已經(jīng)抓取的網(wǎng)頁(yè)文檔進(jìn)行切詞處理,并按詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率計(jì)算權(quán)值,然后將切詞結(jié)果存入索引數(shù)據(jù)庫(kù)。搜索引擎的主要工作流程是:首先從蜘蛛開始,蜘蛛程序每隔一定的時(shí)間自動(dòng)啟動(dòng)并讀取網(wǎng)頁(yè)URL服務(wù)器上的URL列表,按深度優(yōu)先或廣度優(yōu)先算法,抓取各URL所指定的網(wǎng)站,將抓取的網(wǎng)頁(yè)分配一個(gè)唯一文檔,存入文檔數(shù)據(jù)庫(kù)。為了有效地做到這一點(diǎn),它大致上被分成三個(gè)子系統(tǒng);即網(wǎng)頁(yè)搜集,網(wǎng)頁(yè)預(yù)處理和查詢服務(wù)。4第二章 常見的搜索引擎的原理和分類 搜索引擎的原理搜索引擎,應(yīng)該被定位成一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng),或者是一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。而中國(guó)的百度更是憑借“更懂中文”而吸引著中國(guó)的網(wǎng)絡(luò)受眾,它擁有超過 10 億的中文網(wǎng)頁(yè)數(shù)據(jù)庫(kù),并且,這些網(wǎng)頁(yè)的數(shù)量每天正以千萬(wàn)級(jí)的速度在增長(zhǎng)。Fast(Alltheweb)公司發(fā)布的搜索引擎 AllTheWeb,總部位于挪威,其在海外的風(fēng)頭直逼 Google。除此之外,動(dòng)態(tài)摘要、網(wǎng)頁(yè)快照、多文檔格式支持、地圖股票詞典尋人等集成搜索也都深得網(wǎng)民的喜愛。Google 以其復(fù)雜而全自動(dòng)的搜索方法排除了任何人為因素對(duì)搜索結(jié)果的影響。Google根據(jù)網(wǎng)頁(yè)的得票數(shù)評(píng)定其重要性。即考察該頁(yè)面在網(wǎng)上被鏈接的頻率和重要性來(lái)排列,互聯(lián)網(wǎng)上指向這一頁(yè)面的重要網(wǎng)站越多,該頁(yè)面的位次也就越高。這就引出了這樣一個(gè)問題,如果一個(gè)頁(yè)面充斥著某一個(gè)關(guān)鍵字的話,那么它將排在很顯著的位置,但這樣一個(gè)頁(yè)面對(duì)于用戶來(lái)說(shuō),卻沒有任何意義。Google 并不是搜索引擎的發(fā)明者,甚至有點(diǎn)落后,但是它卻讓人們愛上了搜索。Google 就是站在這樣的巨人的肩膀上顛覆并創(chuàng)造著。它的成功在于滿足了用戶三個(gè)方面的需求:網(wǎng)上索引范圍超過了此前任何一家搜索引擎;短短幾秒鐘內(nèi)便可從龐大的數(shù)據(jù)庫(kù)中為用戶返回搜索結(jié)果;AltaVista 小組從一開始就采用了一種模塊設(shè)計(jì)技術(shù),能夠跟蹤網(wǎng)站的流行趨勢(shì),同時(shí)不斷擴(kuò)大處理能力。它是第一個(gè)支持高級(jí)搜索語(yǔ)法的搜索引擎,成功地整合了此前人類所有的信息檢索技術(shù),解決了包括字根處理、關(guān)鍵詞檢索、布爾邏輯,以及通過向量空間模型的查詢排名等關(guān)鍵問題。1995 年 12 月,它與 Netscape的戰(zhàn)略性協(xié)議,使它成為一個(gè)強(qiáng)勢(shì)搜索引擎:當(dāng)用戶點(diǎn)擊 Netscape 瀏覽器上的搜索按鈕時(shí),彈出 Infoseek 的搜索服務(wù),而此前由 Yahoo!提供該服務(wù)。起初,Infoseek 只是一個(gè)不起眼的搜索引擎,它沿襲 Yahoo!和 Lycos 的概念,并沒有什么獨(dú)特的革新。自此之后幾乎所有占據(jù)主導(dǎo)地位的搜索引擎中,都靠“蜘蛛”來(lái)搜集網(wǎng)頁(yè)信息。1994 年 7 月 20 日發(fā)布的 Lycos 網(wǎng)站第一個(gè)將“蜘蛛”程序接入到其索引程序中。第一個(gè)開發(fā)出“蜘蛛”程序的是 MatthewGray,他于 1993 年開發(fā)了 WorldWideWebWanderer,它最初建立時(shí)是為了統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,到后來(lái)發(fā)展到能夠捕獲網(wǎng)址。所以,搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。它實(shí)際上是一種電腦“機(jī)器人”(ComputerRobot),電腦“機(jī)器人”是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。但是因?yàn)檠呕⒌臄?shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。后來(lái),1994 年 4 月,他們倆共同辦了雅虎。還在 Stanford 大學(xué)讀書的美籍華人楊致遠(yuǎn)和他的同學(xué)迷上了互聯(lián)網(wǎng)。人們紛紛使用各種方法將網(wǎng)絡(luò)上的信息搜集來(lái),進(jìn)行分類、整2理,以方便查找。Archie 雖然還不是搜索引擎,但是從它的工作原理上看,它是所有搜索引擎的祖先。它是一個(gè)可搜索的 FTP 文件名列表,用戶必須輸入精確的文件名搜索,然后 Archie 會(huì)告訴用戶哪一個(gè) FTP 地址可以下載這個(gè)文件。這些資源當(dāng)時(shí)主要存在于各種允許匿名訪問的 FTP 站點(diǎn)。 搜索引擎的初顯(刷白什么意思??。┧阉饕鎻?1990 年原型初顯,進(jìn)過三十多年的發(fā)展,現(xiàn)在成為人們生活中必不可少的一部分,它經(jīng)歷了太多技術(shù)和觀念的變革。大家熟知的搜索引擎 Google、百度、雅虎等是通用搜索引擎現(xiàn)如今的杰出代表,
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1