freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

幾種常見的搜索引擎的性能比較與分析2-wenkub

2023-07-12 02:09:29 本頁面
 

【正文】 個(gè)大學(xué)生開發(fā)了一個(gè)軟件 Archie??偠灾阉饕娓淖兞巳藗兊纳?,給人們的生活工作學(xué)習(xí)帶來了巨大的幫助。各種分類的行業(yè)網(wǎng)站也慢慢的興起,使得搜索引擎越來越成為人們生活中必不可少的實(shí)用工具。 Sorting method 。聲明人(簽名):年 月 日3摘 要本文研究的目的是為了讓我們更好的理解目前常見的幾種搜索引擎,熟悉它,認(rèn)識它,用好它,讓它們成為我們工作生活、學(xué)習(xí)和工作的好幫手。 本文主要是對搜索引擎的初顯、發(fā)展做大概的敘述,對搜索引擎的技術(shù)原理、工作的原理、系統(tǒng)構(gòu)架等做簡單分析,希望大家可以對搜索引擎有進(jìn)一步的了解,同時(shí)對我們常用的幾種搜索引擎進(jìn)行分類,并對搜索結(jié)果的排序方法進(jìn)行研究。 Performance parison 。搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。 搜索引擎的初顯(刷白什么意思??。┧阉饕鎻?1990 年原型初顯,進(jìn)過三十多年的發(fā)展,現(xiàn)在成為人們生活中必不可少的一部分,它經(jīng)歷了太多技術(shù)和觀念的變革。它是一個(gè)可搜索的 FTP 文件名列表,用戶必須輸入精確的文件名搜索,然后 Archie 會告訴用戶哪一個(gè) FTP 地址可以下載這個(gè)文件。人們紛紛使用各種方法將網(wǎng)絡(luò)上的信息搜集來,進(jìn)行分類、整2理,以方便查找。后來,1994 年 4 月,他們倆共同辦了雅虎。它實(shí)際上是一種電腦“機(jī)器人”(ComputerRobot),電腦“機(jī)器人”是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。第一個(gè)開發(fā)出“蜘蛛”程序的是 MatthewGray,他于 1993 年開發(fā)了 WorldWideWebWanderer,它最初建立時(shí)是為了統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,到后來發(fā)展到能夠捕獲網(wǎng)址。自此之后幾乎所有占據(jù)主導(dǎo)地位的搜索引擎中,都靠“蜘蛛”來搜集網(wǎng)頁信息。1995 年 12 月,它與 Netscape的戰(zhàn)略性協(xié)議,使它成為一個(gè)強(qiáng)勢搜索引擎:當(dāng)用戶點(diǎn)擊 Netscape 瀏覽器上的搜索按鈕時(shí),彈出 Infoseek 的搜索服務(wù),而此前由 Yahoo!提供該服務(wù)。它的成功在于滿足了用戶三個(gè)方面的需求:網(wǎng)上索引范圍超過了此前任何一家搜索引擎;短短幾秒鐘內(nèi)便可從龐大的數(shù)據(jù)庫中為用戶返回搜索結(jié)果;AltaVista 小組從一開始就采用了一種模塊設(shè)計(jì)技術(shù),能夠跟蹤網(wǎng)站的流行趨勢,同時(shí)不斷擴(kuò)大處理能力。Google 并不是搜索引擎的發(fā)明者,甚至有點(diǎn)落后,但是它卻讓人們愛上了搜索。即考察該頁面在網(wǎng)上被鏈接的頻率和重要性來排列,互聯(lián)網(wǎng)上指向這一頁面的重要網(wǎng)站越多,該頁面的位次也就越高。Google 以其復(fù)雜而全自動的搜索方法排除了任何人為因素對搜索結(jié)果的影響。Fast(Alltheweb)公司發(fā)布的搜索引擎 AllTheWeb,總部位于挪威,其在海外的風(fēng)頭直逼 Google。4第二章 常見的搜索引擎的原理和分類 搜索引擎的原理搜索引擎,應(yīng)該被定位成一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng),或者是一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。搜索引擎的主要工作流程是:首先從蜘蛛開始,蜘蛛程序每隔一定的時(shí)間自動啟動并讀取網(wǎng)頁URL服務(wù)器上的URL列表,按深度優(yōu)先或廣度優(yōu)先算法,抓取各URL所指定的網(wǎng)站,將抓取的網(wǎng)頁分配一個(gè)唯一文檔,存入文檔數(shù)據(jù)庫。查詢器首先對用戶輸入的信息進(jìn)行切詞處理,并檢索出所有包含檢索詞的記錄,通過計(jì)算網(wǎng)頁權(quán)重和級別對查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算,最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。   圖 121 全球著名全文搜索引擎 LOGO 目錄索引目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按6目錄分類的網(wǎng)站鏈接列表而已。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 其他除上述三大類引擎外,還有以下幾種非主流形式:(一)集合式搜索引擎:如 HotBot 在 2022 年底推出的引擎。 (四)垂直搜索引擎:有針對性的搜索引擎。該方法以一個(gè)關(guān)鍵詞與網(wǎng)頁的相關(guān)度大小作為排序標(biāo)準(zhǔn),而關(guān)鍵詞在網(wǎng)頁中的相關(guān)度則由它在網(wǎng)頁中出現(xiàn)的頻次和位置兩方面加權(quán)計(jì)算得出。許多搜索引擎都以索引項(xiàng)的詞頻和位置作為相關(guān)度的判定標(biāo)準(zhǔn),采用前述的詞頻加權(quán)方法來計(jì)算相關(guān)度。例如在網(wǎng)頁 title標(biāo)簽、鏈點(diǎn)標(biāo)簽、Meta keyword 標(biāo)簽、Meta description 標(biāo)簽中選詞并按詞頻計(jì)算權(quán)值時(shí),或索引項(xiàng)出現(xiàn)在網(wǎng)頁標(biāo)題、文章前幾段、段首等位置時(shí),其權(quán)值會加大。以詞頻和詞位置計(jì)算相關(guān)度的方法是較為客觀準(zhǔn)確的,它是應(yīng)用最為廣泛也是最成熟的方法,各大搜索引擎迄今仍以它作為計(jì)算相關(guān)度的基本方法。因此較易為人利用來實(shí)現(xiàn)不良競爭,輕易地把其網(wǎng)頁設(shè)計(jì)修改成“含有關(guān)鍵詞的網(wǎng)頁”,從而在搜索引擎結(jié)果中排在前面。用戶瀏覽返回的結(jié)果、查找自己需要的信息實(shí)際是一個(gè)過濾無用信息、進(jìn)行二次檢索的過程。由于相關(guān)度在不停地變化,對于同一個(gè)詞在不同的時(shí)間進(jìn)行檢索,得到結(jié)果集合的排序也就有可能不同,即 DirectHit 排序是一種動態(tài)排序。對此,Askjeeves 公司也采用相關(guān)的技術(shù)來屏蔽一些重復(fù)的點(diǎn)擊,從而保證排名的相對準(zhǔn)確性。9 PageRank 算法PageRank 算法是由 google 的創(chuàng)始人之一、斯坦福大學(xué)計(jì)算機(jī)系的 Lawrencepage博士等設(shè)計(jì)的一種對網(wǎng)頁進(jìn)行排序的算法。在 google 收集的網(wǎng)頁數(shù)據(jù)庫中,每一個(gè)網(wǎng)頁都有一個(gè)自己的 PageRank。 繼續(xù)假設(shè) B 也有鏈接到 C,并且 D 也有鏈接到包括 A 的3個(gè)頁面。 換句話說,根據(jù)鏈出總數(shù)平分一個(gè)頁面的 PR 值。Google 不斷的重復(fù)計(jì)算每個(gè)10頁面的 PageRank。   不足:人們的查詢具有主題特征,PageRank 忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank 有很嚴(yán)重的對新網(wǎng)頁的歧視。競價(jià)排名(payperclick)是指一些商業(yè)網(wǎng)站購買關(guān)鍵字排名,搜索引擎公司按照客戶點(diǎn)擊或者按照時(shí)間段對它們進(jìn)行收費(fèi)的一種服務(wù)。的服務(wù)費(fèi)高于 R,則 R 的排名將會后退。因此,他們愿意付出一定的代價(jià)來換取商機(jī)。作為 inter 第二大應(yīng)用項(xiàng)目的搜索引擎服務(wù),能夠獲取效益的一種手段就是在檢索結(jié)果時(shí)將一些付費(fèi)商業(yè)網(wǎng)站排名前面,為它們做廣告宣傳,自己則獲取廣告收人。另外搜索引擎本身也會做審查的過程,檢搜出來信息的質(zhì)量也得到了一定的保證。從用戶的角度來考慮,用戶追求的是搜索引擎的檢索效率,即在最短的時(shí)間內(nèi)找到他們最需要的結(jié)果。但各搜索引擎的數(shù)據(jù)庫規(guī)模,數(shù)據(jù)更新周期等均為其商業(yè)秘密,具有不可得性。據(jù)最新資料,google 所收網(wǎng)頁已達(dá) 50 億,收藏 15 億個(gè)網(wǎng)址,在同行中首屈一指。 檢搜結(jié)果 檢索結(jié)果的評價(jià)主要是查全率和查準(zhǔn)率。本次數(shù)據(jù)統(tǒng)計(jì)選用的五個(gè)關(guān)鍵詞為:A1:房地產(chǎn)市場,A2:電子商務(wù),A3:通貨膨脹,A4:打破壟斷,A5 :中國股票市場;第三,檢索結(jié)果與檢索詞的相關(guān)度分為三個(gè)等級,分別為 KK2 、K3(K1表示相關(guān)狀況較好,K2表示內(nèi)容部分相關(guān),K3表示內(nèi)容不相關(guān));第四,在每個(gè)具體的檢索數(shù)據(jù)欄里列出該檢索詞的檢索響應(yīng)時(shí)間。頁面的實(shí)用性主要體現(xiàn)于顯示的結(jié)果內(nèi)容和頁面友好性上,包括首頁中給用戶提示的幫助系統(tǒng),結(jié)果輸出頁中“網(wǎng)頁快照”和提供二次檢索的“在結(jié)果中搜索”及檢索結(jié)果的摘要等方面。這樣有兩個(gè)好處:第一,由于打開網(wǎng)站的負(fù)擔(dān)輕(鏈接少) ,用戶能迅速登錄;第二,網(wǎng)頁頁面簡潔,不會給用戶眼花繚亂的感覺,能讓用戶在最短的時(shí)間內(nèi)找到檢索入口。其他網(wǎng)站顯示內(nèi)容不全:搜狐檢索結(jié)果不顯示所搜索到的網(wǎng)址,而網(wǎng)易、新浪不顯示搜索響應(yīng)時(shí)間、搜狐只顯示標(biāo)題和摘要兩項(xiàng),網(wǎng)易只有標(biāo)題、摘要和網(wǎng)址三項(xiàng)。信息價(jià)值度較高,在百度前十條中,有七條有價(jià)值存在為百姓網(wǎng),58同城,慧聰網(wǎng),趕集,起點(diǎn)中文網(wǎng)做推廣百度搜索引擎擁有目前世界上最大的中文信息庫,總量達(dá)到6000萬頁以上,并且還在以每天幾十萬頁的速度快速增長。以及權(quán)威部門的解釋。由于 Google 的數(shù)據(jù)庫有很多來自 blog 網(wǎng)站,同時(shí)也有很多blogger 搜索Google,因此Google 很重視對 blog 網(wǎng)站資料的索引,搜18索結(jié)果中往往含有比其它網(wǎng)站更多的 blog信息雅虎 信息相關(guān)度較高,十條有九條是關(guān)于六度空間理論的。存在其他推廣廣告網(wǎng)易是中國主要的門戶網(wǎng)站,目前提供網(wǎng)絡(luò)游戲、電子郵件、新聞、博客、搜索引擎、論壇、虛擬社區(qū)等服務(wù)19搜狐搜狗信息相關(guān)性較高,查看了前十條搜索記錄,有八條都是關(guān)于此理論的,關(guān)于五度空間各百科,論壇,博客等資料。這就是六度空間理論,也叫小世界理論。20百度 價(jià)值度較高,有關(guān)于手機(jī)移動電視的各方面的信息,如資費(fèi)標(biāo)準(zhǔn),技術(shù)問題等等。谷歌價(jià)值度較高,有很多關(guān)于手機(jī)移動電視的咨詢、價(jià)格存在關(guān)鍵字廣告和廣告聯(lián)盟Google 是強(qiáng)大的搜索引擎,數(shù)據(jù)更新快,它有八個(gè)數(shù)據(jù)中心,每個(gè)月中下旬開始更新,同時(shí)它有強(qiáng)大的搜索功能,有32個(gè)欄目一應(yīng)俱全。網(wǎng)易有道價(jià)值度一般,10條信息中有6條相關(guān)的信息,但是里面的信息都是重復(fù)的,有的就是百度文庫里面的鏈接資料有推廣其他的廣告網(wǎng)易發(fā)展成有道,有道也是專門的搜索引擎的網(wǎng)站,但是里面的數(shù)據(jù)很多是別的地方連接的,沒有比較創(chuàng)新的信息出來搜狐搜狗價(jià)值含量一般,很多是重復(fù)的資料,搜索出來的也是大部分其它網(wǎng)站的鏈接資料有較大蝙蝠的其他廣告推廣,而且結(jié)構(gòu)還是比較繁亂的搜狐搜狗有50000種的主題分類,50萬的優(yōu)化網(wǎng)站,做為人工精選分類,有比較專業(yè)的分類搜索引擎服務(wù)新浪價(jià)值的含量較低,里面相關(guān)的資料都是跟其它網(wǎng)站里面鏈接過來的有很多醫(yī)藥等不相關(guān)的網(wǎng)站鏈接,而且頁面也比較混亂,找不到比較有價(jià)值的東西搜索引擎做的不是很專業(yè),主要還是做的是分類的搜索引擎,不過本身就有廣大的門戶信息資源,22還是有點(diǎn)相關(guān)的信息的手持移動電視市場手機(jī)移動電視的市場是非常巨大的,但由于未取得國家的市場準(zhǔn)入,所以現(xiàn)在還沒發(fā)展起來,就目前來講,手機(jī)移動電視與具有 CNNB 功能的 MP4數(shù)碼播放器之間有較激烈的競爭,并且還有山寨版的手機(jī)與品牌手機(jī)之間的對抗,這一切都使得手機(jī)移動電視市場競爭很激烈。有比較成熟的市場運(yùn)作模式,賺錢的渠道也比較多,是國內(nèi)最成功的關(guān)鍵詞競價(jià)排名運(yùn)營商石家莊軟件代理公司谷歌信息價(jià)值含量一般,搜到了5條相關(guān)的信息,其中有兩條相關(guān)的信息存在關(guān)鍵字廣告和廣告聯(lián)盟是信息量最全的搜索引擎,全球占有量排名第一,不過因?yàn)槲幕牟町?,在關(guān)鍵次23搜索做的不如百度,但仍然在中國占有很大
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1