freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

幾種常見的搜索引擎的性能比較與分析2(完整版)

2025-08-02 02:09上一頁面

下一頁面
  

【正文】 自己的排名。其算法基本思想如下搜索引擎將查詢的結(jié)果返回給用戶,DirectHit 開始跟蹤用戶在該搜索引擎檢索結(jié)果的點擊如果返回結(jié)果中排名靠前的網(wǎng)頁被用戶點擊后,瀏覽時間較短,用戶又重新返回搜索引擎擊其他的檢索結(jié)果,那么可以認(rèn)為其相關(guān)度較差,系統(tǒng)將降低該網(wǎng)頁的相關(guān)性另一方面,如果網(wǎng)頁被用戶點擊打開進行瀏覽,并且用戶在該網(wǎng)頁瀏覽的時間較長,那么該網(wǎng)頁的受歡程度就高,相應(yīng)的,系統(tǒng)就會增加該網(wǎng)頁的相關(guān)度。該算法過于依賴詞的重要性,而忽視了絡(luò)信息的另一個特點,即網(wǎng)絡(luò)信息內(nèi)容的質(zhì)量無法得到保證。除詞頻外,一個詞在文檔中的位置也對索引器選詞和計算詞的權(quán)值產(chǎn)生影響。第三章 常見的搜索引擎的結(jié)果排序方法 詞頻位置加權(quán)排序算法7 詞頻位置加權(quán)排序算法是一種只從關(guān)鍵詞出現(xiàn)次數(shù)和位置考慮進行排序的方法,它是計算機情報檢索中最基礎(chǔ)的排序算法。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如 Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如 Vivisimo。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。網(wǎng)頁搜集主要負責(zé)網(wǎng)頁的抓取,由 URL 服務(wù)器、爬行器、存儲器、分析器和 URL解析器組成,爬行器是該部分的核心;網(wǎng)頁預(yù)處理主要負責(zé)對網(wǎng)頁內(nèi)容進行分析,對文檔進行標(biāo)引并存儲到數(shù)據(jù)庫里,由標(biāo)引器和分類器組成,該模塊涉及許多文件和數(shù)據(jù),有關(guān)于桶的操作是該部分的核心;查詢服務(wù)主要負責(zé)分析用戶輸入的檢索表達式,匹配相關(guān)文檔,把檢索結(jié)果返回給用戶,由查詢器和網(wǎng)頁級別評定器組成,其中網(wǎng)頁等級的計算是該部分的核心。其他眾多搜索引擎也都緊跟 Google,推出這些服務(wù)。佩奇和布林發(fā)明了“網(wǎng)頁級別”(PageRank)技術(shù),來排列搜索結(jié)果。正式公開之前,AltaVista 就已經(jīng)擁有 20 萬訪問3用戶,在短短三個星期之內(nèi),到訪人數(shù)由每天 30 萬次增加到 200 萬次。引入“蜘蛛”后給其帶來的最大優(yōu)勢就在于其遠勝于其它搜索引擎的數(shù)據(jù)量。 搜索引擎的發(fā)展 當(dāng)“蜘蛛”程序出現(xiàn)時,現(xiàn)代意義上的搜索引擎才初顯端倪。當(dāng)萬維網(wǎng)(WorldWideWeb)出現(xiàn)以后,人們可以通過 html 傳播網(wǎng)頁信息,網(wǎng)絡(luò)上的信息開始成倍增長??偠灾阉饕娓淖兞巳藗兊纳?,給人們的生活工作學(xué)習(xí)帶來了巨大的幫助。 Sorting method 。 本文主要是對搜索引擎的初顯、發(fā)展做大概的敘述,對搜索引擎的技術(shù)原理、工作的原理、系統(tǒng)構(gòu)架等做簡單分析,希望大家可以對搜索引擎有進一步的了解,同時對我們常用的幾種搜索引擎進行分類,并對搜索結(jié)果的排序方法進行研究。搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。它是一個可搜索的 FTP 文件名列表,用戶必須輸入精確的文件名搜索,然后 Archie 會告訴用戶哪一個 FTP 地址可以下載這個文件。后來,1994 年 4 月,他們倆共同辦了雅虎。第一個開發(fā)出“蜘蛛”程序的是 MatthewGray,他于 1993 年開發(fā)了 WorldWideWebWanderer,它最初建立時是為了統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,到后來發(fā)展到能夠捕獲網(wǎng)址。1995 年 12 月,它與 Netscape的戰(zhàn)略性協(xié)議,使它成為一個強勢搜索引擎:當(dāng)用戶點擊 Netscape 瀏覽器上的搜索按鈕時,彈出 Infoseek 的搜索服務(wù),而此前由 Yahoo!提供該服務(wù)。Google 并不是搜索引擎的發(fā)明者,甚至有點落后,但是它卻讓人們愛上了搜索。Google 以其復(fù)雜而全自動的搜索方法排除了任何人為因素對搜索結(jié)果的影響。4第二章 常見的搜索引擎的原理和分類 搜索引擎的原理搜索引擎,應(yīng)該被定位成一個計算機應(yīng)用軟件系統(tǒng),或者是一個網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。查詢器首先對用戶輸入的信息進行切詞處理,并檢索出所有包含檢索詞的記錄,通過計算網(wǎng)頁權(quán)重和級別對查詢記錄進行排序并進行集合運算,最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 (四)垂直搜索引擎:有針對性的搜索引擎。許多搜索引擎都以索引項的詞頻和位置作為相關(guān)度的判定標(biāo)準(zhǔn),采用前述的詞頻加權(quán)方法來計算相關(guān)度。以詞頻和詞位置計算相關(guān)度的方法是較為客觀準(zhǔn)確的,它是應(yīng)用最為廣泛也是最成熟的方法,各大搜索引擎迄今仍以它作為計算相關(guān)度的基本方法。用戶瀏覽返回的結(jié)果、查找自己需要的信息實際是一個過濾無用信息、進行二次檢索的過程。對此,Askjeeves 公司也采用相關(guān)的技術(shù)來屏蔽一些重復(fù)的點擊,從而保證排名的相對準(zhǔn)確性。在 google 收集的網(wǎng)頁數(shù)據(jù)庫中,每一個網(wǎng)頁都有一個自己的 PageRank。 換句話說,根據(jù)鏈出總數(shù)平分一個頁面的 PR 值。   不足:人們的查詢具有主題特征,PageRank 忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank 有很嚴(yán)重的對新網(wǎng)頁的歧視。的服務(wù)費高于 R,則 R 的排名將會后退。作為 inter 第二大應(yīng)用項目的搜索引擎服務(wù),能夠獲取效益的一種手段就是在檢索結(jié)果時將一些付費商業(yè)網(wǎng)站排名前面,為它們做廣告宣傳,自己則獲取廣告收人。從用戶的角度來考慮,用戶追求的是搜索引擎的檢索效率,即在最短的時間內(nèi)找到他們最需要的結(jié)果。據(jù)最新資料,google 所收網(wǎng)頁已達 50 億,收藏 15 億個網(wǎng)址,在同行中首屈一指。本次數(shù)據(jù)統(tǒng)計選用的五個關(guān)鍵詞為:A1:房地產(chǎn)市場,A2:電子商務(wù),A3:通貨膨脹,A4:打破壟斷,A5 :中國股票市場;第三,檢索結(jié)果與檢索詞的相關(guān)度分為三個等級,分別為 KK2 、K3(K1表示相關(guān)狀況較好,K2表示內(nèi)容部分相關(guān),K3表示內(nèi)容不相關(guān));第四,在每個具體的檢索數(shù)據(jù)欄里列出該檢索詞的檢索響應(yīng)時間。這樣有兩個好處:第一,由于打開網(wǎng)站的負擔(dān)輕(鏈接少) ,用戶能迅速登錄;第二,網(wǎng)頁頁面簡潔,不會給用戶眼花繚亂的感覺,能讓用戶在最短的時間內(nèi)找到檢索入口。信息價值度較高,在百度前十條中,有七條有價值存在為百姓網(wǎng),58同城,慧聰網(wǎng),趕集,起點中文網(wǎng)做推廣百度搜索引擎擁有目前世界上最大的中文信息庫,總量達到6000萬頁以上,并且還在以每天幾十萬頁的速度快速增長。由于 Google 的數(shù)據(jù)庫有很多來自 blog 網(wǎng)站,同時也有很多blogger 搜索Google,因此Google 很重視對 blog 網(wǎng)站資料的索引,搜18索結(jié)果中往往含有比其它網(wǎng)站更多的 blog信息雅虎 信息相關(guān)度較高,十條有九條是關(guān)于六度空間理論的。這就是六度空間理論,也叫小世界理論。谷歌價值度較高,有很多關(guān)于手機移動電視的咨詢、價格存在關(guān)鍵字廣告和廣告聯(lián)盟Google 是強大的搜索引擎,數(shù)據(jù)更新快,它有八個數(shù)據(jù)中心,每個月中下旬開始更新,同時它有強大的搜索功能,有32個欄目一應(yīng)俱全。有比較成熟的市場運作模式,賺錢的渠道也比較多,是國內(nèi)最成功的關(guān)鍵詞競價排名運營商石家莊軟件代理公司谷歌信息價值含量一般,搜到了5條相關(guān)的信息,其中有兩條相關(guān)的信息存在關(guān)鍵字廣告和廣告聯(lián)盟是信息量最全的搜索引擎,全球占有量排名第一,不過因為文化的差異,在關(guān)鍵次23搜索做的不如百度,但仍然在中國占有很大的一塊市場雅虎信息沒什么價值,搜到的信息基本上是重復(fù)的,只有一條相關(guān)的信息存在花了很大篇幅來論述并推廣它的廣告。加上互聯(lián)網(wǎng)我相信我們的地球真的可以成為地球村。4石家莊的軟件代理公司主要是做 ERP 軟件代理和 OA 的軟件代理,主要有做金蝶軟件,用友軟件,管家婆軟件,速達軟件為主。搜狐搜狗價值含量一般,前10條中有5條相關(guān)信息,其中2條重復(fù),一條沒用,3條有價值的信息有較多的商業(yè)推廣信息,本來的信息庫存儲不是非常廣大搜狗有10億的網(wǎng)頁,每個詞平均查找低于,但是里面的很多鏈接都是從百度里面鏈接過來的24新浪有兩條沒有太大相關(guān)的信息有做其他的商業(yè)廣告的推廣,這些資料跟查找的資料相關(guān)度不是很高以新聞、游戲、搜索引擎、網(wǎng)上購物、郵箱、微博、企業(yè)的電子解決方案等一系列服務(wù)的門戶網(wǎng)站石家莊軟件代理公司石家莊鴻圖科技有限公司,用友軟件代理 。存在花了很大篇幅來論述并推廣它的廣告。六度雖然是個社會學(xué)的理論,但是實際上它更像一個數(shù)學(xué)理論,很多人說六度和四色問題有異曲同工之妙。存在花了很大篇幅來論述并推廣它的廣告。谷歌 信息相關(guān)性高,查看了前十條搜索記錄,除了一條死鏈接,其他都是與之相關(guān)并且很有價值的信息。 google 和百度檢索結(jié)果輸出界面具有很強的實用性。搜索引擎界面的美觀性主要表現(xiàn)在簡潔上, “實用”則體現(xiàn)在界面所提供的功能、內(nèi)容等方面。而上述三大門戶網(wǎng)站則側(cè)重于收藏網(wǎng)站,并把收藏網(wǎng)站作為一種商業(yè)行為,即對所收網(wǎng)站進行收費,否則不予收藏。結(jié)合以上兩種指標(biāo)體系,以上述檢索效率的影響因素為依據(jù),我們以數(shù)據(jù)庫、檢索結(jié)果和用戶界面作為搜索引擎檢索性能的評價標(biāo)準(zhǔn)。上述從需求和供求兩方面的結(jié)合,就誕生了競價排名這個檢搜結(jié)果排序方式。筆者認(rèn)為,競價排名主要在以下兩個方面出現(xiàn),一方面,從商業(yè)網(wǎng)站來說,上文已經(jīng)說過,搜索引擎每次檢索反饋的結(jié)果集合太大太多,需分很多頁來顯示,而大部分用戶都不愿意瀏覽第 3 頁以后的信息,因此導(dǎo)致一些排名靠后的網(wǎng)頁根本就沒有機會被瀏覽。這種方法開始于原來的 overtune 公司,該公司目前已經(jīng)為這項服務(wù)申請了專利。由于下面的算法,沒有頁面的PageRank 會是 0。PageRank 的計算公式如下: 假設(shè)一個由 4 個頁面組成的小團體:A ,B,C 和 D。同時分類目錄進行排序時是各搜索引擎編輯者已經(jīng)排好的,與之相比,該算法又稱為用戶控制排序算法,而分類目錄的排序則稱為編制控制排序算法。DirectHit 算法就是一種按照上述用戶的反饋結(jié)果進行排序的技術(shù)。該方法的缺點也很明顯,雖然詞的頻次和位置是決定排序結(jié)果的要素,但并不是唯一要素。在與查詢詞匹配時,它所代表的文檔與查詢請求的相關(guān)度就越高。通用搜索引擎的弊端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來,搜索越來越難以控制,用戶需求和市場服務(wù)間的巨大反差產(chǎn)生了強大的“搜索噪音” ,垂直搜索引擎的應(yīng)運而生,成為搜索引擎發(fā)展史上的一塊里程碑。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo 等,中文元搜索引擎中具代表性的有搜星搜索引擎。 全文搜索引擎全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1