freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎排序算法的分析與研究碩士學(xué)位論文(編輯修改稿)

2024-07-25 15:17 本頁面
 

【文章內(nèi)容簡介】 現(xiàn)技術(shù) ..........................................................................................................41 利用社區(qū)發(fā)現(xiàn)技術(shù)改進(jìn)排序算法的過程 ..........................................................................42 算法總結(jié) ..............................................................................................................................44 實(shí)驗(yàn)過程 .......................................................................................................................................45 實(shí)驗(yàn)環(huán)境 ..............................................................................................................................45 過程描述 ..............................................................................................................................46 實(shí)驗(yàn)結(jié)果 ..............................................................................................................................46 實(shí)驗(yàn)評(píng)價(jià) ..............................................................................................................................48  結(jié)果分析 ....................................................................................................................................50  本章小結(jié) ....................................................................................................................................50第五章 工作總結(jié)與展望 .......................................................................................................................51 工作總結(jié) .......................................................................................................................................51 展望 ...............................................................................................................................................51致 謝 .......................................................................................................................................................53參考文獻(xiàn) .................................................................................................................................................54攻讀碩士期間發(fā)表論文和參加科研情況 .............................................................................................58一、發(fā)表的論文 .................................................................................................................................58二、參加的科研項(xiàng)目 .........................................................................................................................58緒 論1第一章 緒論本章首先介紹了本課題的研究背景和意義,其次論述了搜索引擎的發(fā)展及其未來,以及搜索引擎排序算法發(fā)展過程以及存在的問題,最后對(duì)本文的工作安排和論文結(jié)構(gòu)做了詳細(xì)的說明。 研究背景和意義隨著信息技術(shù)的進(jìn)步,互聯(lián)網(wǎng)作為信息的載體得到了飛速的發(fā)展,成為人們學(xué)習(xí)、工作、生活中獲取知識(shí)和信息的主要來源。根據(jù)美國因特網(wǎng)監(jiān)測(cè)公司“網(wǎng)器 ( Netcraft ) ” 28 日宣布 [1],截止 2 月底,全球互聯(lián)網(wǎng)網(wǎng)站數(shù)量超過 億,較一個(gè)月前增加了 450 萬,達(dá) 162662053。據(jù)國外權(quán)威通訊社報(bào)道,網(wǎng)站數(shù)量在 2022 年增加了 1700 萬,在 2022 年增加了 2740 萬。美國、德國、中國、韓國和日本的網(wǎng)站發(fā)展速度最快。過去兩年間,博客及網(wǎng)上購物的興起和創(chuàng)建網(wǎng)站操作的簡單化等因素結(jié)合在一起,使得網(wǎng)站數(shù)量猛增?,F(xiàn)有搜索引擎給人們帶來了很多方便的同時(shí),也逐漸暴露了自身的一些問題,這些弊端主要表現(xiàn)在以下方面:1) 網(wǎng)絡(luò)信息量過于龐大,網(wǎng)絡(luò)錯(cuò)綜復(fù)雜,沒有特定的網(wǎng)絡(luò)模型,描述不便。2) 檢索結(jié)果信息過多,有用信息不全。3) 檢索結(jié)果缺乏個(gè)性化,不能滿足不同用戶的需求。4) 不同國家的搜索引擎差別較大,對(duì)不同語言的適應(yīng)性較差。5) 多媒體信息檢索還不完善。6) 網(wǎng)頁的更新速度遠(yuǎn)遠(yuǎn)快于索引數(shù)據(jù)庫的更新。7) 垃圾網(wǎng)頁過多,許多虛假廣告、不健康信息、錯(cuò)誤信息充斥互聯(lián)網(wǎng)。8) 廣告的比例較大,干擾正常的瀏覽。如何快速準(zhǔn)確的查找用戶所需的信息成為互聯(lián)網(wǎng)急需解決的問題,這就為搜索引擎技術(shù)的發(fā)展提供了土壤?,F(xiàn)有的排序算法有很多,如 PageRank 算法 [2]、HillTop 算法 [3]、Direct Hit 算法 [4]等,但是沒有一個(gè)是完美無缺的。本文在介紹搜索引擎及其相關(guān)技術(shù)的基礎(chǔ)上,結(jié)合已有的排序算法,提出了自己的解決思路,以改善搜索引擎排序算法的質(zhì)量,使用戶能夠快速準(zhǔn)確的找到所需信息,同時(shí)也為以后排序算法的研究提供一個(gè)有價(jià)值的參考。緒 論2本文是在上海市教委科研項(xiàng)目“基于統(tǒng)計(jì)學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)研究” (項(xiàng)目編號(hào):06FZ007 )的支持下,開展搜索引擎排序算法的分析與研究。 搜索引擎的發(fā)展歷史搜索引擎是用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。下面將介紹搜索引擎的發(fā)展歷程。 搜索引擎的起源簡單地說,搜索引擎起源于傳統(tǒng)的信息全文檢索理論 [5],即計(jì)算機(jī)程序通過掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的排序文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對(duì)包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果。在早期的時(shí)候,互聯(lián)網(wǎng)上面的搜索引擎和今天人們常用的搜索引擎有所不同,早期的搜索引擎更像是如今很多中文的“ICP(Inter Content Provider)”網(wǎng)站,把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源類型的不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候,因?yàn)槿绻畔⒁坏┒嗥饋?,查找的時(shí)候所花費(fèi)的時(shí)間就很長了。1990 年,互聯(lián)網(wǎng)還沒有得到全面的推廣,但是,通過網(wǎng)絡(luò)傳輸文件已經(jīng)比較普遍,真正意義上的搜索引擎是 1994 年創(chuàng)立的 Lycos(他由 Michael Mauldin 將 John Leavitt 的 Spider 程序 [6]接入其索引程序中產(chǎn)生的?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還要有所謂的“蜘蛛”(Spider) 系統(tǒng) [7],即能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的數(shù)據(jù)搜集系統(tǒng)?!爸┲搿毕到y(tǒng)是 John Leavitt 開發(fā)的,并且由 Michael Mauldin 將這個(gè)系統(tǒng)融合到了 Lycos搜索引擎里面去,它能夠?qū)⑺鸭玫木W(wǎng)頁內(nèi)容交給索引和檢索系統(tǒng)處理,就形成了現(xiàn)在常見的互聯(lián)網(wǎng)搜索引擎系統(tǒng)。當(dāng)然,一個(gè)完整的搜索引擎系統(tǒng)還需要有一個(gè)檢索結(jié)果的頁面生成系統(tǒng),也就是要把檢索結(jié)果高效地組裝成萬維網(wǎng)頁面。概括起來說搜索引擎是為查詢而生的,用戶需求的不斷更新、發(fā)展是搜索緒 論3引擎技術(shù)不斷進(jìn)步的動(dòng)力。 搜索引擎的現(xiàn)狀經(jīng)過了多年的發(fā)展,現(xiàn)在的搜索引擎功能越來越強(qiáng)大,提供的服務(wù)也越來越全面,當(dāng)你登錄某一個(gè)網(wǎng)站,在互聯(lián)網(wǎng)上搜索各個(gè)網(wǎng)站的某一類內(nèi)容,比如,輸入“豬流感 ”,希望得到最新、最全面的信息,你需要等待多長時(shí)間?幾年前,人們希望十幾秒,最多 30 秒鐘就能得到結(jié)果,而現(xiàn)在的期望值是 1~2 秒,也就是說,伴隨點(diǎn)擊鼠標(biāo)的“咔噠”一聲,顯示屏的頁面已經(jīng)變了,排在最前面的十幾、二十條信息的標(biāo)題已經(jīng)出現(xiàn)在你的面前。除了速度的不斷提升之外,搜索引擎目前的特點(diǎn)可概括為以下幾個(gè)方面:1) 目錄型和檢索型的搜索引擎相互結(jié)合 [8]由于目錄型和檢索型的搜索引擎有各自的優(yōu)點(diǎn)和缺點(diǎn),目前它們誰也無法完全取代誰,于是很多搜索站點(diǎn)都同時(shí)提供這兩種類型的服務(wù)。例如 Yahoo 是目錄型搜索引擎的代表,但同時(shí)它也提供基于關(guān)鍵詞的檢索服務(wù);而 Infoseek則主要是一個(gè)檢索型的搜索引擎,但它同時(shí)也建立了一個(gè)由人工編輯的小型目錄。2) 多樣化和個(gè)性化的服務(wù) 絕大多數(shù)搜索引擎現(xiàn)在都提供多樣化的服務(wù),以吸引更多的用戶,商業(yè)搜索引擎尤其注重這一點(diǎn)。以 Sohu 為例,用戶可以從它的首頁上查看新聞、理財(cái)信息、公共交通、瀏覽黃頁,可以進(jìn)行網(wǎng)上購物、交易、交友,或者使用免費(fèi)EMail 和網(wǎng)上聊天等服務(wù)。近期許多搜索引擎已開始提供個(gè)性化的服務(wù),例如Yahoo 的“My Yahoo”、Infoseek [9]的“Personalized start page”、Lycos 的“My Lycos”等,它們?cè)试S用戶為自己定制起始頁面,并選擇感興趣的內(nèi)容和經(jīng)常使用的服務(wù)放在該頁面上。3) 強(qiáng)大的查詢功能與最早的搜索引擎相比,現(xiàn)在的搜索引攀在查詢功能方面己經(jīng)有了很大的改進(jìn)。除了簡單的 AND、OR 和 NOT 邏輯外,不少搜索引擎還支持相似查詢,例如 AltaVista、Northern light、Lycos 等支持短語查詢,AltaVista 的高級(jí)搜索功能支持 NEAR 邏輯等。域搜索也是一項(xiàng)很實(shí)用的功能,它允許用戶把查詢范圍限制在網(wǎng)頁的某個(gè)域中,例如標(biāo)題、URL、圖像標(biāo)記或鏈接等,AltaVista、Northern light、Infoseek 和百度等搜索引擎都支持對(duì)網(wǎng)頁的不同域進(jìn)行搜索。緒 論4但是在搜索引擎快速發(fā)展的同時(shí),其自身也存在著一些問題:1) 提供的查詢方式相當(dāng)有限,與用戶的交互性差,信息檢索質(zhì)量不高。2) 僅支持單個(gè)關(guān)鍵詞或者一組關(guān)鍵詞及其邏輯運(yùn)算符組成的查詢,而并不支持自然語言搜索或語義搜索。3) 不能利用歷史信息進(jìn)行搜索。用戶的每次搜索都是從頭開始,而不是從原有的查詢結(jié)果中作進(jìn)一步選擇。4) 呈現(xiàn)方式單一、呆板。多數(shù)搜索引擎只返回一個(gè)長長的搜索結(jié)果列表,其中可能有數(shù)以萬計(jì)的包含關(guān)鍵詞的網(wǎng)頁,但這些網(wǎng)頁是否以及在多大程度上與用戶的搜索意圖相關(guān),則不得而知。 搜索引擎的未來 互聯(lián)網(wǎng)信息的快速發(fā)展促進(jìn)了搜索引擎技術(shù)的不斷進(jìn)步,呈現(xiàn)出一個(gè)喜人的應(yīng)用前景,未來的搜索引擎不僅要滿足用戶簡單的查詢需求,更要能動(dòng)態(tài)的適應(yīng)信息和用戶不斷改變所帶來的更高的要求,搜索引擎以后的發(fā)展將致力于以下幾個(gè)方面:1) 十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性用戶在搜索引擎上進(jìn)行信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型,使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1