freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計算機學(xué)科新技術(shù)論文學(xué)科新技術(shù)之信息化檢索與搜索引擎初探-資料下載頁

2025-06-04 15:01本頁面
  

【正文】 倒排列表之外 ,許多文本索引還保存語匯信息。語匯信息列出所有在倒排索引中出現(xiàn)的詞及其統(tǒng)計信息 ,例如 ,某個詞在頁面集中出現(xiàn)的次數(shù)。這些統(tǒng)計信息同樣也被評估算法使用。由于 Web的數(shù)據(jù)規(guī)模龐大 ,為 Web建立倒排索引是一個極具挑戰(zhàn)性的工作。一般地 ,建立倒排索引首先需要按詞排序 ,然后再按詞位置排序 ,最后將這些信息保存到磁盤中。對于小規(guī)模的數(shù)據(jù)集 ,例如 ,傳統(tǒng)的信息檢 (IR)系統(tǒng) ,建立索引的時間可以忽略不計。但是對于 Web上的中大規(guī)模數(shù)據(jù)集 ,這種簡單的建立索引的方案不可操作 ,需要耗費很大的資源及時間。例如 ,WebBase存儲了 4百萬的頁面 ,只占可索引 Web信息總量的 4%,但這已經(jīng)比最大的 IR測試數(shù)據(jù)集 TREC7(100GB)大了許多。此外 ,由于 Web內(nèi)容不斷變化 ,需要定時地對索引進行更新 ,以便保持數(shù)據(jù)的 ? 新鮮 ? 程度。 這樣 ,也需要不斷地重建索引。通常的增量式索引更新方法對于 Web的情況不適用 ,因為通常相鄰時間采集的 2 個頁面集合差別很大。倒排索引的存儲格式必須仔細考慮。有效的壓縮方法對索引訪問性能的影響很大 , 因為在內(nèi)存中同時可以保存更多的索引條目。此時 , 必須對性能上的收益與解壓縮的代價進行權(quán)衡。 五、搜索引擎工作原理 全文搜索引擎的 “ 網(wǎng)絡(luò)機器人 ” 或 “ 網(wǎng)絡(luò)蜘蛛 ” 是一種網(wǎng)絡(luò)上的軟件,它遍歷 Web 空間,能夠掃描一定 IP 地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有學(xué)科新技術(shù)之信息化檢索與搜索引擎初探 9 其它程序進行分析,根據(jù)一定的相關(guān)度算法進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時,搜索結(jié)果也就不盡相同。 和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集 、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責(zé)收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內(nèi)容,并將該站點放在相應(yīng)的類別和目錄中。所有這些收錄的站點同樣被存放在一個 “ 索引數(shù)據(jù)庫 ” 中。用戶在查詢信息時,可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。 需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的 URL 地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個網(wǎng)站的詳細地址,一般還會提供各個網(wǎng)站的內(nèi)容簡介,用戶不使用 關(guān)鍵詞也可進行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站 。 參考文獻: 《 搜索引擎的體系結(jié)構(gòu)與索引技術(shù)探析 》 王改香 《搜索引擎的類型及應(yīng)用》 孫桂榮 《 搜索引擎的優(yōu)劣勢比較 贏璟網(wǎng)絡(luò)分析 》 另外還參考了 其它文獻和 百度百科 相關(guān)知識 。
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1