freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[農(nóng)學]搜索引擎技術(shù)基礎(chǔ)-在線瀏覽

2024-12-05 22:39本頁面
  

【正文】 說:圖片抓取出來后,要知道圖片文件類型、圖片文件的大小、圖片的像素大小,還要轉(zhuǎn)換出來縮略圖。 :對于一些動態(tài)網(wǎng)頁或小網(wǎng)站,采取廣度策略抓取,同時對多個網(wǎng)站進行抓取,減小對各個小網(wǎng)站的壓力,避免造成惡意攻擊。另外還可以完全由被抓取方,提供詳細內(nèi)容,抓取過程都可以省略一些步驟。這對于計算機去做機器分析,就帶來了巨大的困難。 比如說: 「乒乓球拍賣完了」 我去學校 商店 ,發(fā)現(xiàn)「乒乓 球拍 賣 完 了」 在今天的 慈善拍賣會 上,世界冠軍們奪冠時的「乒乓球 拍賣 完 了」 中文分詞,在具體的算法實現(xiàn)上分為三種: (正序、逆序、最少切分、最大切分等 ) (詞法,句法等方式處理) 在中文搜索引擎中,目前基本上是這三種算法混合使用。 三、中文分詞和排序算法介紹 (一 )中文分詞: 語言本身也是在不停的進化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。 “超級女聲”、“超女”、“李宇春”、“八榮八恥”、“非典”,當這些新詞的出現(xiàn)時,搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。新詞捕捉主要來源于新聞和網(wǎng)絡(luò) BBS論壇,主要機制是依靠統(tǒng)計程序,統(tǒng)計上升速度最高的詞。 三、中文分詞和排序算法介紹 (二 ) 排序算法: 搜索引擎的排序算法( ranking algorithm),決定了各個網(wǎng)頁、圖片、 MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。 “ PageRank”是 Google公司在排序算法上的專利技術(shù),也是 Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù),作為其搜索服務(wù)能夠超過其他競爭對手最有力的武器。另外,每個搜索引擎公司也必須不停地改進其 排序 算法。為此,搜索引擎排序算法一項重要改進:“聚類”,就被引進來提高排序效果。針對每一種分類,各自有一套專用的排序算法。 三、中文分詞和排序算法介紹 (二 )排序算法: 排序算法是決定了各個網(wǎng)頁的排序,但是對于一些特殊情況,也需要“人工干預(yù)”,畢竟一個通用算法并不能解決所有問題。在Google的搜索結(jié)果中,第一個就是“北京理工大學”,但在“北京理工大學”網(wǎng)頁中根本找不到“北理”兩個字。 “人工干預(yù)”是排序算法,非常重要的一個補充,大大改進了搜索結(jié)果。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? PageRank 技術(shù)是 Google 檢索結(jié)果的一種排序算法 , 中文通常譯為頁面級別或頁面等級 , 根據(jù)這個算法 , Google 認為每個網(wǎng)頁都有一個反映其重要性的值 , 值越高表明其頁面級別越高 , 即網(wǎng)頁越重要 。 Google 根據(jù)網(wǎng)頁被鏈接的數(shù)量來評定其重要性。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? 事實上 , 在實際計算網(wǎng)頁的 PageRank 值時 , Google 還考慮到網(wǎng)頁 A 的所有鏈入網(wǎng)頁 (鏈接到某網(wǎng)頁的其它網(wǎng)頁稱為該網(wǎng)頁的鏈入網(wǎng)頁 ) 對它的推薦能力 (即由于它們對網(wǎng)頁 A的鏈接 , 使人們認為網(wǎng)頁 A 的重要程度 ) 和推薦程度 (即它們認為網(wǎng)頁 A 的重要程度 )。 一個網(wǎng)頁的鏈出網(wǎng)頁越少 , 那么它對其中一個鏈出網(wǎng)頁的推薦程度就越高。 ? T1, T2, ., Tn 是網(wǎng)頁 A 的鏈入網(wǎng)頁 。 ? C (T i) 是指網(wǎng)頁 T i 的鏈出網(wǎng)頁的數(shù)量 ( i= 1, 2, .n) 。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? 可見 , 一個網(wǎng)頁的 PageRank 值 , 主要取決于以下三個因素 : ? (1) 該網(wǎng)頁的鏈入數(shù)量 。 ? (3) 該網(wǎng)頁的鏈入網(wǎng)頁本身的鏈出數(shù)量。 ? (二 )排序算法: ? GOOGLE的超文本匹配分析技術(shù) (Hypertext Matching Analysis) 不僅僅關(guān)注關(guān)鍵詞在網(wǎng)頁上出現(xiàn)的次數(shù) , 它還對該網(wǎng)頁的內(nèi)容加以分析,如分析關(guān)鍵詞的字體、字號以及關(guān)鍵
點擊復(fù)制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1