【正文】
ord怎樣找到相關(guān)的網(wǎng)頁? (信息檢索 ) 39 Google ? Google ? Larry Page and Sergey Brin @Standford ? Spams kill the search engine, so… ? 2022年索引 80 Billions網(wǎng)頁,每日查詢 1Billion! ? 核心技術(shù) ? 基于鏈接分析的排序技術(shù): pagerank ? 基于搜索的廣告: AdWords , AdSense ? 海量數(shù)據(jù)處理基礎(chǔ)設(shè)施: tens of thousands of pcs 40 Future of the Search ? Is Google perfect? ? 搜索數(shù)據(jù)資源種類不斷增加 Search Everywhere ? Mp3,pictures,bbs,forum,literature,blog… ? 本地化、個(gè)性化 Local amp。 Personal ? Clickstream! ? Y!Q ? 面向特定領(lǐng)域的垂直搜索 ? 酷訊 , 愛幫 , (信息提取 ) ? 結(jié)果可視化 ? Vivisimo, (結(jié)果聚類 ) ? Question Answer ? 百度知道 , IBM WebFountain, WebDigest ? …… ???? 41 More than search? ? Query Like this: ? “Give me all the documents on the web that have at least one page of content in Arabic, are located in the Midwest, and are connected to at least two similar documents but are not connected to the official Al Jazeera Web site, and mention anyone ion a specified list of suspected terrorists” 42 Web數(shù)據(jù)挖掘 ? 海量數(shù)據(jù)上,我們能做什么? ? 網(wǎng)上出現(xiàn)次數(shù)最多的 100個(gè)人是哪些 . ? 哪個(gè)網(wǎng)站最先報(bào)道了禽流感消息 . ? 對于吉林石化的爆炸事件,不同的省份分別有哪些報(bào)道 . ? 關(guān)于超女現(xiàn)象,給出網(wǎng)上報(bào)道的一個(gè)綜述 . 43 教材和參考材料 ? Modern Information Retrieval. Ricardo BaezaYates, Berthier RibieroNeto and Berthier RibeiroNeto. AddisonWesley. ? 現(xiàn)代信息檢索 王知津 賈福新 鄭紅軍等譯 機(jī)械工業(yè)出版社 44 ? 搜索引擎原理、技術(shù)與系統(tǒng) 李曉明 , 閆宏飛 , 王繼民 . 科學(xué)出版社 . (電子版 ) ? 搜索引擎與信息檢索教程 袁津生等編著 水利水電出版社 45 課程的要求 ? 背景知識要求 ? 高等數(shù)學(xué),線性代數(shù),概率論和統(tǒng)計(jì) ? 熟練的程序設(shè)計(jì)( C, Java), Web知識 (瀏覽器,HTML, HTTP等),最好有一定的 Web編程經(jīng)驗(yàn) ? 成績構(gòu)成 ? 實(shí)驗(yàn)(實(shí)驗(yàn)報(bào)告),作業(yè),出勤等 20% ? 期末考試, 80% 46 小結(jié) ? Web,改變著人們生活和工作的方式,它也是一個(gè)廣袤、深邃、生機(jī)勃勃的研究對象 ? 面對 Web信息過載問題的挑戰(zhàn),人們在研究和嘗試各種方法和技術(shù),我們一起通過 Web信息檢索技術(shù)這門課程來認(rèn)識這一活躍的領(lǐng)域 47 思考題 ? 選一個(gè) web應(yīng)用,分析其信息處理的技術(shù)。 ? 訪問 ppt中涉及到的有趣的網(wǎng)站