【正文】
匯周杰倫、《無(wú)間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤(rùn)聯(lián)手發(fā)布了“2003中國(guó)大陸百富人氣榜”。但是,搜索引擎有時(shí)也會(huì)不知所措。比如嘗試使用Google搜索哈姆雷特的名言“To be or not to be”,會(huì)發(fā)現(xiàn)Google竟然答非所問(wèn),羅列在頁(yè)面上的是GNU’s Not Unix官方網(wǎng)站、Hot or Not交友網(wǎng)站……就是不見(jiàn)莎士比亞的影子。這個(gè)經(jīng)典的例子引出了搜索技術(shù)的一個(gè)術(shù)語(yǔ)—停止詞(stopword)。顧名思義,計(jì)算機(jī)的一切能力都是以計(jì)算為基礎(chǔ),即使閱讀也不例外。搜索引擎瀏覽分布在各個(gè)角落的網(wǎng)頁(yè)的同時(shí),還在后臺(tái)不停地統(tǒng)計(jì)詞語(yǔ)的出現(xiàn)頻率。有一些詞語(yǔ)出現(xiàn)率極高,帶來(lái)巨大的統(tǒng)計(jì)成本,卻不包含太多的具體意義,比如漢語(yǔ)的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結(jié)果,實(shí)在是過(guò)多了。例如遇到哈姆雷特名言中的那些高頻詞匯,經(jīng)常導(dǎo)致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在Google“閱讀”哈姆雷特的名言時(shí),遇到了四個(gè)停止詞,出于無(wú)奈,所以它只好對(duì)頻率最低的“not”進(jìn)行搜索,得到了一些有關(guān)“not”的流行網(wǎng)站。如果將此名言括上引號(hào),Google便會(huì)突然開(kāi)竅,順利地尋找到相關(guān)的網(wǎng)站。這一功能被稱作短語(yǔ)搜索(phrase search)。不過(guò),比Google更智能的是Alltheweb,它已將這句名言列入搜索目錄,在結(jié)果頁(yè)面中直接提供了相關(guān)鏈接。搜索如何實(shí)現(xiàn)“已向英特網(wǎng)搜索gerald sa