freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎技術(shù)、現(xiàn)狀、以及未來發(fā)展趨勢的文獻綜述-全文預(yù)覽

2025-11-24 09:18 上一頁面

下一頁面
  

【正文】 能夠從互聯(lián)網(wǎng)上 及時準確的獲取最新的信息,搜索引擎是必然的產(chǎn)物。 最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。在 “ 學生會主席 ” 中只能是前者,在 “ 學生會去 ” 中只能是后者,在 “ 生會組織義演活動 ” 中歧義仍然排除不了,則需要看更多的語境信息。 、歧義識別 歧義是指同樣的一句話,可能有兩種或者更多的切分方法, 典型的歧義有交集型歧義(約占全部歧義的 85%以上)和組合型歧義。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。 、基于統(tǒng)計的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。 一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析漢字 串中識別和切分出一些帶 有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進行 機械分詞,從而減少匹配的錯誤率。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少 ,這一點在上面的例 子也可以看出來 。 3) 最少切分(使每一句中切出的詞數(shù)最?。?。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引 擎內(nèi)容更新的速度。 于是這就牽涉到中文分詞技術(shù)了,一個搜索引擎的好壞跟它使用的分詞技術(shù)是密切相關(guān)的 。 英語文本是小字符集上的已充分分隔開的詞串 , 而漢語文本是 大字符集上的連續(xù)字串 ,因此搜索引擎提取 英文 關(guān)鍵詞相對來說要簡單很多,而中文就沒那么簡單了。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要 度。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。 免費鏈接列表( Free For All Links,簡稱 FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起 Yahoo 等目錄索引來要小得多。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如 Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。其他著名的還有 Open Directory Project( DMOZ)、 LookSmart、 About等。 從搜索結(jié)果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序( Indexer),俗稱“蜘蛛”( Spider)程序或“機器人”( Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的 7 家引擎;另一種則是租用其他引擎 的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如 Lycos引擎。 7. 2020年 1月 , 兩位北大校友,超鏈分析專利發(fā)明人、前 Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度( Baidu)公司。 4月,楊致遠和 David Filo共同創(chuàng)辦了 Yahoo!。 [關(guān)鍵詞 ] 搜索引擎 ,漢語分詞,調(diào)查報告 [正文 ] 一、 搜索引擎概述 搜索引擎 (search engine)是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,并將處理后的 信息顯示給用戶,是為用戶提供檢索服務(wù)的系統(tǒng)。 本文對搜索引擎的發(fā)展歷史,采用的技術(shù), 發(fā)展現(xiàn)狀,出現(xiàn)的問題以及未來發(fā)展方向進行了 綜述 ,讓讀者對搜索引擎有個宏觀的了解。 2. 1993年 , MIT Matthew Gray 的 World wide Web Wanderer,是 世界上第一個 Spider程序 。 , Google成立。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。目錄索引中最具代表性的莫過于大名鼎鼎的 Yahoo。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。 門戶搜索引擎:如 AOL Search、 MSN Search 等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。 Spid
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1