freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎技術(shù)、現(xiàn)狀、以及未來發(fā)展趨勢的文獻(xiàn)綜述-免費(fèi)閱讀

2025-11-29 09:18 上一頁面

下一頁面
  

【正文】 [總結(jié) ] 綜上所述,搜索引擎正處在高速發(fā)展階段,是人們不可缺少的一部分,已經(jīng)融入了人們的生活。 P2P 技術(shù)使用戶能夠深度搜索文檔,而且這種搜索無需通過 Web 服務(wù)器,也可以不受信息文檔格式 和宿主設(shè)備的限制,可達(dá)到傳統(tǒng)目錄式搜索引擎(只能搜索到 20%~30%的網(wǎng)絡(luò)資源)無可比擬的深度(理論上包括網(wǎng)絡(luò)上所有開放的信息資源),即所有搜索范圍可沖出網(wǎng)絡(luò)服務(wù)器而直達(dá)每一臺用戶工作站。 多語種檢索和翻譯技術(shù)將有較大的突破 在多語種檢索和翻譯反面, Google 已經(jīng)推出了多 語言 版本 ,并且推出了它們之間的翻譯服務(wù),即 Google翻譯。智能檢索一是表現(xiàn)在搜索引擎技術(shù)的智能化 , 研究重點放在自然語言處理技術(shù)和人工智能技術(shù)的研究上 。搜索引擎搜索出來的內(nèi)容有沒有獲得使用權(quán) 呢?可惜的是大部分搜索結(jié)果都沒有獲得相關(guān)版權(quán),例如百度 MP3搜索,Google圖片搜索和百度圖片搜索,都曾經(jīng)因為涉嫌侵權(quán)被多次起訴。 圖:網(wǎng)民使用搜索引擎的頻 通過以上 2組數(shù)據(jù)可知,網(wǎng)民對搜索引擎的依賴程度非常高。 未登錄詞即未包括在分詞詞表中但必須切分出來的詞 ,包括各類專名 (人名、地名、企業(yè)字號、商標(biāo)號等 )和某些術(shù)語、縮略詞、新詞 等等。像這種交叉歧義十分常見, 又例如:“ 學(xué)生會 ” 既可能是一個名詞,指一 種學(xué)生組織,也可能是 “ 學(xué)生 /會 ” ,其中 “ 會 ” 為可能 或 “ 能夠 ” 的意思。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。由于漢語語言知識的籠 統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。實際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。 2) 逆向最大匹配法(由右到左的方向); 依然使用上面那個例子, 從 “ 愛 ” 開始:最愛 —— 她的 —— 是 —— 服裝 —— 和 —— 眼鏡。中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。 詞是最小的、能獨(dú)立活動的、有意義的語言成分 , 把字串分隔成詞串 , 就是分詞系統(tǒng)需要做的工作。 Spider 順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 2. 1993年 , MIT Matthew Gray 的 World wide Web Wanderer,是 世界上第一個 Spider程序 。 [關(guān)鍵詞 ] 搜索引擎 ,漢語分詞,調(diào)查報告 [正文 ] 一、 搜索引擎概述 搜索引擎 (search engine)是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,并將處理后的 信息顯示給用戶,是為用戶提供檢索服務(wù)的系統(tǒng)。 7. 2020年 1月 , 兩位北大校友,超鏈分析專利發(fā)明人、前 Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度( Baidu)公司。其他著名的還有 Open Directory Project( DMOZ)、 LookSmart、 About等。 免費(fèi)鏈接列表( Free For All Links,簡稱 FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起 Yahoo 等目錄索引來要小得多。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要 度。 于是這就牽涉到中文分詞技術(shù)了,一個搜索引擎的好壞跟它使用的分詞技術(shù)是密切相關(guān)的 。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少 ,這一點在上面的例 子也可以看出來 。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。 、歧義識別 歧義是指同樣的一句話,可能有兩種或者更多的切分方法, 典型的歧義有交集型歧義(約占全部歧義的 85%以上)和組合型歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。 幾種典型的 漢語 自動分詞系統(tǒng) 、幾個早期的自動分詞系統(tǒng) 、 我國第一個實用的自動分詞系統(tǒng) CDWS 、 山西大學(xué)計算機(jī)系研制的自動分詞系統(tǒng) ABWS 、 北京航空航天大學(xué)于 1
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1