freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(專業(yè)版)

  

【正文】 optimize 重構(gòu) Lucene 的文件以改進(jìn)搜索性能。3. segment 信息查看命令 readseg,輸入 bin/nutch readseg,顯示 readseg 命令參數(shù)選項(xiàng)。在寫(xiě) Nutch 的過(guò)程中,從學(xué)院派和工業(yè)派借鑒了很多知識(shí):比如,Nutch 的核心部分目 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))22前已經(jīng)被重新用 Map Reduce 實(shí)現(xiàn)了。} catch (Exception e) {()。} catch (IOException e) { 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))20()。表 33,表 34 給出了刪除、恢復(fù)、強(qiáng)制刪除索引的一個(gè)例子。}(Index Create OK~!)。private IndexWriterConfig iwc = null。 1. 詞法分析主要用來(lái)識(shí)別單詞和關(guān)鍵字。首先,從 Web 搜索引擎原理和結(jié)構(gòu)介紹,闡述了搜索引擎三段式的工作原理,以及給出了目前主流搜索引擎實(shí)現(xiàn)的整體結(jié)構(gòu)描述。其中的摘要需要從網(wǎng)頁(yè)正文中生成。倒排文件就是用詞來(lái)作為索引的一個(gè)數(shù)據(jù)結(jié)構(gòu),顯然,q 中的詞必須是包含在倒排文件詞表中才有意義。 查詢服務(wù)查詢服務(wù)的整體結(jié)構(gòu)如下:圖 28 查詢服務(wù)的整體結(jié)構(gòu) 在網(wǎng)頁(yè)預(yù)處理后,每個(gè)元素至少包含如下幾個(gè)方面:原始網(wǎng)頁(yè)文檔URL 和標(biāo)題編號(hào)所含的重要關(guān)鍵詞的集合(以及他們?cè)谖臋n中出現(xiàn)的位置信息)其他一些指標(biāo)(例如重要程度,分類代碼等)而系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號(hào)一起構(gòu)成了一個(gè)倒排文件結(jié)構(gòu),使得一旦得到一個(gè)關(guān)鍵詞輸入,系統(tǒng)能迅速給出相關(guān)文檔編號(hào)的集合輸出。停用詞字典比較好辦,由于中文停用詞數(shù)量有限,可以從網(wǎng)上獲得停用詞列表,從而自己建一個(gè)停用詞字典;然而對(duì)于分詞字典,雖然網(wǎng)上有許多知名的漢字分詞軟件,但是很少有分詞的字典提供。分析數(shù)據(jù)時(shí),現(xiàn)將文本數(shù)據(jù)切分成一些大塊或者詞匯單元,然后對(duì)它們執(zhí)行一些可選的操作,例如:在索引之前將這些詞匯單元轉(zhuǎn)換成小寫(xiě),使得搜索對(duì)大小寫(xiě)不敏感;具有代表性的是要從輸入中去掉一些使用很頻繁但卻沒(méi)有實(shí)際意義的詞,比如英文文本中的一些停用詞(a、an、the、in、on 等)。超鏈接:爬蟲(chóng)會(huì)根據(jù)種子地址(可能是最先提交給爬蟲(chóng)的 URL 集合)抓取頁(yè)面。 搜索引擎整體結(jié)構(gòu)圖 22 搜索引擎整體結(jié)構(gòu)爬蟲(chóng)從 Inter 中爬取眾多的網(wǎng)頁(yè)作為原始網(wǎng)頁(yè)庫(kù)存儲(chǔ)于本地,然后網(wǎng)頁(yè)分析器抽取網(wǎng)頁(yè)中的主題內(nèi)容交給分詞器進(jìn)行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫(kù),用戶查詢時(shí),在通過(guò)分詞器切割輸入的查詢?cè)~組并通過(guò)檢索器在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢,得到的結(jié)果返回給用戶。 課題研究范圍一般來(lái)說(shuō)搜索引擎都由:用戶接口,搜索器,索引生成器和查詢處理器 4 個(gè)部分組成。文中闡述了 Nutch 相關(guān)框架的背景,基礎(chǔ)原理和應(yīng)用。Web 搜索引擎能有很好的幫助我們解決這一問(wèn)題。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法之一。事實(shí)上,這三個(gè)部分是相互獨(dú)立、分別工作的,主要的關(guān)系體現(xiàn)在前一部分得到的數(shù)據(jù)結(jié)果為后一部分提供原始數(shù)據(jù)。面對(duì)實(shí)際應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中,通常既包含累積式抓取,也包括增量式抓取的策略。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。需要說(shuō)明的是,在第三步的起始,n 如果不為 1,則意味著有匹配到的詞;而如果 n 為 1,默認(rèn) 1 個(gè)字是應(yīng)該進(jìn)入分詞結(jié)果的,所以第三步可以將前 n 個(gè)字作為一個(gè)詞而分割開(kāi)來(lái)。所以,banana: {(2, 3)} 就是說(shuō) banana在第三個(gè)文檔里 ( ),而且在第三個(gè)文檔的位置是第四個(gè)單詞(地址為 3)。如上例,則為“網(wǎng)絡(luò) 與 分布式 系統(tǒng) 實(shí)驗(yàn)室”(注意,不同的分詞軟件可能得出不同的結(jié)果)。這方面最重要的成果就是前面提到過(guò)的 PageRank。為了保證查詢的效率,需要在預(yù)處理階段分詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。 說(shuō)明用戶想找一個(gè)包含 lucene 和 learned 然而不包括 hadoop 的文檔。private int[] attachs = {2, 3, 1, 4, 5, 3}。(new Field(content, contents[i], , ))。} catch (IOException e) {()。 //恢復(fù)所有索引(All Index Undelte Ok~~!)。writer = new IndexWriter(directory, iwc)。因此 nutch 對(duì)學(xué)術(shù)搜索和政府類站點(diǎn)的搜索來(lái)說(shuō),是個(gè)好選擇,因?yàn)橐粋€(gè)公平的排序結(jié)果是非常重要的。[rootbogon local] bin/nutch crawlUsage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))23[topN N]抓取 網(wǎng)站,將抓取內(nèi)容存放在 目錄下,線程數(shù) 50,抓取深度為 5,抓取廣度為 50.[rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50solrUrl is not set, indexing will be skipped...crawl started in: rootUrlDir = urlsthreads = 50depth = 5solrUrl=nulltopN = 100Injector: starting at 20220521 19:38:00Injector: crawlDb: Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.… 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))24圖 31 抓取過(guò)程2. 數(shù)據(jù)庫(kù)查看命令 readdb, 輸入 bin/nutch readdb,顯示 readdb 命令參數(shù)選項(xiàng)。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 創(chuàng)建的索引 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))30Solr 的特性包括:1. 高級(jí)的全文搜索功能2. 專為高通量的網(wǎng)絡(luò)流量進(jìn)行的優(yōu)化3. 基于開(kāi)放接口(XML 和 HTTP)的標(biāo)準(zhǔn)4. 綜合的 HTML 管理界面5. 可伸縮性-能夠有效地復(fù)制到另外一個(gè) Solr 搜索服務(wù)器6. 使用 XML 配置達(dá)到靈活性和適配性7. 可擴(kuò)展的插件體系 Solr 索引 可以向 Solr 索引 servlet 傳遞四個(gè)不同的索引請(qǐng)求:add/update 允許向 Solr 添加文檔或更新文檔。一個(gè)索引無(wú)需優(yōu)化也可以正常地運(yùn)行。進(jìn)入 segment 目錄后,使用 ls 命令 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))27圖 33 數(shù)據(jù)段文件[rootbogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: donevi 圖 34 數(shù)據(jù)段 dump 后的文件信息對(duì) dump 后的信息仍然可以提取,輸入 bin/nutch readseg dump,顯示 readseg命令中 dump 參數(shù)選項(xiàng)。(3) 擴(kuò)展性:你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢?那就用 Nutch 寫(xiě)你自己的搜索引擎吧。(Index Writer Close Error ~~)。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。writer = new IndexWriter(directory, iwc)。} catch (Exception e) {()。} catch (Exception e) {()。 如果發(fā)現(xiàn)查詢語(yǔ)句不滿足語(yǔ)法規(guī)則,則會(huì)報(bào)錯(cuò)。它并不是一個(gè)完整的應(yīng)用程序,而是一組代碼庫(kù),并提供了方便實(shí)現(xiàn)搜索引擎的 API。一是網(wǎng)頁(yè)的寫(xiě)作通常不規(guī)范,文字比較隨意,因此從語(yǔ)言理解的角度難以做好;二是復(fù)雜的語(yǔ)言理解算法耗時(shí)太多,不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁(yè)信息的需求。 結(jié)果排序就目前的技術(shù)情況看,列表是最常見(jiàn)的形式(但人們也在探求新的形式,如Vivisimo 引擎將結(jié)果頁(yè)面以類別的形式呈現(xiàn))。一般認(rèn)為,對(duì)于普通網(wǎng)絡(luò)用戶來(lái)說(shuō),最自然的方式就是“要什么就輸入什么”。而如果遇到歧義詞組,可以通過(guò)字典中附帶的詞頻來(lái)決定哪種分詞的結(jié)果更好。將分析后的數(shù)據(jù)寫(xiě)入索引。接著會(huì)判斷 URL 在抓取數(shù)據(jù)庫(kù)中是否存在,如果存在,刪除舊的,更新新的。 網(wǎng)頁(yè)收集全文檢索是工作在某個(gè)數(shù)據(jù)集合上的程序,他需要事先由頁(yè)面抓取程序,在全網(wǎng)中抓取海量網(wǎng)頁(yè),這個(gè)抓取程序也叫網(wǎng)絡(luò)爬蟲(chóng)或 Spider。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。目前國(guó)內(nèi)有很多大公司,比如百度、雅虎,都在使用 Nutch 相關(guān)框架。同意省級(jí)優(yōu)秀學(xué)位論文評(píng)選機(jī)構(gòu)將本學(xué)位論文通過(guò)影印、縮印、掃描等方式進(jìn)行保存、摘編或匯編;同意本論文被編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索和查閱。 全文搜索引擎是目前最為普及的應(yīng)用 ,通過(guò)從互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)建立數(shù)據(jù)庫(kù),用戶查詢的時(shí)候便在數(shù)據(jù)庫(kù)中檢索與用戶查詢條件相匹配的記錄,最終將匹配的那些記錄,按一定的排列順序顯示給用戶。下面將具體介紹全文搜索引擎的相關(guān)理論,使讀者全文搜索引擎的基本技術(shù)有所了解,為后續(xù)章節(jié)的閱讀打下基礎(chǔ)。但由于 Web 數(shù)據(jù)的動(dòng)態(tài)特性,集合中的網(wǎng)頁(yè)的抓取時(shí)間點(diǎn)是不同的,頁(yè)面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁(yè)集合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。 建立索引頁(yè)面庫(kù)索引的主要過(guò)程: 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))8圖 25 索引的主要過(guò)程索引過(guò)程可分為三個(gè)主要的操作階段:將數(shù)據(jù)轉(zhuǎn)換成文本分析文本將分析過(guò)的文本保存到數(shù)據(jù)庫(kù)中轉(zhuǎn)換成文本。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ洹?圖 26 正向索引 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))11圖 27 倒排索引 以英文為例,下面是要被索引的文本:it is what it iswhat is itit is a banana這樣就能得到下面的反向文件索引: a: {2} banana: {2} is: {0, 1, 2} it: {0, 1, 2} what: {0, 1}檢索的條件what, is 和 it 將對(duì)應(yīng)這個(gè)集合:。這樣,一般來(lái)講,系統(tǒng)面對(duì)的是查詢短語(yǔ)。這樣一種思路不僅有一定直覺(jué)上的道理,而且在倒排文件數(shù)據(jù)結(jié)構(gòu)上很容易實(shí)現(xiàn)。當(dāng)用戶輸入某個(gè)查詢,他一般是希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。 查詢語(yǔ)句的語(yǔ)法根據(jù)全文搜索引擎的實(shí)現(xiàn)而不同。.表 41 建立索引public class IndexUtil {private String[] ids = {1, 2, 3, 4, 5, 6}。 i++){ 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))18doc = new Document()。(maxDoc: + ())。}}}}public void unewdelete(){IndexReader reader = null。(Index Writer Close Error ~~)。 研究 Nutch 的原因可能有的朋友會(huì)有疑問(wèn),已經(jīng)有 google,有百度,為何還需要建立自己的搜索引擎呢?這里我列出 3 點(diǎn)原因: (1) 透明度:nutch 是開(kāi)放源代碼的,因此任何人都可以查看他的排序算法是如何工作的。常見(jiàn)的應(yīng)用場(chǎng)合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁(yè)面。Solr 版本開(kāi)始支持從數(shù)據(jù)庫(kù)(通過(guò) JDBC)、RSS 提要、Web 頁(yè)面和文件中導(dǎo)入數(shù)據(jù),但是不直接支持從二進(jìn)制文件格式中提取內(nèi)容,比如 MS Office、Adobe PDF 或其他專有格式。按 id 刪除將刪除具有指定 id 的文檔;按查詢刪除將刪除查詢返回的所有文檔。圖 36 運(yùn)行 readlinkdb 命令信息查看統(tǒng)計(jì)后的 linkdb 的信息[rootbogon local] vi 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))29圖 37 查看鏈接數(shù)據(jù)庫(kù) dump 后的信息一些常用的命令還包括 invertlinks,parsechecker,domainstats,webgraph 等等,這里不作介紹。 研究 Nutch 的目標(biāo)nutch 致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的 Web 搜索引擎. 為了完成這一宏偉的目標(biāo), nutch 必須能夠做到: ?
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1