freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(更新版)

2025-08-06 12:48上一頁面

下一頁面
  

【正文】 江漢大學(xué)本科畢業(yè)論文(設(shè)計)28圖 35 抓取一個鏈接的統(tǒng)計信息4. 連接數(shù)據(jù)庫信息的讀取命令 readlinkdb,輸入 bin/nutch readlinkdb,顯示readlinkdb 命令參數(shù)選項。 Nutch 常用命令1. 抓取命令 crawl,輸入 bin/nutch crawl,顯示 crawl 命令參數(shù)選項。 Nutch 是非常靈活的:他可以被很好的客戶訂制并集成到你的應(yīng)用程序中,使用 Nutch 的插件機制,Nutch 可以作為一個搜索不同信息載體的搜索平臺。更進(jìn)一步,一些搜索引擎允許競價排名,比如百度,這樣的索引結(jié)果并不是和站點內(nèi)容相關(guān)的。}}}} Nutch 研究 Nutch 概述Apache Nutch 是一個用 Java 編寫的開源網(wǎng)絡(luò)爬蟲。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。writer = new IndexWriter(directory, iwc)。()。(new Term(id, 1))。} finally {try {()。(Index Writer Close Error ~!)。(new Field(, s[i], , ))。}}public void index(){IndexWriter writer = null。private String[] contents = {wel to sina aa, how are you ss88817, are you ok 496008642,what are you doing, 496008642, Have a good night, ,good morning ,ss88817}。3. 語言處理同索引過程中的語言處理幾乎相同 。 舉個例子,用戶輸入語句:lucene AND learned NOT hadoop。Lucene 是一個高效的基于 Java 的全文檢索庫。這是目前大多數(shù)搜索引擎采用的方式。據(jù)統(tǒng)計,即使是分詞這一項工作(文本理解的基礎(chǔ)),在高檔微機上每秒鐘也只能完成 10 篇左右網(wǎng)頁的處理。然而,由于網(wǎng)頁編寫的自發(fā)性、隨意性較強,僅僅針對詞的出現(xiàn)來決定文檔的順序,在 Web 上做信息檢索表現(xiàn)出明顯的缺點,需要有其他技術(shù)的補充。給定一個查詢結(jié)果集合,R={r1, r2, …, rn},所謂列表,就是按照某種評價方式,確定出 R 中元素的一個順序,讓這些元素以這種順序呈現(xiàn)出來。它首先需要被“切詞”(segment)或稱“分詞”,即把它分成一個詞的序列。但這是一種相當(dāng)模糊的說法。 同樣,文檔數(shù)量和當(dāng)前查詢的單詞結(jié)果都從零開始。 倒排索引倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。算法描述如下:輸入值為一個中文語句 S,以及最大匹配詞 n取 S 中前 n 個字,根據(jù)詞典對其進(jìn)行匹配,若匹配成功,轉(zhuǎn) 3,否則轉(zhuǎn) 2;n = n – 1:如果 n 為 1,轉(zhuǎn) 3;否則轉(zhuǎn) 1;將 S 中的前 n 個字作為分詞結(jié)果的一部分,S 除去前 n 個字,若 S 為空,轉(zhuǎn) 4;否則,轉(zhuǎn) 1;算法結(jié)束。對輸入數(shù)據(jù)分析處理完成后,就可以將結(jié)果寫入索引文件中。但是,在現(xiàn)實世界中,信息多以富媒體文檔格式呈現(xiàn):PDF,WORD,EXCEL,HTML,XML 等。如果不存在,將該 URL 的狀態(tài)標(biāo)記為未采集過。進(jìn)行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面,并具有這項頁面被抓取的時間信息。只有事先抓取了足夠多的網(wǎng)頁數(shù)據(jù),并處理之,才能對大量的用戶查詢提供及時的響應(yīng)。最基本的搜索引擎應(yīng)該包含三個模塊:網(wǎng)頁搜集,預(yù)處理,查詢服務(wù)。 江漢大學(xué)本科畢業(yè)論文(設(shè)計)2搜索器用于 WWW 的遍歷和網(wǎng)頁的下載。目前網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。為了解決此問題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。 課題研究目的及應(yīng)用 針對搜索引擎廣闊的應(yīng)用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁,建立索引數(shù)據(jù)庫,并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。 查詢處理器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價, 對將要輸出的結(jié)果進(jìn)行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。自頂向下的方法描述搜索引擎執(zhí)行過程:1.用戶通過瀏覽器提交查詢的詞或者短語 P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L;2. 上述過程涉及到兩個問題,如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,根據(jù)什么而排序?用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 p1,p2 … pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護(hù)的一個倒排索引可以查詢某個詞 pi 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 p1,p2 … pn 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,更進(jìn)一步,返回的初始網(wǎng)頁集通過計算與查詢詞的相關(guān)度從而得到網(wǎng)頁排名,即 Page 江漢大學(xué)本科畢業(yè)論文(設(shè)計)4Rank,按照網(wǎng)頁的排名順序即可得到最終的網(wǎng)頁列表;3. 假設(shè)分詞器和網(wǎng)頁排名的計算公式都是既定的,那么倒排索引以及原始網(wǎng)頁集從何而來?原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引;4. 網(wǎng)頁的分析具體做什么呢?由于爬蟲收集來的原始網(wǎng)頁中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁分析去除這些信息,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。下圖表示了這個過程:圖 23 Spider 工作流程 爬蟲的抓取策略爬蟲的工作策略一般分為累積式抓?。╟umulative crawling)和增量式抓取(incremental crawing)兩種。 鏈接數(shù)據(jù)庫的建立初始 URL 的建立有兩種方式:超鏈接和站長提交。預(yù)處理模塊的整體結(jié)構(gòu)如下: 圖 24 預(yù)處理模塊的整體結(jié)構(gòu)通過爬蟲的收集,保存下來的網(wǎng)頁信息具有較好的信息存儲格式,但是還是有一個缺點,就是不能按照網(wǎng)頁 URL 直接定位到所指向的網(wǎng)頁。在對數(shù)據(jù)進(jìn)行索引錢,還必須進(jìn)行預(yù)處理,對數(shù)據(jù)進(jìn)行分析是之更加適合被索引。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語義理解,第三種基于統(tǒng)計。您也許有疑問,如何獲得分詞字典或者是停用詞字典。一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。但是這個短語檢索的連續(xù)的條件僅僅在文檔 1 得到。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“江漢大學(xué)錄取分?jǐn)?shù)線”,450 分應(yīng)該是他需要的,但不可能包含在這個短語中。最后形成一個用于參加匹配的查詢詞表,q = {t1, t2, …, tm},在本例中就是 q = {網(wǎng)絡(luò),分布式,系統(tǒng),實驗室}。不同需求的用戶可能輸入同一個查詢,同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。 文檔摘要搜索引擎給出的結(jié)果是一個有序的條目列表,每一個條目有三個基本的元素:標(biāo)題,網(wǎng)址和摘要。顯然,這種方式對查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。以 web 搜索引擎為主要介紹對象。 Lucene 如何對索引進(jìn)行搜索 第一步:用戶輸入查詢語句。 由于查詢語句有語法,因而也要進(jìn)行語法分析,語法分析及語言處理。 第四步:根據(jù)得到的文檔和查詢語句的相關(guān)性,對結(jié)果進(jìn)行排序。private Directory directory = null。Document doc = null。(doc)。表 32 查詢服務(wù)public void query(){IndexReader reader = null。}}}Lucene 索引更新是根據(jù)提供的新信息,刪除,回復(fù),修改索引的過程。} finally {if(writer != null){try {()。} finally {try {()。} catch (Exception e) {()。(Index where id = 1 delete ok!)。Solr 是一個開源的全文搜索框架,通過 Solr 能夠搜索 Nutch 已經(jīng)訪問過的網(wǎng)頁。了解一個大型分布式的搜索引擎如何工作是一件讓人很受益的事情。Nutch 是一個應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實現(xiàn)搜索引擎應(yīng)用。輸入:[rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫信息通過截圖信息,可以發(fā)現(xiàn),剛才抓取的貓撲網(wǎng),一共獲得 URL2687 個,最小分值,最大分值 ,平均分值 ,為抓取內(nèi)容的 URL2602 個。 Solr 研究 Solr 概述Apache Solr 是一個開源的搜索服務(wù)器,Solr 使用 Java 語言開發(fā),主要基于 HTTP 和 Apache Lucene 實現(xiàn)。mit 告訴 Solr,應(yīng)該使上次提交以來所做的所有更改都可以搜索到。要實現(xiàn)添加文檔索引則只需要調(diào)用搜索接口以 HTTP POST 的方式提交 XML 報文。返回的搜索結(jié)果報文:表 1 solr 返回的查詢報文response lst name=responseHeader int name=status0/int int name=QTime6/int lst name=params str name=rows10/str str name=start0/str str name=fl*,score/str 江漢大學(xué)本科畢業(yè)論文(設(shè)計)32 str name=hltrue/str str name=qcontent:faceted browsing/str /lst /lst result name=response numFound=1 start=0 maxScore= doc float name=score/float arr name=all str strSolr is Great/str strsolr,lucene,enterprise,search,greatness/str strSolr has some really great features, like faceted browsing and replication/str /arr arr name=content strSolr has some really great features, like faceted browsing and replication/str /arr date name=creationDate20220107T05:04:/date arr name=keywords strsolr,lucene,enterprise,search,greatness/str /arr int name=rating8/int str name=titleSolr is Great/str str name=url /doc /result lst name=highlighting lst name= arr name=content strSolr has some really great features, like emfaceted/em embrowsing/em and replication/str /arr /lst /lst /response Lucene 索引查看工具 LukeLuke 是一個用于 Lucene 搜索引擎的,方便開發(fā)和
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1