freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-資料下載頁(yè)

2025-06-28 13:40本頁(yè)面
  

【正文】 多知識(shí):比如,Nutch 的核心部分目 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))22前已經(jīng)被重新用 Map Reduce 實(shí)現(xiàn)了。Map Reduce 是一個(gè)分布式的處理模型,最先是從 Google 實(shí)驗(yàn)室提出來(lái)的。并且 Nutch 也吸引了很多研究者,他們非常樂(lè)于嘗試新的搜索算法,因?yàn)閷?duì) Nutch 來(lái)說(shuō),這是非常容易實(shí)現(xiàn)擴(kuò)展的。(3) 擴(kuò)展性:你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢?那就用 Nutch 寫(xiě)你自己的搜索引擎吧。 Nutch 是非常靈活的:他可以被很好的客戶(hù)訂制并集成到你的應(yīng)用程序中,使用 Nutch 的插件機(jī)制,Nutch 可以作為一個(gè)搜索不同信息載體的搜索平臺(tái)。當(dāng)然,最簡(jiǎn)單的就是集成 Nutch 到你的站點(diǎn),為你的用戶(hù)提供搜索服務(wù)。 研究 Nutch 的目標(biāo)nutch 致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的 Web 搜索引擎. 為了完成這一宏偉的目標(biāo), nutch 必須能夠做到: ? 每個(gè)月取幾十億網(wǎng)頁(yè) ? 為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引 ? 對(duì)索引文件進(jìn)行每秒上千次的搜索 ? 提供高質(zhì)量的搜索結(jié)果 ? 以最小的成本運(yùn)作 Nutch 和 Lucene 比較 簡(jiǎn)單的說(shuō),Lucene 不是完整的應(yīng)用程序,而是一個(gè)用于實(shí)現(xiàn)全文檢索的軟件庫(kù)。Nutch 是一個(gè)應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。Lucene 為 Nutch 提供了文本索引和搜索的 API。一個(gè)常見(jiàn)的問(wèn)題是;我應(yīng)該使用Lucene 還是 Nutch?最簡(jiǎn)單的回答是:如果你不需要抓取數(shù)據(jù)的話(huà),應(yīng)該使用Lucene。常見(jiàn)的應(yīng)用場(chǎng)合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個(gè)搜索頁(yè)面。在這種情況下,最好的方式是直接從數(shù)據(jù)庫(kù)中取出數(shù)據(jù)并用 Lucene API 建立索引。 Nutch 常用命令1. 抓取命令 crawl,輸入 bin/nutch crawl,顯示 crawl 命令參數(shù)選項(xiàng)。[root@bogon local] bin/nutch crawlUsage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))23[topN N]抓取 網(wǎng)站,將抓取內(nèi)容存放在 目錄下,線(xiàn)程數(shù) 50,抓取深度為 5,抓取廣度為 50.[root@bogon /] cd /install/[root@bogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50solrUrl is not set, indexing will be skipped...crawl started in: rootUrlDir = urlsthreads = 50depth = 5solrUrl=nulltopN = 100Injector: starting at 20220521 19:38:00Injector: crawlDb: Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.… 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))24圖 31 抓取過(guò)程2. 數(shù)據(jù)庫(kù)查看命令 readdb, 輸入 bin/nutch readdb,顯示 readdb 命令參數(shù)選項(xiàng)。[root@bogon local] bin/nutch readdbUsage: CrawlDbReader crawldb (stats | dump out_dir | topN nnnn out_dir [min] | url url)crawldb directory name where crawldb is locatedstats [sort] print overall statistics to [sort] list status sorted by hostdump out_dir [format normal|csv|crawldb] dump the whole db to a text file in out_dir[format csv] dump in Csv format[format normal] dump in standard format (default option)[format crawldb]dump as CrawlDB[regex expr] filter records with expression[status status] filter records by CrawlDatum status 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))25url urlprint information on url to topN nnnn out_dir [min] dump top nnnn urls sorted by score to out_dir[min] skip records with scores below this value.This can significantly improve performance.下面給出stats 的統(tǒng)計(jì)信息。輸入:[root@bogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫(kù)信息通過(guò)截圖信息,可以發(fā)現(xiàn),剛才抓取的貓撲網(wǎng),一共獲得 URL2687 個(gè),最小分值,最大分值 ,平均分值 ,為抓取內(nèi)容的 URL2602 個(gè)。3. segment 信息查看命令 readseg,輸入 bin/nutch readseg,顯示 readseg 命令參數(shù)選項(xiàng)。[root@bogon local] bin/nutch readsegUsage: SegmentReader (dump ... | list ... | get ...) [general options]* General options:nocontentignore content directorynofetch ignore crawl_fetch directorynogenerate ignore crawl_generate directorynoparse ignore crawl_parse directorynoparsedata ignore parse_data directory 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))26noparsetext ignore parse_text directory* SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output.segment_dir name of the segment directory.output name of the (nonexistent) output directory.* SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to processdir segments directory that contains multiple segments* SegmentReader get segment_dir keyValue [general options] Get a specified record from a segment, and print it on .segment_dir name of the segment directory.keyValuevalue of the key (url).Note: put doublequotes around strings with spaces.下面給出dump 參數(shù)的使用。在抓取完成以后,segment 目錄下會(huì)產(chǎn)生很多以日期命名的文件夾,這些文件夾下面都存放著段的索引和數(shù)據(jù)信息。進(jìn)入 segment 目錄后,使用 ls 命令 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))27圖 33 數(shù)據(jù)段文件[root@bogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: donevi 圖 34 數(shù)據(jù)段 dump 后的文件信息對(duì) dump 后的信息仍然可以提取,輸入 bin/nutch readseg dump,顯示 readseg命令中 dump 參數(shù)選項(xiàng)。bin/nutch readseg dump noparse noparsetext一下是對(duì)抓取連接的一個(gè)統(tǒng)計(jì),如圖 35: 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))28圖 35 抓取一個(gè)鏈接的統(tǒng)計(jì)信息4. 連接數(shù)據(jù)庫(kù)信息的讀取命令 readlinkdb,輸入 bin/nutch readlinkdb,顯示readlinkdb 命令參數(shù)選項(xiàng)。Usage: LinkDbReader linkdb (dump out_dir | url url)dump out_dir dump whole link db to a text file in out_dirurl urlprint information about url to 首先使用 readlinkdb 的dump 參數(shù),將 dump 后的信息放到統(tǒng)計(jì)目錄的linkdb_dump 目錄下。圖 36 運(yùn)行 readlinkdb 命令信息查看統(tǒng)計(jì)后的 linkdb 的信息[root@bogon local] vi 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))29圖 37 查看鏈接數(shù)據(jù)庫(kù) dump 后的信息一些常用的命令還包括 invertlinks,parsechecker,domainstats,webgraph 等等,這里不作介紹。 Solr 研究 Solr 概述Apache Solr 是一個(gè)開(kāi)源的搜索服務(wù)器,Solr 使用 Java 語(yǔ)言開(kāi)發(fā),主要基于 HTTP 和 Apache Lucene 實(shí)現(xiàn)。定制 Solr 索引的實(shí)現(xiàn)方法很簡(jiǎn)單,用 POST 方法向 Solr 服務(wù)器發(fā)送一個(gè)描述所有 Field 及其內(nèi)容的 XML 文檔就可以了。定制搜索的時(shí)候只需要發(fā)送 HTTP GET 請(qǐng)求即可,然后對(duì) Solr 返回的信息進(jìn)行重新布局,以產(chǎn)生利于用戶(hù)理解的頁(yè)面內(nèi)容布局。Solr 版本開(kāi)始支持從數(shù)據(jù)庫(kù)(通過(guò) JDBC)、RSS 提要、Web 頁(yè)面和文件中導(dǎo)入數(shù)據(jù),但是不直接支持從二進(jìn)制文件格式中提取內(nèi)容,比如 MS Office、Adobe PDF 或其他專(zhuān)有格式。更重要的是,Solr 創(chuàng)建的索引與 Lucene 搜索引擎庫(kù)完全兼容。通過(guò)對(duì) Solr 進(jìn)行適當(dāng)?shù)呐渲?,某些情況下可能需要進(jìn)行編碼,Solr 可以閱讀和使用構(gòu)建到其他 Lucene 應(yīng)用程序中的索引。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 創(chuàng)建的索引 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))30Solr 的特性包括:1. 高級(jí)的全文搜索功能2. 專(zhuān)為高通量的網(wǎng)絡(luò)流量進(jìn)行的優(yōu)化3. 基于開(kāi)放接口(XML 和 HTTP)的標(biāo)準(zhǔn)4. 綜合的 HTML 管理界面5. 可伸縮性-能夠有效地復(fù)制到另外一個(gè) Solr 搜索服務(wù)器6. 使用 XML 配置達(dá)到靈活性和適配性7. 可擴(kuò)展的插件體系 Solr 索引 可以向 Solr 索引 servlet 傳遞四個(gè)不同的索引請(qǐng)求:add/update 允許向 Solr 添加文檔或更新文檔。直到提交后才能搜索到這些添加和更新。mit 告訴 Solr,應(yīng)該使上次提交以來(lái)所做的所有更改都可以搜索到。optimize 重構(gòu) Lucene 的文件以改進(jìn)搜索性能。索引完成后執(zhí)行一下優(yōu)化通常比較好。如果更新比較頻繁,則應(yīng)該在使用率較低的時(shí)候安排優(yōu)化。一個(gè)索引無(wú)需優(yōu)化也可以正常地運(yùn)行。優(yōu)化是一個(gè)耗時(shí)較多的過(guò)程。delete 可以通過(guò) id 或查詢(xún)來(lái)指定。按 id 刪除將刪除具有指定 id 的文檔;按查詢(xún)刪除將刪除查詢(xún)返回的所有文檔。要實(shí)現(xiàn)添加文檔索引則只需要調(diào)用搜索接口以 HTTP POST 的方式提交 XML 報(bào)文。(索引接口:文:注:多核心時(shí)為這個(gè)地址 add doc field name=idTWINX204
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1