freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文-wenkub

2023-03-09 09:46:23 本頁面
 

【正文】 用索引的精確查詢的邏 輯組合的過程 。如果線程池中要處理的任務(wù)數(shù)多于現(xiàn)有的線程數(shù) ,則暫時(shí)不能被處理的任務(wù)被保持在一個(gè)隊(duì)列中 ,等待線程完成處理中的任務(wù)后接著去讀取他們。 Message Handler (Thread)F e t c h e rF e t c h e r p o o l ( T h r e a d )FetcherThreadFetcherThreadFetcherThreadS t o r a g eS t o r eL o gU R L M e s s a g e Q u e u eT h r e a dM o n i t o r( T h r e a d )F i l t e r sU R L L e n g t h F i l t e rR o b o t E x c l u s i o n F i l t e rU R L V i s i t e d F i l t e rK n o w n P a t h s F i l t e rQ u e n eM o n i t o r sE v e r y 5S e c o n d sP u t s U R L s i n t o U R L M e s s a g e圖 5 網(wǎng) 絡(luò)蜘蛛工作模型 信息處理程式 ( Message Handler)依次將隊(duì)列 (URLMessage Queue)中的 URL信息送入過濾器鏈 (Filters), 每一個(gè) 過 濾器都能決定是否向前傳遞 URL信息 , 改變 URL信息 , 或甚至刪除 URL信息。影響爬行速度的一個(gè)重要因素是 DNS查詢,為此每個(gè)爬行器都要維護(hù)一個(gè)自己的 DNS緩沖。 圖 3 全文檢索的 輸入輸出結(jié)構(gòu) 7 此外在應(yīng)用的國(guó)際化支持方面 ,XML數(shù)據(jù)源用 JAVA解析后是 UNICODE,這樣無論是日文,繁體中文還是德文的內(nèi)容我們都可以在一個(gè)索引庫(kù)中同時(shí)進(jìn)行搜索。 對(duì)于包含 個(gè)詞條的查詢向量 和一個(gè)文檔向量 來說,它們之間的相關(guān)度可以通過下面的公式 來計(jì)算: ),( dqsimilarity =? ??? ??niniiiniiidqdq1 1221)()( 四、 模型的 組成結(jié)構(gòu) 基于 Inter的全文搜索引擎 的組成結(jié)構(gòu)如下表:對(duì)于外部應(yīng)用來說網(wǎng)頁獲取模塊( spider)、索引模塊 (index)和檢索模塊 (search)是主要的外部應(yīng)用入口。 在建“索引數(shù)據(jù)庫(kù)”同時(shí)系統(tǒng)進(jìn)行“鏈接信息提取”,把鏈接信息(包括錨文本、鏈接本身等信息)送入“鏈接數(shù)據(jù)庫(kù)”,為“網(wǎng)頁評(píng)級(jí)”提供依據(jù)。所以已知的單詞都放在一棵樹結(jié)構(gòu)中,在構(gòu)造倒排索引的時(shí)候,對(duì)于每個(gè)讀入的單 詞,首先在該樹中查找,如果沒有找到,就在該樹中加入一個(gè)空的詞匯出現(xiàn)情況列表;否則將該詞匯的新位置加入到樹中對(duì)應(yīng)詞匯出現(xiàn)情況列表的末尾。本文模型采用倒排文件技術(shù)作為索引方法建立數(shù)據(jù)庫(kù)。 圖 2 網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁的兩種策略的區(qū)別 建立索引數(shù)據(jù)庫(kù) 系統(tǒng)從“ 網(wǎng)頁數(shù)據(jù)庫(kù) ”提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在 URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、 與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的詞條算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的權(quán)重(或重要性),然后用這些相關(guān)信息建立“ 索引數(shù)據(jù)庫(kù) ”。其處理流程按照如下描述: 圖 1 基于 Inter的全文搜索引擎系統(tǒng)架構(gòu) 從互聯(lián)網(wǎng)上抓取網(wǎng)頁 “網(wǎng)絡(luò)蜘蛛”依據(jù)一定的網(wǎng)絡(luò)協(xié)議在互聯(lián)網(wǎng)中抓取、加工、整理網(wǎng)頁,把網(wǎng)頁送入“ 網(wǎng)頁數(shù)據(jù)庫(kù) ”,從網(wǎng)頁中“ 提取 URL”,把 URL送入“ URL數(shù)據(jù)庫(kù) ”,“ 蜘蛛控制 ”得到網(wǎng)頁的 URL,控制“ 網(wǎng)絡(luò)蜘蛛 ”抓取其它網(wǎng)頁,反復(fù)循環(huán)直到把所有的網(wǎng) 頁抓取完成。在查詢與文檔匹配的過程中,主要看該文檔中的詞條是否滿足查詢的條件。它們收集因特網(wǎng)上上億個(gè)網(wǎng)頁,并且每一個(gè)網(wǎng)頁上的每一個(gè)詞都被搜索引擎所收錄,也就是我們所說的全文檢索。要在浩如煙海的網(wǎng)絡(luò)世界尋找需要的信息,作為現(xiàn)代信息獲取技術(shù)的主要應(yīng)用 —— 搜索引擎(Search Engine)是必不可少的。網(wǎng)絡(luò)蜘蛛 。 1 基于 Inter 的全文搜索引擎的模型設(shè)計(jì) 摘 要 根據(jù)搜索引擎與信息獲取的原理 ,設(shè)計(jì)了一個(gè)基于 Inter的全文搜索引擎 ,該模型從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用 ,并且由于基于 Java 語言設(shè)計(jì) ,從而特別適于跨平臺(tái)應(yīng)用。分析器 。 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心( CNNIC)在京發(fā)布的“第十四次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告”顯示, 搜索引擎是用戶在互聯(lián)網(wǎng)上獲取信息最主要的方式。 在構(gòu)造搜索引擎時(shí),布爾模型是用得最普遍的模型。搜索引擎主要由網(wǎng)絡(luò)蜘蛛( WebSpider)、索引 (Index)與搜索(Search)引擎軟件等部分組成 ]1[ 。 在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先 ]2[ (本文模型采 4 用的是廣度優(yōu)先)。關(guān)鍵詞 w 在文檔 i 中的權(quán)重定義 ]3[ 如下: ),( iwweight =??iwkkkiwwinNfnNf122 ))( lg ()()lg ( 其中, wif 為關(guān)鍵詞 w 在文檔 i 中出現(xiàn)的頻率,即詞頻; N 為信息庫(kù)中文檔的數(shù)目; wn為信息庫(kù)中包含詞條 w 的文檔的個(gè)數(shù); iW 為文檔 i 中所有關(guān)鍵詞的個(gè)數(shù)。倒排文件結(jié)構(gòu)由詞匯和出現(xiàn)情況兩部分組成。索引被分成兩個(gè)文件存放。 在索引數(shù)據(jù)庫(kù)中搜索 “ 用戶 ”通過提交查詢請(qǐng)求給“ 查詢服務(wù)器 ”, “ 查詢服務(wù)器 ”分解搜索請(qǐng)求,在“ 索引數(shù)據(jù)庫(kù) ”中進(jìn)行相關(guān)網(wǎng)頁的查找,對(duì)于單個(gè)詞匯的查詢來說,只要從詞匯表中找到對(duì)應(yīng)的單詞就可以找到指向該單詞的出現(xiàn)情況列表;對(duì)于查詢串由多個(gè)單詞組成(這種情況在查詢過程中比較常見)相對(duì)于單詞匯查詢要復(fù)雜得多,首先獲取查詢串中每個(gè)詞匯的出現(xiàn)情況列表,然后遍歷所有這些獲取的列表,看看查詢串中的詞匯是否在文本中順序出現(xiàn)(對(duì)于短語)或者比較靠近(近似查詢)。 表 1 基于 Inter的全文搜索引擎 的組成結(jié)構(gòu) 命名空間 包名 主要實(shí)現(xiàn)的類 6 mtn, 多線程 網(wǎng)頁獲取入口 搜索入口 索引入口 語言分析器 查詢分析器 存儲(chǔ)結(jié)構(gòu) XML解析器 底層 IO/存儲(chǔ)結(jié)構(gòu) 一些公用的數(shù)據(jù)結(jié)構(gòu) ThreadFactory、 TaskQueue、 ThreadPool MessageHandler、 Filter、ThreadMonitor、 Fetcher Searcher、 Query、 Hits IndexSearcher、 IndexWriter Analyzer、 Token QueryParser Document、 Field XMLDocumentHandlerDOM、 XMLDocumentHandlerSAX FSDirectory、 AMDirectory、StoragePipeline BitVector、 PriorityQueue 全文檢索 的 API接口設(shè)計(jì)的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫(kù)的表 ==記錄 ==字段, 所以我們可以用一個(gè)標(biāo)準(zhǔn)的中間格式 XML作為數(shù)據(jù)導(dǎo)入接口,然后其他數(shù)據(jù)源,只要是能夠映射成表 ==記錄 ==字段這樣層次結(jié)構(gòu)的 (比如 PDF),只需要通過解析器轉(zhuǎn)換成標(biāo)準(zhǔn)的中間格式就可以進(jìn)行數(shù)據(jù)索引了。這樣針對(duì)其他語言的支持只是設(shè)計(jì)各種語言界面的問題了。這樣每個(gè)連接都處于不同的狀態(tài),包括: DNS查詢、連到主機(jī)、發(fā)送請(qǐng)求、得到響應(yīng)。 如 URLVisitedFilter確保 URL只被放入流水線中一次, RobotExclusionFilter檢查一個(gè)網(wǎng)頁是否拒絕網(wǎng)絡(luò)蜘蛛訪問。 每一個(gè) FetcherThread都是獨(dú)立運(yùn)行的, 它得到網(wǎng)頁,分析它, 提取其中的文本信息 并把它們存儲(chǔ)到 Storage中。 9 從數(shù)據(jù)源讀取文件名(多個(gè)),將文件分路徑 (path字段 )和內(nèi)容 (body字段 )2個(gè)字段進(jìn)行存儲(chǔ),并對(duì)內(nèi)容進(jìn)行全文索引:索引的單位是 Document對(duì)象,每個(gè) Document對(duì)象包含多個(gè)字段 Field對(duì)象,針對(duì)不同的字段屬性和數(shù)據(jù)輸出的需求,對(duì)字段還可以選擇不同的索引 /存儲(chǔ)字段規(guī)則,如對(duì)日期字段只索引存儲(chǔ)不切分;對(duì)文件路徑不索引;而對(duì)標(biāo)題,內(nèi)容字段則切分詞、索引并存儲(chǔ)。 i++) { InputStream is = new FileInputStream(filesPath [i])。 //將文檔寫入索引 (doc)。該過程主體程序如下: //指向索引目錄的搜索器 Searcher searcher = new IndexSearcher(indexPath)。 i()。 10 ? 檢索過程中所用的語言分析器“ Analyser”與索引過程用的是同一個(gè)分析器,否則,不能得出正確檢索結(jié)果。因此本文只能是一定程度上的理論研究,還有許多實(shí)現(xiàn)上的細(xì)節(jié)需要作深入的研究、試驗(yàn)和測(cè)試。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 qYpEh5pDx2zVkum amp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 QA9wkxFyeQ^! dj sXuyUP2kNXpRWXm Aamp。 gTXRm 6X4NGpP$vSTTamp。 qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 QA9wkxFyeQ^! djsXuyUP2kNXpRWXm Aamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 qYpEh5pDx2zVkum amp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm6X4NGpP$vSTTamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 MuWFA5uxY7JnD6YWRrWwc^vR9amp。 qYpEh5pDx2zVkum amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQc UE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn% Mz849Gx^Gj qvadNuKNamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 ksv*3tnGK8! z89Am YWpazadNuKNamp。 ksv*3t nGK8!z89Am YWv*3t nGK8! z89Am YWpazadNuKNamp。 gTXRm6X4NGpP$vSTTamp。ksv*3t nGK8!z89Am YWpazadNuKNamp。ksv*3t nGK8!z89Am YWpazadNuKNamp。 ksv*3t nGK8! z89Am YWv*3tnGK8! z89Am YWpazadNuKNamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm6X4NGpP$vSTTamp。 qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 MuWFA5uxY7JnD6YWRr Wwc^
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1