freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

myeclipse集成lucene文檔解析與網(wǎng)絡(luò)蜘蛛heritrix(文件)

2025-06-25 13:37 上一頁面

下一頁面
 

【正文】 \\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\ (5)在上面的批處理文件中,將Heritrix所用到的所有的第三方Jar包都寫進(jìn)了classpath中。如圖104所示。 登錄后的界面(8)當(dāng)看到這個(gè)頁面的時(shí)候,就說明Heritrix已經(jīng)成功的啟動(dòng)了。conf文件夾是用來提供配置文件的,因此也需要配置進(jìn)入工程。 Heritrix的Jar包的結(jié)構(gòu)(2)根據(jù)圖107所示,應(yīng)該從Heritrix的源代碼包中把這些內(nèi)容取出,然后放置到工程中來。如圖109所示。 圖1010 文件夾中的工程其中,org目錄內(nèi)是Heritrix的源代碼,另外,筆者將conf目錄去掉了。圖1012 出錯(cuò)的程序(7)解決問題的關(guān)鍵在于,Eclipse的編譯器不認(rèn)識(shí)assert這個(gè)關(guān)鍵字。 改變編譯器的語法等級(jí)(8)在重新編譯完整個(gè)工程后,筆者的Eclipse中仍然出現(xiàn)了一個(gè)編譯錯(cuò)誤,如圖1015所示。(9)當(dāng)這樣修改完后,整個(gè)工程的錯(cuò)誤就被全部解決了,也就可以開始運(yùn)行Heritrix了。圖1017如圖1018所示。 Based on existing job:以一個(gè)已經(jīng)有的抓取任務(wù)為模板,創(chuàng)建所有抓取屬性和抓取起始URL的列表。 Based on a profile:專門為不同的任務(wù)設(shè)置了一些模板,新建的任務(wù)將按照模板來生成。 “任務(wù)”菜單中在Heritrix中,一個(gè)任務(wù)對應(yīng)一個(gè)描述文件。上面所說的4種創(chuàng)建抓取任務(wù)的方式。因?yàn)樗锩嫠械膬?nèi)容,都會(huì)在WebUI上看到。在Description中隨意填入字符,然后再在seeds框中,填入搜狐新聞的網(wǎng)址。(5)在圖1020中,設(shè)置了搜狐新聞的首頁為種子頁面,以此做為起始點(diǎn)。CrawlScope用于配置當(dāng)前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接。抓取任何可以抓取到的信息。同時(shí),它還會(huì)將經(jīng)由處理器鏈所解析出來的URL加入到等待處理的隊(duì)列中去。 設(shè)置Frontier除了這兩個(gè)組件外,還有5個(gè)隊(duì)列要配。如圖1025所示。如圖1026所示。在這個(gè)隊(duì)列中,包括了一系列的工具,如解析HTML、CSS等。圖1027如圖1028所示。圖1029 設(shè)置運(yùn)行時(shí)的參數(shù)在設(shè)置完處理鏈后,在頁面頂部或底部都可以找到如圖1030所示的菜單項(xiàng),單擊“Settings”鏈接,就進(jìn)入了屬性設(shè)置的頁面,如圖1030所示。 屬性配置頁面由于頁面上的內(nèi)容非常多,使用者可能無法全部了解它們的作用。 屬性提示可以看到,在每個(gè)屬性的右側(cè)都有一個(gè)小問號(hào),當(dāng)單擊問號(hào)時(shí),就會(huì)彈出一個(gè)Javascript的Alert提示框,上面介紹了當(dāng)前屬性的作用。以下就來介紹一些必須要在第一次使用時(shí)就要配置好的參數(shù)。默認(rèn)情況下,這兩個(gè)屬性的值如圖1033所示。圖1034 “PROJECT_URL_HERE”可以被替換成任何一個(gè)完整的URL地址。單擊“Submit”鏈接,提交這個(gè)抓取任務(wù),如圖1035所示。圖中最上方很清楚的顯示了“Job created”,這表示剛才所設(shè)置的抓取任務(wù)已經(jīng)被成功的建立?;氐健癈onsole”界面上,可以看到,如圖1037所示,剛剛創(chuàng)建的任務(wù)已經(jīng)顯示了出來,等待我們開始它。 內(nèi)存狀態(tài)顯示(4)此時(shí),單擊面版中的“Start”鏈接,就會(huì)將此時(shí)處于“Pending”狀態(tài)的抓取任務(wù)激活,令其開始抓?。?)在圖1039中,剛才還處于“Start”狀態(tài)的鏈接已經(jīng)變?yōu)榱薍old狀態(tài)。(7)在綠紅相間的長條左側(cè),是幾個(gè)實(shí)時(shí)的運(yùn)行狀態(tài),其中包括抓取的平均速度(KB/s)和每秒鐘抓取的鏈接數(shù)(URIs/sec),另外的統(tǒng)計(jì)還包括抓取任務(wù)所消耗的時(shí)間和剩余的時(shí)間,不過這種剩余時(shí)間一般都不準(zhǔn),因?yàn)閁RI的數(shù)量總是在不斷變化,每當(dāng)分析一個(gè)網(wǎng)頁,就會(huì)有新的URI加入隊(duì)列中。如圖1041所示。讓我們再來看一下當(dāng)Heritrix運(yùn)行一段時(shí)間后,整個(gè)系統(tǒng)的資源消耗和進(jìn)度情況。從進(jìn)度條上看,總共有3771個(gè)URI等待抓取,已經(jīng)完成了718個(gè)URI的抓取,另外,下載的字節(jié)總數(shù)也已經(jīng)達(dá)到了1390KB。 系統(tǒng)運(yùn)行一段時(shí)間后的情況(11)不過,當(dāng)抓取繼續(xù)進(jìn)行時(shí),觀察Java虛擬機(jī)的內(nèi)存使用,發(fā)現(xiàn)其已達(dá)飽合狀態(tài)。 Java虛擬機(jī)的內(nèi)存使用(12)由于這僅是一次演示,可以忽略內(nèi)存的影響。 在Eclipse中加入啟動(dòng)參數(shù)(13)按圖1044所示,輸入Java虛擬機(jī)的參數(shù),就可以增大Heritrix的最大可用內(nèi)存。因?yàn)檫@個(gè)百分比實(shí)際上是已經(jīng)處理的鏈接數(shù)和總共分析出的鏈接數(shù)的比值。 抓取了799的鏈接讀者可能已經(jīng)發(fā)現(xiàn),在Heritrix中,大量的鏈接被稱為URI。接下來,看一下它是如何存儲(chǔ)抓取下來的信息的。那么,究竟Heritrix是如何存儲(chǔ)下鏡象信息的呢?打開Eclipse的workspace目錄,進(jìn)入heritrixProject的工程,里面有一個(gè)jobs目錄。 Heritrix的鏡象存儲(chǔ)結(jié)構(gòu)由于在前面設(shè)置了Writer的類型為MirrorWriter。Heritrix中可能有一定程度的混淆,希望讀者不要對此感到奇怪。例如如圖1046所示,此時(shí)總共抓取到的鏈接數(shù)已經(jīng)達(dá)到了12280個(gè),處理了799個(gè),它的百分比數(shù)量為6%,這顯然比圖1042或圖1039中的要小。圖1045在使用命令行方式啟動(dòng)Heritrix的腳本中,筆者已經(jīng)為其加入了該參數(shù),而如果要在使用Eclipse啟動(dòng)Heritrix時(shí)也設(shè)置該參數(shù),具體的設(shè)置方法如圖1044所示。如圖1043所示??梢姡嗑€程抓取的速度還是很快的。其中,每秒下載的速率已經(jīng)達(dá)到了23KB,另外。 線程和隊(duì)列負(fù)載(9)從圖1040和圖1041中看到,真正的抓取任務(wù)還沒有開始,隊(duì)列中的總URI數(shù)量,以及下載的速率都還基本為0。圖1040圖1039 Job提交后的Console界面(3)在面版的右測,它顯示了當(dāng)前Java虛擬機(jī)的一些狀態(tài),如圖1038所示,可以看到當(dāng)前的堆大小為4184KB,而已經(jīng)被使用了3806KB,另外,最大的堆內(nèi)容可以達(dá)到65088KB,也就是在64M左右。圖1036 提交任務(wù)“Submit job” “from”屬性中不需要設(shè)置真實(shí)的Email地址,只需是格式正確的郵件地址就可以了。 “VERSION”字符串需要被替換成Heritrix的版本信息。 默認(rèn)的情況很明顯,這樣的值是無法完成真實(shí)的HTTP協(xié)議的模擬的,所以,必須要將值改掉。該參數(shù)的默認(rèn)值為100,而事實(shí)上根據(jù)筆者的經(jīng)驗(yàn),在機(jī)器配置和網(wǎng)絡(luò)均很好的情況下,設(shè)置50個(gè)線程數(shù)就已經(jīng)足夠使用了。另外,如果將這個(gè)值設(shè)為0,則表示沒有限制。如圖1032所示。 進(jìn)入“Settings”在屬性設(shè)置頁面上有非常多的輸入域,Heritrix在抓取網(wǎng)頁時(shí),這些域是用來對的各個(gè)組件的值進(jìn)行預(yù)設(shè),如圖1031所示。在設(shè)置完Hertrix所需的處理鏈后,仍然還不能夠馬上開始抓取任務(wù),還需對默認(rèn)的運(yùn)行時(shí)參數(shù)做一些修改,以適應(yīng)真正的需要。 設(shè)置Writer(5)PostProcessor:在整個(gè)抓取解析過程結(jié)束后,進(jìn)行一些掃尾的工作,比如將前面Extractor解析出來的URL有條件的加入到待處理隊(duì)列中去。通常寫入磁盤時(shí)有兩種形式,一種是采用壓縮的方式寫入,在這里被稱為Arc方式,另一種則采用鏡象方式寫入。在演示中,使用兩種Extractor,即ExtractorHTTP和ExtractorHTML。 設(shè)置Fetcher(3)Extractor:它的名字就很好的揭示了它的作用。 設(shè)置PreProcessor(2)Fetcher:從名稱上看,它用于解析網(wǎng)絡(luò)傳輸協(xié)議,比如解析DNS、HTTP或FTP等。5個(gè)隊(duì)列的含義分別如下:(1)PreProcessor:這個(gè)隊(duì)列中,所有的處理器都是用來對抓取時(shí)的一些先決條件做判斷的。如圖1024所示。圖1023從筆者的經(jīng)驗(yàn)看來,在抓取時(shí),無論是HostScope或PathScope都不能真正的限制到抓取的內(nèi)容。圖1022圖1021所謂seeds,其實(shí)指的是抓取任務(wù)的起始點(diǎn)。圖1020在所創(chuàng)建的Eclipse工程或是命令行啟動(dòng)的Heritrix下載包中,\default目錄下的。文件中詳細(xì)記錄了Heritrix在運(yùn)行時(shí)需要的所有信息。 With defaults:這個(gè)最簡單,表示按默認(rèn)的配置來生成一個(gè)任務(wù)。 Based on a recovery:在以前的某個(gè)任務(wù)中,可能設(shè)置過一些狀態(tài)點(diǎn),新的任務(wù)將從這個(gè)設(shè)置的狀態(tài)點(diǎn)開始。 菜單欄上的“Jobs”標(biāo)簽(2)在任務(wù)創(chuàng)建頁面中,有4種創(chuàng)建任務(wù)的方式,如圖1019所示,具體含義如下。 創(chuàng)建一個(gè)新的抓取任務(wù),已經(jīng)看到了Heritrix成功運(yùn)行后的WebUI,接下來,就要帶領(lǐng)讀者來創(chuàng)建一個(gè)新的抓取作務(wù)。圖1016 一個(gè)仍然存在的錯(cuò)誤從代碼看來,這是因?yàn)樵谑褂脳l件表達(dá)式,對strippedFileName這個(gè)String類型的對象賦值時(shí),操作符的右則出現(xiàn)了一個(gè)char型的常量,因此影響了編譯。如圖1014所示。這種寫法似乎Eclipse不認(rèn)識(shí)。(5)不過,讀者很有可能遇到這樣的情況,那就是在將所有的jar包都導(dǎo)入后,工程編譯完成,卻發(fā)現(xiàn)在左邊的package explorer中出現(xiàn)了大量的編譯錯(cuò)誤。 src目錄下的內(nèi)容(4)圖1010和圖1011是筆者機(jī)器上的Heritrix在Eclipse中的工程配置好后的截圖,以及workspace中文件夾的預(yù)覽。圖108最后就是Heritrix的jar包了,將其解壓,可以看到其內(nèi)部的結(jié)構(gòu)如圖107所示。下面來研究一下Heritrix的下載包。如圖106所示:圖106 Heritrix的WebUI的登錄界面(7)在這個(gè)登錄界面,就可以進(jìn)入如圖105所示的Heritrix的WebUI的主界面。圖103E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。E:\\heritrix\\lib\\。當(dāng)然,在運(yùn)行它的時(shí)候,需要為其加上lib目錄下的所有jar包。(3)在設(shè)置完登錄名和密碼后,就可以開始運(yùn)行Heritrix了。(2),這些參數(shù)主要是配置了Heritrix運(yùn)行時(shí)的一些默認(rèn)工具類、WebUI的啟動(dòng)參數(shù),以及Heritrix的日志格式等。(1)在下載完Heritrix的完整開發(fā)包后,解壓到本地的一個(gè)目錄下,如圖101所示。在Heritrix的文檔中對它的運(yùn)行有詳細(xì)的介紹,不過盡管如此,筆者仍然花了大量時(shí)間,才將其配置好并運(yùn)行成功。本章就來詳細(xì)介紹一下Heritrix和它的各個(gè)組件。但是,無論多么強(qiáng)大的搜索引擎工具,在其后臺(tái),都需要一樣?xùn)|西來支援它,那就是網(wǎng)絡(luò)爬蟲Spider。圖719 } } finally { } catch (Exception e) { // 關(guān)閉word new Variant(true) }, new int[1]).toDispatch()。 , // 打開word文件 try {public static void extractDoc(String inputFIle, String outputFile) { Eclipse中JRE設(shè)置的對話框(3)當(dāng)前選擇的JRE是“C:\Program Files\Java\\jre”目錄下的,“C:\Program Files\Java\\jre\bin”目錄下面。 在Eclipse中配置(1) Path,然后確認(rèn)自己機(jī)器的CPU類型(X86或AMD64)。Jacob下載的地址為:。目前網(wǎng)上有許多提供這樣的工具。 處理后的結(jié)果可以看到Word文檔內(nèi)的文本已經(jīng)全部被提取了出來。 }處理前的Doc文件如圖715所示。 String text = (c:/)。public static void main(String[] args) { // 創(chuàng)建WordExtractor String text = null。 WordExtractor extractor = null。 FileInputStream in = new FileInputStream(new File(doc))。下載后,把該包加入工程的Build Path中,
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1