freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡爬蟲與信息處理(參考版)

2025-06-27 22:09本頁面
  

【正文】 i++) {File productfile = new File(file, files[i])。for (int i = 0。 比賽信息集成系統(tǒng)主要將賽事分成了影視歌舞、藝術(shù)愛好、科技創(chuàng)新、手private void traverse(File file) throws Exception {file=new File(F:\\work\\htmlParse\\race\\news\\)。讀取信息,并寫入數(shù)據(jù)庫中,至此遍歷下的文件即可輸入到數(shù)據(jù)庫中。類型category ,更新時間updatetime ,內(nèi)容content,鏈接line,標題fname等等。java io技術(shù)實現(xiàn)文本文件的輸入數(shù)據(jù)庫功能。()。fileName = (\\\\|//|:, race)。amp。amp。String name = ()。 i++) {traverse(extractor, new File(path, files[i]))。for (int i = 0。}public static void traverse(Extractor extractor, File path)throws Exception {if (path == null) {return。traverse(extractor, new File(F:\\work\\htmlParse\\data\\\\))。(F:\\work\\htmlParse\\race\\image\\)。public static void main(String[] args) throws Exception {Extractor extractor = new ExtractRace()。 其功能主要是解釋網(wǎng)頁文件將產(chǎn)品信息保存到。使用正則來匹配并獲得網(wǎng)頁中的字符串getProp() ,public abstract void extract()。 // if fail then return false}}…第 4 章 模塊實現(xiàn)33SEPARATOR表示裝載需要的網(wǎng)頁文件。 // if success then return true} catch (Exception e) {()。()。While ((c = (bytes))!= 1)(bytes, 0, c)。byte [] bytes = new byte[1024]。FileInputStream in1 = new FileInputStream(file_in)。return false。if (file_in == null || !()) {// file_in = new File(d:\\data\\)。}dirs = ([\\\\/]{1,}, /)。String[] ds = (/)。表示對圖片路徑進行哈希的算法,這里采用MD 5算法?!?4 章 模塊實現(xiàn)32HTMLParser的實例。protected static final String HASH_ALGORITHM = md5。private String imageDir = D:\\data\\dst\\pic\\。private String inuputFilePath。public static String fileName。inputFilePath表示當前所有被抓取的網(wǎng)頁的鏡象根目錄在Heritrix用mirror目錄表示。Newline表示所有結(jié)果的輸出路徑。解析出:圖 解析出 html 文件圖通過htmlparser遍歷解析出html 文件:,即可獲取data文件中的txt文件于race 文件中,分別是文本文件news和image中,txt文件:圖 txt 文件圖第 4 章 模塊實現(xiàn)30圖 圖片文件圖接下來程序要將其存入數(shù)據(jù)庫中race中,新建的表 Race中,數(shù)據(jù)表格圖如:圖 數(shù)據(jù)表格圖 io 流技術(shù)將解析的txt文本文件遍歷寫入數(shù)據(jù)庫中,:圖 運行文件圖至此,解析并存入數(shù)據(jù)庫的步驟就完成了。經(jīng)過遍歷解析文本文件,把文件中. txt 文件全部存入數(shù)據(jù)庫中,運用 java io 技術(shù)即可。毫不夸張地說,htmlparser 就是目前最好的 html 解析和分析的工具。它能超高速解析 html,而且不會出錯。 } } catch(Exception e) { ()。 try { if(()||()!=1 //||( ||(.zip) ||(.rar) ||(.xls) ||()!=1 ||(dns)!=1) { if(()!=1) getController().getFrontier().schedule(caUri)。protected void schedule(CandidateURI caUri) { String url=()。可以通過幾成FrontierSchedule,并重寫內(nèi)部的schedule方法達到我們的需要。 Pattern p=(public FrontierSchedulerForRace(String name) { super(name)。import 。import 。import 。在原FrontierSchedule中, 首先檢查當前鏈接處理后的結(jié)果集中是否有一些屬于高優(yōu)先級的鏈接,如果是,則轉(zhuǎn)走進行處理,如果沒有,則對所有結(jié)果進行遍歷,然后調(diào)用Frontier中的schedule 方法加入隊列進行處理。 } }} }……|TrapSuppressExtractor|SohuNewsExtractor|RaceExtractor…|TrapSuppressExtractor|SohuNewsExtractor|RaceExtractor第 4 章 模塊實現(xiàn)272)擴展 FrontierSchedule 來抓取特定的內(nèi)容。 } catch(URIException e) { if(getController()!=null) { getController().logUriError(e,(),url)。打開 文件,在所有 webui 中設置處理鏈接,頁面上的下拉列表中數(shù)據(jù)都保存在其中,加入我們開發(fā)的 RaceExtractor。再通過此段代碼取得當前鏈接的返回字符串,以方便對內(nèi)容進行分析與使用,如果沒有抓取到就先返回,抓取到就先將鏈接返回的內(nèi)容轉(zhuǎn)成字符串,再將字符串內(nèi)容進行正則匹配,取出鏈接的信息,若是找到一個鏈接,判斷他是否是 cdrace 的信息格式,是,加入隊列,以備后續(xù)處理。 } public RaceExtractor(String name,String description) {super(name,description)。 private static Logger logger=(())。 }}…public class RaceExtractor extends Extractor {protected boolean ignoreUnexceptionHTML=true。public void start() { if (((Boolean)getUncheckedAttribute(null, ATTR_PAUSE_AT_START)) .booleanValue()) { // trigger crawlwide pause ()。在這種情況下,就無法控制 heritrix 到底該抓哪些內(nèi)容,不該抓哪些內(nèi)容,今兒造成鏡像信息太復雜。很明顯,heritrix 內(nèi)嵌的 Extractor 并不能很好的完成所需要的工作,因為我們常常有特定的需要,比如可以抓取某一特定格式的文本片段。unpause()方法則是將阻塞的信號量設置為 false,即允許線程開始活動,然后通過 notifyAll()方法喚醒線程池中的被阻線程,開始抓取。在 start()方法中,首先判斷配置中的屬性是否允許當前線程的開始。 }…第 4 章 模塊實現(xiàn)25其中,抓取工作核心就是要啟動 Frontier(通過調(diào)用其 start()方法),一邊能開始想線程池中的工作線程提供 url,供其抓取。 ()。 Thread statLogger = new Thread(statistics)。 sendCrawlStateChangeEvent(, jobState)。 state = RUNNING。 sendCrawlStateChangeEvent(STARTED, )。最后,CrawlController 已經(jīng)具備了運行條件,就可以開始運行了,在此時,只需調(diào)用它的 requestCrawlStart()方法,就可以啟運線程池和Frontier 方法,然后就可以開始不斷的抓取網(wǎng)頁了。再調(diào)用 CrawlController 的構(gòu)造函數(shù),構(gòu)造出一個 CrawlController 實例。以上組件應該是一次正常的抓取過程中所必須的幾項。5)ToePool:線程池,管理所有該任務所創(chuàng)建的子線程。2)CrawlScope:決定當前的抓取范圍的一個組件。 // This gets passed into the initialize method.private transient SettingsHandler settingsHandler。private transient ToePool toePool。private transient Frontier frontier。private transient CrawlScope scope。 .framework中,在他的Field中。最后點擊 Submit job,創(chuàng)建項目進行爬取即可,以下是爬取下來的網(wǎng)頁信息。添加自己的 RaceExtractor 如圖 和添加FrontierScheduleForRace 如圖 所示:圖 添加 RaceExtractor 圖圖 添加 FrontierScheduleForRace 圖第 4 章 模塊實現(xiàn)23進入 Settings 進行設置。這里我們使用默認值。這里擇簡單直觀的鏡像方式:。6)Select Writers:它主要用于設定將所抓取到的信息以何種形式寫入磁盤。第 4 章 模塊實現(xiàn)225)Select Extractors:主要是用于解析當前服務器返回的內(nèi)容,取出頁面中的 URL,等待下次繼續(xù)抓取。4)Select Fetchers:這個參數(shù)用于解析網(wǎng)絡傳輸協(xié)議,比如解析 DNS、HTTP 或 FTP 等。比如判斷 信息等,它是整個處理器鏈的入口。這里我們使用默認值。2)Select URI Frontier:Frontier 是一個 URL 的處理器,它決定下一個被處理的 URL 是什么。例如選擇 BroadScope 則表示當前的抓取范圍不受限制,選擇 HostScope 則表示抓取的范圍在當前的 Host 范圍內(nèi)。登入爬蟲系統(tǒng),寫入需要爬取的網(wǎng)站地址相關(guān)信息,爬蟲界面圖如圖 所示:圖 爬蟲界面圖第 4 章 模塊實現(xiàn)21首先點擊“Modules”按鈕,在相應的頁面為此次任務設置各個處理模塊,一共有七項可配置的內(nèi)容,這里我們只設置 Crawl Scope 和 Writers 兩項,參數(shù)設置圖如圖 所示:圖 參數(shù)設置圖下面簡要介紹各項的意義。運行圖如圖 所示:圖 運行圖至此 heritrix 已經(jīng)成功安裝配置完畢。然后在 Classpath 頁選擇 UserEntries 選項,此時右邊的 Advanced 按鈕處于激活狀態(tài),點擊它,在彈出的對話框中選擇“Add Folders”,然后選擇 MyHeritrix 工程下的 conf 文件夾。其中的 Name 參數(shù)可以設置為任何方便識別的名字。然后設置版本參數(shù)為 。當?shù)谝淮芜\行 Heritrix 時,只需要修改該文件,為其加入 Web UI 的用戶名和密碼。4. 修改配置文件conf 文件夾是用來提供配置文件的,里面包含了一個很重要的文件:。拷貝完畢后的 MyHeritrix 工程目錄層次如圖 4 . 所示。需要注意的是它不包含幫助文檔,如果想使用幫助 ,可以將 heritrix\docs 中的 articles 文件夾拷貝到
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1