freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡(luò)爬蟲與信息處理-閱讀頁

2025-07-09 22:09本頁面
  

【正文】 置成主鍵,內(nèi)容最大長度外,還存放了網(wǎng)頁地址名稱,方便存入爬取下來的網(wǎng)頁地址,圖片地址,即可以重復(fù)使用的圖片地址資料,以及更新時間,方便后臺及時更新賽事信息,時間是數(shù)據(jù)庫在存入資料時自動生成的,類別則是方便爬取不同網(wǎng)站類別而設(shè)定的,類別一般是同種網(wǎng)站使用同一種類別。此項功能是為了方便后臺管理員的查看與審。它的最出色之處在于良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯,開發(fā)出適合的賽事信息系統(tǒng)。它由核心類(core classes)和插件模塊(pluggable modules)構(gòu)成。因此可用實現(xiàn)了特定抓取邏輯的第三方模塊來取代默認的插件模塊,從而滿足抓取的需要。在該類的 innerProcess(CrawlURI) 函數(shù)中,首先檢查當前鏈接隊列中是否有一些屬于高優(yōu)先級的鏈接。此外,還需要向 heritrix 中添加自己的 extractor。 操作界面目前 Heritrix 的最新版本是 ,以下是 的配置安裝過程: myeclipes 中新建 Java 工程 heritrix 1。1)將 下的 lib 文件夾拷貝到 heritrix1 項目根目錄;“Configure Build Path …”,然后選擇 Library 選項卡,單擊“Add JARs …”,加載數(shù)據(jù)圖如圖 所示:圖 加載數(shù)據(jù)圖2)在 heritrix1 工程上右鍵單擊選擇“Build Path”。如圖 所示。這三個文件夾包含了運行 Heritrix 所必須的核心源代碼。該文件是一個頂級域名列表,在 Heritrix 啟動時會被讀取。它包含了 Heritrix 運行所需的配置文件。該文件夾是用來提供 servlet 引擎的,包含了 Heritrix 的 web UI 文件?;蛑苯佑? 的 webapps 文件夾替換 \src 中的 webapps 文件夾,缺點是這個是打包好的 .war 文件,無法修改源代碼。這里運行 Heritrix 所需的源代碼等已經(jīng)準備完備,下面需要修改配置文件并添加運行參數(shù)。heritrix .properties 中配置了大量與 Heritrix 運行息息相關(guān)的參數(shù),這些參數(shù)的配置決定了 Heritrix 運行時的一些默認工具類、Web UI 的啟動參數(shù),以及 Heritrix 的日志格式等。設(shè)置 = admin:admin,“admin:admin”分別為用戶名和密碼。修改用戶信息圖如圖 所示所示:圖 修改用戶信息圖5. 配置運行文件第 4 章 模塊實現(xiàn)20“Run Configurations”,確保 Main 選項卡中的 Project 和 Main class 選項內(nèi)容正確。在 MyHeritrix 工程上右鍵單擊選擇 “Run As”。5. 創(chuàng)建網(wǎng)頁抓取任務(wù)“Java Application”,如果配置正確,會在控制臺輸出啟動信息找到 包中的 文件,它是 Heritrix 爬蟲啟動的入口,右鍵單擊選擇“Run As”。接下來需要運行文件,本系統(tǒng)在拓展完成 FrontierScheduler 和向heritrix 中添加自己的 extractor。1)Select Crawl Scope:Crawl Scope 用于配置當前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接。在這里我們選擇 ,并單擊右邊的 Change 按鈕保存設(shè)置狀態(tài)。同時,它還會將經(jīng)由處理器鏈解析出來的 URL 加入到等待處理的隊列中去。3)Select Pre Processors:這個隊列的處理器是用來對抓取時的一些先決條件進行判斷。這里我們使用默認值。這里我們使用默認值。這里我們使用默認值。一種是采用壓縮的方式(Arc),還有一種是鏡像方式(Mirror)。7)Select Post Processors:這個參數(shù)主要用于抓取解析過程結(jié)束后的掃尾工作,比如將 Extractor 解析出來的 URL 有條件地加入到待處理的隊列中去。進入 modules 即可添加自己需要的 RaceExtractor,和FrontierScheduleForRace,儲存方式為鏡像存儲。修改 heritrix 的版本號和需要爬取的網(wǎng)址,添加一個郵箱地址,可以不是真的郵箱地址。網(wǎng)頁信息圖如圖 所示:圖 網(wǎng)頁信息圖 核心代碼1.中央控制器是一次抓取任務(wù)中的核心組件,他將決定整個仍無的開始和結(jié)束。private transient CrawlOrder order。private transient ProcessorChainList processorChains。private transient AtomicInteger loopingToes。private transient ServerCache serverCache。 // Used to enable/disable singlethreaded operation after OOM第 4 章 模塊實現(xiàn)24在 CrawlController 類中,定義了以下幾個組件:1)CrawlOrder:一個抓取工作必須要的一個 Order 對象,他保存了對該次抓取任務(wù)中的 的屬性配置。3)ProcessorChainList:處理鏈接4)Frontier:一次抓取任務(wù)需要設(shè)定一個 Frontier,一次來不斷為其每個線程提供 url。6)ServerCache:緩存,保存了所有在當前任務(wù)中,抓取過的 Host 名稱和 Server 名稱。通過構(gòu)造一個CrawlController 的實例,來完成并進行抓取任務(wù),還有以下幾個步驟:首先,構(gòu)造一個 XMLSettingsHandler 對象,將 內(nèi)的屬性信息裝入。再次調(diào)用 CrawlController 的 intialize(SettingsHandler)方法,初始化CrawlController 實例。2.最終啟動抓取工作的事 requestCrawlStart()方法,代碼如下:public void requestCrawlStart() { runProcessorInitialTasks()。 String jobState。 jobState = 。 // A proper exit will change this value. = 。 (StatLogger)。 ()。而 BdbFrontier 的父類 AbstractFrontier 中的 start()方法和 unpause()方法。若不允許則 controller 停止抓取,若允許開始,則簡單的調(diào)用 unpause()方法。1)向 heritrix 中添加自己的 Extractor。Heritrix 所提供的大眾化的 Extractor 只能夠?qū)⑺械男畔⒆ト∠聛怼K晕覀儜?yīng)該建立自己的 Extractor。 } else { // simply begin unpause()。 private static final String url163=l。 public RaceExtractor(String name) {this(name,Race links from HTML documents)。}…第 4 章 模塊實現(xiàn)26構(gòu)造函數(shù),第一個正則式,適用于匹配 cdrace 信息的格式第二個正則式,則是用于匹配所有的a href=“xxx”將鏈接對象先轉(zhuǎn)成字符串。 判斷是否是 cdrace 的信息格式,倘若符合調(diào)用 addLinkFromString()方法,來將這個鏈接加入到某個緩存中,以備后續(xù)處理。private void addLinkFromString(CrawlURI curi,String url,CharSequence context,char hopType) { try { (url, (), hopType)。 } else { (failed creatAndAddLinkRelativeToBase+curi+,+url+,+context+,+hopType+:+e)。創(chuàng)建自己的FrontierSchedulerForRace來繼承FrontierScheduler。package 。import 。import 。public class FrontierSchedulerForRace extends FrontierScheduler { //private static final Logger LOGGER=(())。 }…第 4 章 模塊實現(xiàn)28這里,、.rar、.xls、robots .txt、dns的鏈接(即不下載這類的文件)。這樣,此次heritrix在執(zhí)行任務(wù)時,遇到這樣的文件,就會跳過抓取,從而達到對URL鏈接進行篩選的目的。 Matcher m=(url)。 } else { return。 } } }第 4 章 模塊實現(xiàn)29 頁面解析文本信息入庫模塊(htmlparser) 設(shè)計思想htmlparser 是一個純的 java 寫的 html(標準通用標記語言下一個應(yīng)用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取 html?,F(xiàn)在 htmlparser 最新版本為 。無論你是想抓取網(wǎng)頁數(shù)據(jù)還是改造 html 的內(nèi)容,都可以使用htmlparser。 操作界面以下是網(wǎng)絡(luò)爬蟲(heritrix)爬取下來的比賽信息的html頁面文件。示:第 4 章 模塊實現(xiàn)31圖 數(shù)據(jù)庫信息更新圖 核心代碼1,需要運行寫入main函數(shù)的 Extractor后,控制臺輸出信息,獲得所定義的目標目錄下并沒有相應(yīng)的txt文檔與圖片生成。outputPath表示當前正在被處理的文件。mirrorDir用于存放被處理過后的產(chǎn)口的圖片的目錄,通過構(gòu)…public abstract class Extractor {protected static final String NEWLINE = \r\n。private String outputPath = 。private String mirrorDir = 。private Parser parser。public static final String SEPARATOR = ======================。 HASH_ALGORITHM = md5。protected boolean copyImage(String image_url, String new_image_file) {//uploads/allimg/130503/String dirs = (0, ()1)。for(String dir:ds){dirs = (\\).concat(dir)。try {// instance the File as file_in and file_outFile file_in = new File(dirs)。(系統(tǒng)找不到指定的文件)。}File file_out = new File(new File(imageDir), new_image_file)。FileOutputStream out1 = new FileOutputStream(file_out)。int c。// close()。return (true)。return (false)。獲取輸出的路徑getOutputPath(),通過設(shè)置輸出的路徑,通常在初始化Extractor時就應(yīng)該做。抽象方法,用于供子類實現(xiàn)。再獲取正在處理的文件的路徑getInputFilePath()從mirror目錄下拷貝文件至所設(shè)定的圖片目錄,該方法可能需要被改變。(F:\\work\\htmlParse\\race\\news\\)。(F:\\work\\htmlParse\\data\\\\)。(count)。}if (()) {String[] files = ()。 i 。}} else {String pathname = ()。if ( ().endsWith() ||(!().endsWith() amp。 ().endsWith(.html)amp。 ().indexOf(_) == 1 )) {count++。(())。}}第 4 章 模塊實現(xiàn)34以上是Main函數(shù),指定需要解析的目錄文件,指定需要生成文本文件和圖片文件的地址。定義圖片地址imageURI。同時需要初始化。 信息篩選上傳、信息查看刪除的模塊 設(shè)計思想經(jīng)過以上步驟,最后一步——信息的錄入和篩選,查看和刪除,同時管理員還可以自行的添加本網(wǎng)站獨家賽事信息。String [] files = ()。 i 。String fname
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1