freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java技術(shù)的網(wǎng)頁(yè)內(nèi)容智能抓取(編輯修改稿)

2025-02-12 13:32 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 p。amp。rs3=0amp。amp。rs4=0amp。amp。word=javaamp。amp。pn=100 / /multiurl targetregex root= ![CDATA[ class=t\shref=\(.*?)\ ]] /targetregex /target 首先我們列出3個(gè)頁(yè)面列表,每個(gè)頁(yè)面上大概有50個(gè)帖子,通過(guò)查看源代碼我們看到它的url是這樣寫的a class=t href=/f?kz=350025590 target=_blank ,通過(guò)總結(jié)規(guī)律,我們得出了上面targetregex的正則表達(dá)式,系統(tǒng)將通過(guò)這個(gè)正則去匹配所有符合條件的地址。注意,必須將我們要的地址頁(yè)就是這里href里面的內(nèi)容用()括起來(lái),這樣系統(tǒng)才會(huì)獲取這個(gè)分組。 由于百度這里采用的是相對(duì)路徑,所以我們要設(shè)定根節(jié)點(diǎn)root,系統(tǒng)匹配完成后會(huì)用root加上匹配結(jié)果作為目標(biāo)地址,也就是。 同樣的,wildcardurl元素也可以配合targetregex來(lái)使用。清除目標(biāo)定義作用: 將抓取到的目標(biāo)文件用定義的規(guī)則進(jìn)行裁減。先去掉網(wǎng)頁(yè)中我們不需要的內(nèi)容,可能對(duì)于后面的解析有幫助。清除目標(biāo)定義的XML文件范例:cleaner clean type=head/clean clean type=css/clean clean type=script/clean clean type=tags ![CDATA[ table|/table|br / ]] /clean clean type=regex ![CDATA[ p.*?/p ]] /clean/cleanerXML規(guī)則:1. 必須包含cleaner節(jié)點(diǎn)。clean任務(wù)只要是為了提高后面處理任務(wù)的執(zhí)行效率。clean任務(wù)先去掉了網(wǎng)頁(yè)中不會(huì)參與解析的內(nèi)容,可以減少后面執(zhí)行解析的速度。2. clean節(jié)點(diǎn)可以任意多個(gè),預(yù)定義的type屬性包括:head,css,script,tags,regex。clean類型為head的,會(huì)將網(wǎng)頁(yè)內(nèi)容截?cái)嘀槐A鬮ody跟body之間的內(nèi)容。head之間的內(nèi)容會(huì)被刪除。clean類型為css的,會(huì)將頁(yè)面上所有css定義去掉,但是這個(gè)清除不包括去掉內(nèi)聯(lián)的style定義。clean類型為script的,會(huì)將頁(yè)面上所有javascript腳本去掉。類型為tags的,如果CDATA內(nèi)沒(méi)有定義任何字段,那么會(huì)清除頁(yè)面上所有的html標(biāo)簽,如果CDATA定義了字段,那么會(huì)清除定義的html標(biāo)簽。最后一個(gè)也是最強(qiáng)大的一個(gè),正則表達(dá)式類型,系統(tǒng)會(huì)對(duì)所有匹配的內(nèi)容進(jìn)行正則替換。解析過(guò)程:1. 讀取clean列表,獲得要進(jìn)行清除的任務(wù)。2. 判斷clean類型,執(zhí)行相應(yīng)的操作。注意:由于clean會(huì)對(duì)內(nèi)容進(jìn)行全文搜索與替換,在內(nèi)容很長(zhǎng)的情況下可能會(huì)非常消耗資源并要執(zhí)行很長(zhǎng)時(shí)間。對(duì)于clean操作如非必要,慎用。只有head類型的是例外,head由于只在頭尾出現(xiàn),所以匹配執(zhí)行速度很快。是比較常用的定義。舉例1: 對(duì)于抓取,我們通常只關(guān)心網(wǎng)頁(yè)的文字內(nèi)容。那么解析前我們就可以將head部分的內(nèi)容都去掉。這部分內(nèi)容對(duì)于解析毫無(wú)意義。那么我們可以這樣定義:cleaner clean type=head/clean/cleaner 很簡(jiǎn)單完成。舉例2: 可能我們也不想要內(nèi)容中的腳本,和頭。cleaner clean type=head/clean clean type=script/clean/cleaner 同樣簡(jiǎn)單。舉例3: 清除網(wǎng)頁(yè)上所有的span跟pre標(biāo)簽cleaner clean type=tags ![CDATA[ span|pre ]] /clean/cleaner處理過(guò)程定義作用: 系統(tǒng)的核心過(guò)程,通過(guò)定義這
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1