正文內(nèi)容

htmlparser使用說(shuō)明書-展示頁(yè)

2025-06-07 22:30本頁(yè)面

　　

【正文】點(diǎn)進(jìn)行操作 HasChildFilter下面讓我們看看HasChildFilter。}}}catch( Exception e ) {()。message(getText:+())。 i ()。NodeList nodes = (filter)。// 這里是控制測(cè)試的部分，后面的例子修改的就是這個(gè)地方。（二）判斷類Filter TagNameFilterTabNameFilter是最容易理解的一個(gè)Filter，根據(jù)Tag的名字進(jìn)行過(guò)濾。這個(gè)接口只有一個(gè)主要函數(shù)：boolean accept (Node node)。也可以分為幾類。第一類函數(shù)比較容易理解，下面用例子說(shuō)明一下第二類函數(shù)。用于Visitor遍歷的函數(shù)：void accept (NodeVisitor visitor)：對(duì)這個(gè)Node應(yīng)用visitor用于修改內(nèi)容的函數(shù)，這類用得比較少：void setPage (Page page)：設(shè)置這個(gè)Node對(duì)應(yīng)的Page對(duì)象void setText (String text)：設(shè)置文本void setChildren (NodeList children)：設(shè)置子節(jié)點(diǎn)列表其他函數(shù)：void doSemanticAction ()：執(zhí)行這個(gè)Node對(duì)應(yīng)的操作（只有少數(shù)Tag有對(duì)應(yīng)的操作）Object clone ()：接口Clone的抽象函數(shù)。Node中包含的方法有幾類：對(duì)于樹型結(jié)構(gòu)進(jìn)行遍歷的函數(shù)，這些函數(shù)最容易理解：Node getParent ()：取得父節(jié)點(diǎn)NodeList getChildren ()：取得子節(jié)點(diǎn)的列表Node getFirstChild ()：取得第一個(gè)子節(jié)點(diǎn)Node getLastChild ()：取得最后一個(gè)子節(jié)點(diǎn)Node getPreviousSibling ()：取得前一個(gè)兄弟Node getNextSibling ()：取得下一個(gè)兄弟節(jié)點(diǎn)取得Node內(nèi)容的函數(shù)：String getText ()：取得文本String toPlainTextString()：取得純文本信息。Node是信息保存的數(shù)據(jù)類型基礎(chǔ)。大家看到能Parser出內(nèi)容就可以了，如何操作訪問(wèn)Parser的內(nèi)容我們?cè)诤竺嬗懻?。message(textInPage)。(visitor)。Parser parser = new Parser( (HttpURLConnection) (new URL(:8080/)).openConnection() )。try{//Parser parser = (szContent, ENCODE)。}catch( Exception e ) {return。}()。String szTemp。 } catch(Exception e ){}}publicstatic String openFile( String szFileName ) {try {BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) )。/*** author */publicclass Main {privatestatic String ENCODE = GBK。import 。import 。import 。import 。下面是初始化Parser的例子。這里比較有趣的一點(diǎn)是，如果需要設(shè)置頁(yè)面的編碼方式的話，不使用Lexer就只有靜態(tài)函數(shù)一個(gè)方法了。ParserFeedback的代碼很簡(jiǎn)單，是針對(duì)調(diào)試和跟蹤分析過(guò)程的，一般不需要改變。和一個(gè)靜態(tài)類public static Parser createParser (String html, String charset)。public Parser (Lexer lexer)。public Parser (String resource, ParserFeedback feedback) throws ParserException。public Parser (Lexer lexer, ParserFeedback fb)。HTMLParser使用說(shuō)明書，這個(gè)類實(shí)際完成了對(duì)于HTML頁(yè)面的分析工作。這個(gè)類有下面幾個(gè)構(gòu)造函數(shù)：public Parser ()。public Parser (URLConnection connection, ParserFeedback fb) throws ParserException。public Parser (String resource) throws ParserException。public Parser (URLConnection connection) throws ParserException。對(duì)于大多數(shù)使用者來(lái)說(shuō)，使用最多的是通過(guò)一個(gè)URLConnection或者一個(gè)保存有網(wǎng)頁(yè)內(nèi)容的字符串來(lái)初始化Parser，或者使用靜態(tài)函數(shù)來(lái)生成一個(gè)Parser對(duì)象。而使用Lexer則是一個(gè)相對(duì)比較高級(jí)的話題，放到以后再討論吧。對(duì)于大多數(shù)中文頁(yè)面來(lái)說(shuō)，好像這是應(yīng)該用得比較多的一個(gè)方法。package 。import 。import 。import 。import 。privatestaticvoid message( String szMsg ) {try{(new String((ENCODE), ()))。String szContent=。while ( (szTemp = ()) != null) {szContent+=szTemp+\n。return szContent。}}publicstaticvoid main(String[] args) {String szContent = openFile( E:/My Sites/)。//Parser parser = new Parser( szContent )。TextExtractingVisitor visitor = new TextExtractingVisitor()。String textInPage = ()。}catch( Exception e ) {}}}加重的部分測(cè)試了幾種不同的初始化方法，后面的顯示了結(jié)果。HTMLParser將解析過(guò)的信息保存為一個(gè)樹的結(jié)構(gòu)。請(qǐng)看Node的定義：publicinterface Node extends Cloneable。String toHtml () ：取得HTML信息（原始HTML）String toHtml (boolean verbatim)：取得HTML信息（原始HTML）String toString ()：取得字符串信息（原始HTML）Page getPage ()：取得這個(gè)Node對(duì)應(yīng)的Page對(duì)象int getStartPosition ()：取得這個(gè)Node在HTML頁(yè)面中的起始位置int getEndPosition ()：取得這個(gè)Node在HTML頁(yè)面中的結(jié)束位置用于Filter過(guò)濾的函數(shù)：void collectInto (NodeList list, NodeFilter filter)：基于filter的條件對(duì)于這個(gè)節(jié)點(diǎn)進(jìn)行過(guò)濾，符合條件的節(jié)點(diǎn)放到list中。實(shí)際我們用HTMLParser最多的是處理HTML頁(yè)面，F(xiàn)ilter或Visitor相關(guān)的函數(shù)是必須的，然后第一類和第二類函數(shù)是用得最多的。（一）Filter類顧名思義，F(xiàn)ilter就是對(duì)于結(jié)果進(jìn)行過(guò)濾，取得需要的內(nèi)容。判斷類Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter邏輯運(yùn)算Filter：AndFilterNotFilterOrFilterXorFilter其他Filter：NodeClassFilterStringFilterLinkStringFilterLinkRegexFilterRegexFilterCssSelectorNodeFilter。各個(gè)子類分別實(shí)現(xiàn)這個(gè)函數(shù)，用于判斷輸入的Node是否符合這個(gè)Filter的過(guò)濾條件，如果符合，返回true，否則返回false。publicstaticvoid main(String[] args) {try{Parser parser = new Parser( (HttpURLConnection) (new URL(:8080/)).openConnection() )。NodeFilter filter = new TagNameFilter (DIV)。if(nodes!=null) {for (int i = 0。 i++) {Node textnode = (Node) (i)。message(=================================================)。}}輸出結(jié)果：getText:div id=top_main=================================================getText:div id=logoindex=================================================可以看出文件中兩個(gè)Div節(jié)點(diǎn)都被取出了。剛剛看到這個(gè)Filter的時(shí)候，我想當(dāng)然地認(rèn)為這個(gè)Filter返回的是有Child的Tag。結(jié)果調(diào)用NodeList nodes = (filter)。讀了一下HasChildFilter的代碼，才發(fā)現(xiàn)，實(shí)際HasChildFilter是返回有符合條件的子節(jié)點(diǎn)的節(jié)點(diǎn)，需要另外一個(gè)Filter作為過(guò)濾子節(jié)點(diǎn)的參數(shù)。從這點(diǎn)來(lái)看，HTMLParser的代碼還有很多可以優(yōu)化的的地方。修改代碼：NodeFilter innerFilter = new TagNameFilter (DIV)。NodeList nodes = (filter)。（body有子節(jié)點(diǎn)DIV top_main，top_main有子節(jié)點(diǎn)logoindex。比如前面的例子，body和top_main都是在第一級(jí)的子節(jié)點(diǎn)里就有DIV節(jié)點(diǎn)，所以匹配上了?？梢钥吹捷敵鼋Y(jié)果中多了一個(gè)html xmlns=，這個(gè)是整個(gè)HTML頁(yè)面的節(jié)點(diǎn)（根節(jié)點(diǎn)），雖然這個(gè)節(jié)點(diǎn)下直接沒(méi)有DIV節(jié)點(diǎn)，但是它的子節(jié)點(diǎn)body下面有DIV節(jié)點(diǎn)，所以它也被匹配上了。public HasAttributeFilter (String attribute)。這個(gè)Filter可以匹配出包含制定名字的屬性，或者制定屬性為指定值的節(jié)點(diǎn)。調(diào)用方法1:NodeFilter filter = new HasAttributeFilter()。輸出結(jié)果：什么也沒(méi)有輸出。NodeList nodes = (filter)。NodeList nodes = (filter)。呵呵其他判斷列FilterHasParentFilter和HasSiblingFilter的功能與HasChildFilter類似，大家自己試一下就應(yīng)該了解了。}accept函數(shù)也很簡(jiǎn)單：publicboolean accept (Node node) {return (mNode == node)。（三）邏輯運(yùn)算Filter前面介紹的都是簡(jiǎn)單的Filter，只能針對(duì)某種單一類型的條件進(jìn)行過(guò)濾。原理和一般編程語(yǔ)言的邏輯運(yùn)算是一樣的。測(cè)試代碼：NodeFilter filterID = new HasAttributeFilter( id )。NodeFilter filter = new AndFilter(filterID, filterChild)。NodeFilter filterChild = new HasChildFilter(filterA)。輸出結(jié)果：getText:div id=top_main=================================================getText:div id=logoindex================================================= NotFilter把前面的AndFilter換成NotFilter測(cè)試代碼：NodeFilter filterID = new HasAttributeFilter( id )。NodeFilter filter = new NotFilter(new OrFilter(filterID, filterChild))。NodeFilter filterChild = new HasChildFilter(filterA)。（四）其他Filter： NodeClassFilter這個(gè)Filter用于判斷節(jié)點(diǎn)類型是否是某個(gè)特定的Node類型。測(cè)試代碼：NodeFilter filter

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)教案相關(guān)推薦

冰柜使用說(shuō)明書-展示頁(yè)

【摘要】第一篇：冰柜使用說(shuō)明書冰柜使用說(shuō)明書 1、冰箱在搬運(yùn)、放置過(guò)程中傾斜角不要超過(guò)45度。長(zhǎng)途運(yùn)輸?shù)睦涔駪?yīng)放置2小時(shí)后方可通電使用，以防止系統(tǒng)壓力過(guò)高而損壞。第一次使用應(yīng)當(dāng)先讓空柜運(yùn)行1小時(shí)，當(dāng)箱內(nèi)...

2024-11-02 04:41

地毯使用說(shuō)明書-展示頁(yè)

【摘要】第一篇：地毯使用說(shuō)明書使用說(shuō)明書新的地毯使用初期會(huì)有輕微伏毛出現(xiàn)，屬正?，F(xiàn)象。整個(gè)使用過(guò)程中，應(yīng)注意的是地毯的清洗。清洗地毯規(guī)范及操作一、水抽清洗地毯（可適于化纖地毯）使用設(shè)備：地毯刷...

2024-11-04 22:10

老婆使用說(shuō)明書：-展示頁(yè)

【摘要】第一篇：老婆使用說(shuō)明書：老婆使用說(shuō)明書：品名：民間俗稱老婆，正式場(chǎng)合可稱妻子或內(nèi)人；現(xiàn)亦叫達(dá)令化學(xué)名稱：woman 成分：水、血液和脂肪類碳水化合物，氣味幽香。理化性質(zhì)：性質(zhì)活潑，根...

2024-11-05 02:32

老婆使用說(shuō)明書-展示頁(yè)

【摘要】第一篇：老婆使用說(shuō)明書老婆使用說(shuō)明書【品名】妻子- 【俗稱】媳婦兒- 【通用名】老婆- 【英文名】wife- 【化學(xué)名稱】已婚女性- 【成分】水、蛋白質(zhì)、脂肪、核糖核酸、碳水化合物以...

2024-11-05 02:23

生命使用說(shuō)明書-展示頁(yè)

【摘要】第一篇：生命使用說(shuō)明書生命使用說(shuō)明書第一、做自我分析我是一個(gè)開朗，善良，有愛心，樂(lè)于幫助他人的人。業(yè)余時(shí)間，我喜歡聽歌、攝影、打羽毛球......以后我可能是一名會(huì)計(jì)，也可能是一名銀行職員...

2024-10-28 14:36

漆包線使用說(shuō)明書-展示頁(yè)

【摘要】第一篇：漆包線使用說(shuō)明書漆包線產(chǎn)品儲(chǔ)存、防護(hù)及使用注意事項(xiàng) 一、產(chǎn)品儲(chǔ)存基本要求 1、漆包線包裝箱應(yīng)成板堆放，堆碼高度不宜超過(guò)4箱，線軸碼放最高不要超過(guò)5軸。 2、漆包線應(yīng)遠(yuǎn)離塵埃（含金屬粉...

2024-11-05 00:59

冷庫(kù)使用說(shuō)明書-展示頁(yè)

【摘要】......冷庫(kù)系列使用說(shuō)明書上?？系聶C(jī)電設(shè)備有限公司冷庫(kù)使用說(shuō)明書冷庫(kù)建筑的特點(diǎn)和要求　　冷庫(kù)主要用于食品的冷凍加工及冷藏，它通過(guò)人工制冷，使室內(nèi)保持一定的低溫。冷庫(kù)的墻壁、地板及平頂都敷設(shè)有一定厚

2025-07-29 10:43

房屋使用說(shuō)明書-展示頁(yè)

【摘要】......日喀則市藏興房地產(chǎn)開發(fā)有限公司房屋使用說(shuō)明書二О一六年五月房屋使用說(shuō)明書（示范文本）使用說(shuō)明1、本使用說(shuō)明書為示范文本；本示范文本中相關(guān)條款后都有空白行，供開發(fā)建設(shè)單位根據(jù)實(shí)際情況對(duì)文本條款的內(nèi)容進(jìn)行選擇、修改、增補(bǔ)或刪減。2、本示范文本是根據(jù)國(guó)務(wù)院《城市房地產(chǎn)開發(fā)經(jīng)營(yíng)管理?xiàng)l

2025-07-29 00:56

住宅使用說(shuō)明書-展示頁(yè)

【摘要】住宅使用說(shuō)明書（修訂版）海南省住房和城鄉(xiāng)建設(shè)廳制版編號(hào)：感謝您購(gòu)買本公司開發(fā)的商品房。為使您安全、方便、舒適使用，請(qǐng)認(rèn)真閱讀《住宅使用說(shuō)明書》說(shuō)明及全文，并妥善保存。矚慫潤(rùn)厲釤瘞睞櫪廡賴賃軔。說(shuō)明一、本《住宅使用說(shuō)明書》是根據(jù)國(guó)務(wù)院《城市房地產(chǎn)開發(fā)經(jīng)營(yíng)管理?xiàng)l例》第三十一條和建設(shè)部《商品住宅實(shí)行住宅質(zhì)量保證書和住宅使用說(shuō)明書制度的規(guī)定》及我省商品房住宅使用的實(shí)際情況

2024-08-16 18:40

用戶使用說(shuō)明書-展示頁(yè)

【摘要】用戶使用說(shuō)明書注意事項(xiàng)·本使用說(shuō)明書專門用于指導(dǎo)您使用手機(jī)的功能?！け竟咀裱掷m(xù)發(fā)展戰(zhàn)略，因此保留對(duì)產(chǎn)品的功能、界面和外形進(jìn)行修改而不通知用戶的權(quán)利?！ひ虍a(chǎn)品軟件版本升級(jí)等因素，描述如和實(shí)際產(chǎn)品有出入，則以實(shí)際產(chǎn)品為準(zhǔn)?！ふ?qǐng)按照正常的步驟關(guān)機(jī)，開

2024-08-19 03:44

sigmapc使用說(shuō)明書-展示頁(yè)

【摘要】SIGMAPC-15使用說(shuō)明書28頁(yè)?1.??區(qū)域指示?區(qū)域指示告訴你目前所處于3個(gè)訓(xùn)練區(qū)域中的哪一個(gè)2.??時(shí)間格式?在12小時(shí)格式下你可以看到時(shí)間處于Am或是Pm3.??跑人圖案?在訓(xùn)練指導(dǎo)功能開啟後，跑人圖案會(huì)顯示在屏幕上4.??鬧鐘?鬧鐘功能啟動(dòng)后，鬧鐘圖案會(huì)顯示在屏幕上

2025-05-22 22:11

冷干機(jī)使用說(shuō)明書-展示頁(yè)

【摘要】目錄一、冷干機(jī)原理………………………………………………………………………2二、冷干機(jī)零部件圖解………………………………………………………………3三、設(shè)備安裝事項(xiàng)…………………………………………………………………4-6四、SLAD系列冷凍式干燥機(jī)操作方法…………………………………………6-7五、常規(guī)控制儀表板說(shuō)明……………………………………

2025-07-29 11:18

機(jī)柜使用說(shuō)明書-展示頁(yè)

【摘要】......機(jī)柜使用說(shuō)明書1.概述本機(jī)柜為19英寸標(biāo)準(zhǔn)計(jì)算機(jī)機(jī)柜，主要用于網(wǎng)絡(luò)、監(jiān)控、計(jì)算機(jī)等領(lǐng)域，具有所有機(jī)柜的一般通用性尺寸規(guī)格：2000mm（不含輪腳）X1100mm(深度)X600mm（寬度）內(nèi)部有效高度：42U顏色：黑色砂紋。2.使用環(huán)境條件(1).工作電壓：AC220V～380V

2025-06-07 22:50

軟件使用說(shuō)明書-展示頁(yè)

【摘要】國(guó)家學(xué)生體質(zhì)健康測(cè)試上報(bào)輔助系統(tǒng)國(guó)家學(xué)生體質(zhì)健康測(cè)試上報(bào)輔助系統(tǒng)(原名：體測(cè)工具)使用說(shuō)明書目錄第一章概述 3第二章軟件運(yùn)行的軟硬件環(huán)境 4 4 4第三章安裝說(shuō)明 5 5 5 5第四章主要業(yè)務(wù)流程 6 6第五章軟件功能操作說(shuō)明 7 7 7 8 8 9

2024-08-19 06:28

手機(jī)使用說(shuō)明書-展示頁(yè)

【摘要】中恒雙模智能手機(jī)使用說(shuō)明書二○一〇年十月歡迎使用感謝您選擇中恒科技的智能手機(jī)。本手機(jī)依托于Google倡導(dǎo)的Android平臺(tái)，專門為CDMA和GSM的雙網(wǎng)絡(luò)環(huán)境而研發(fā)設(shè)計(jì)。除了一般手機(jī)的基本功能之外，我們還為您提供包括音樂(lè)播放、

2024-08-19 00:05