正文內(nèi)容

htmlparser使用說明書(參考版)

2025-06-01 22:30本頁面

　　

【正文】 NodeList nodeList = null。(textInPage)。(visitor)。myParser = (content, GBK)。(textInPage)。(visitor)。myParser = (content, GBK)。(textInPage)。(visitor)。//設(shè)置編碼(GBK)。 (====================================)。(====================================)。(====================================)。(====================================)。(====================================)。(====================================)。String content = readTextFile(aFile, GBK)。import 。import 。import 。import 。import 。import 。import 。import 。 } }}package 。 getDatabyUrl()。 } } } } } } } catch (ParserException e) { ()。 k 。 // 對不起，沒有你要查詢的記錄！ if ( == 1) { (對不起，沒有你要查詢的記錄)。amp。 j++) { TableRow tr = (TableRow) rows[j]。 for (int j = 0。 i++) { if ((i) instanceof TableTag) { TableTag tag = (TableTag) (i)。 // 可以從數(shù)據(jù)table的size:1921開始到結(jié)束 for (int i = 15。 (new NodeFilter[] { tableFilter })。 NodeFilter tableFilter = new NodeClassFilter()。 NodeList nodeList = null。 } } } } } } catch (ParserException e) { ()。 k++) { // (td + // td[k].toPlainTextString())。 for (int k = 0。 ((id))。 j 。 TableRow[] rows = ()。 i = ()。 try { nodeList = (lastFilter)。 OrFilter lastFilter = new OrFilter()。td231/tdtd232/tdtd233/td/tr/table + /body, GBK)。td221/tdtd222/tdtd223/td/tr + tr id=39。td211/tdtd212/tdtd213/td/tr + tr id=39。td131/tdtd132/tdtd133/td/tr/table + table id=’table2′ + tr id=39。td121/tdtd122/tdtd123/td/tr + tr id=39。td111/tdtd112/tdtd113/td/tr + tr id=39。 myParser = Parser .createParser( body + table id=’table1′ + tr id=39。 } /** * 測試對table * tr * td/td * /tr * /table的解析 */ public void testTable() { Parser myParser。public class ParserTestCase extends TestCase { private static final Logger logger = ()。import 。import 。import 。import 。import 。import 。 //testHtml()。 }*/ TableTag tabletag = (TableTag) (1)。 //標(biāo)簽名稱 (())。i()。 NodeList nodeList = (filter)。 String filterStr = table。 } /** * 讀取文件的方式/utl 來分析內(nèi)容. filePath也可以是一個Url. * param resource :文件/Url * throws Exception */ public static void test5(String resource) throws Exception { Parser myParser = new Parser(resource)。 //字符串的代表性節(jié)點:節(jié)點的描述 (new String(().getBytes(GBK)) + \r\n)。 i ()。 (())。 // 遍歷所有的節(jié)點 NodeList nodes = (new NodeFilter() { public boolean accept(Node node) { return true。 } } /** * 抽取純文本信息 * param inputHtml：html文本 * return * throws Exception */ public static String extractText(String inputHtml) throws Exception { StringBuffer text = new StringBuffer()。 } String testText = extractText(sTotalString)。 l_reader = new ( new (l_urlStream))。 ()。 l_url = new ( :8083/injs100/)。 sTotalString = 。 String sTotalString。import 。import 。import 。 } }}4利用htmlparser提取網(wǎng)頁純文本的例子package parser。 } catch (MalformedURLException e) { ()。 ()。 str = new String(sb)。 while ((s = ()) != null) { (s + CRLF)。 StringBuffer sb = new StringBuffer()。 String s, str。 /** * param args */ public static void main(String[] args) { try { URL ur = new URL()。import 。import 。import 。import 。 }}package parser。 //new GetContent().getContentUsingParser(url)。 // 保留原來的內(nèi)容格式. 包含js代碼 } catch (ParserException e) { ()。 BodyTag bt = (BodyTag) (0)。 try { Parser p = new Parser(url)。 } catch (ParserException e) { ()。 try { text = (link)。 } public void getContentUsingStringExtractor(String url, boolean link) { // StringExtractor se = new StringExtractor(url)。// If true regular space sb .setURL()。 // 是否顯示web頁面的連接(Links) // 為了取得頁面的整潔美觀一般設(shè)置上面兩項為true , 如果要保持頁面的原有格式, 如代碼頁面的空格縮進可以設(shè)置為false (true)。/** * 使用HtmlParser抓去網(wǎng)頁內(nèi)容: 要抓去頁面的內(nèi)容最方便的方法就是使用StringBean. 里面有幾個控制頁面內(nèi)容的幾個參數(shù). * 在后面的代碼中會有說明. Htmlparser包中還有一個示例StringExtractor 里面有個直接得到內(nèi)容的方法, * 其中也是使用了StringBean . 另外直接解析Parser的每個標(biāo)簽也可以的. * * author chenguoyong * */public class GetContent { public void getContentUsingStringBean(String url) { StringBean sb = new StringBean()。import 。import 。import 。 } }}結(jié)果如下：連接1連接22. 使用HtmlParser抓去網(wǎng)頁內(nèi)容package parser。 // 鏈接地址 ((href) + \n)。 i ()。 // 得到所有過濾后，想要的節(jié)點 nodelist = (filter, true)。 } // 所有的節(jié)點 NodeList nodelist = ()。 try { // HtmlPage extends visitor,Apply the given visitor to the current // page. (page)。 // 創(chuàng)建Parser對象根據(jù)傳給字符串和指定的編碼 Parser parser = (htmlcode, GBK)。39。39。import 。import 。import 。import 。import 。i)1. html代碼里面所有的鏈接地址和鏈接名稱package parser。Filter the list with the given filter.recursive)NodeListextractAllNodesThatMatch(NodeFilterNodeListextractAllNodesThatMatch(NodeFilterCreate a one element node list.node)Constructor SummaryNodeList()voidvisitTag(Tagtitle)parser)voidvisitAllNodesWith(NodeVisitorhtml, StringConstruct a parser using the provided URLConnection.Method:staticconnection)由于htmlparser 結(jié)構(gòu)設(shè)計精良，所以擴展htmlparser 非常便利。毫不夸張地說，htmlparser就是目前最好的html解析和分析的工具。使用htmlparser是一個純的java寫的html解析的庫，htmlparser不依賴于其它的java庫，htmlparser主要用于改造或提取html。 } }}基本能實現(xiàn)網(wǎng)頁抓取，不過要手動輸入URL，此外沒有重構(gòu)。 } catch (MalformedURLException e) { ()。 ()。 str = new String(sb)。 while ((s = ()) != null) { (s + CRLF)。 StringBuffer sb = new StringBuffer()。 String s, str。 /** * par

點擊復(fù)制文檔內(nèi)容

教學(xué)教案相關(guān)推薦

htmlparser使用說明書(參考版)

【摘要】HTMLParser使用說明書，這個類實際完成了對于HTML頁面的分析工作。這個類有下面幾個構(gòu)造函數(shù)：publicParser();publicParser(Lexerlexer,ParserFeedbackfb);publicParser(URLConnectionconnection,ParserFeedbackfb)throwsParserE

2025-06-01 22:30

房屋使用說明書(參考版)

【摘要】第一篇：房屋使用說明書房屋使用說明書中共阿瓦提縣委組織部：我單位建設(shè)施工的阿瓦提縣塔木托格拉克鄉(xiāng)、拜什艾日克鎮(zhèn)、阿依巴格鄉(xiāng)村級組織陣地建設(shè)項目，通過有關(guān)單位的大力支持及協(xié)調(diào)合作，已順利完工...

2024-10-28 13:25

教材使用說明書(參考版)

【摘要】第一篇：教材使用說明書舊營中學(xué)2013—2014學(xué)年度第二學(xué)期九年級語文下冊教材使用說明書教師：劉衍彬年3月3日201 4舊營中學(xué)2013—2014學(xué)年度第二學(xué)期...

2024-10-28 13:39

用戶使用說明書(參考版)

【摘要】用戶使用說明書注意事項·本使用說明書專門用于指導(dǎo)您使用手機的功能。·本公司遵循持續(xù)發(fā)展戰(zhàn)略，因此保留對產(chǎn)品的功能、界面和外形進行修改而不通知用戶的權(quán)利。·因產(chǎn)品軟件版本升級等因素，描述如和實際產(chǎn)品有出入，則以實際產(chǎn)品為準(zhǔn)?！ふ埌凑照５牟襟E關(guān)機，開機狀態(tài)下或正在充電時請不要隨意卸取電池，以防引起數(shù)據(jù)丟失等不良結(jié)果。請按照正確的方向

2024-08-15 04:32

住宅使用說明書(參考版)

【摘要】第一篇：住宅使用說明書房條件:《建筑工程竣工備案表》《住宅質(zhì)量保證書》和《住宅使用說明書》及配套設(shè)施驗收合格證交房條件的法律規(guī)定對于交房的標(biāo)準(zhǔn)，法律規(guī)定比較零散，各地不盡一致。但是，從相關(guān)...

2024-10-25 15:26

雨燕使用說明書(參考版)

【摘要】第一篇：雨燕使用說明書篇一：雨燕保養(yǎng)使用手冊2013雨燕車主保養(yǎng)使用手冊時尚外形的小車可以說是日系車中的擅長領(lǐng)域，Swift雨燕便是于2004年巴黎車展中正式亮相的小型車款。自04年11月日本...

2024-10-28 16:34

冰柜使用說明書(參考版)

【摘要】第一篇：冰柜使用說明書冰柜使用說明書 1、冰箱在搬運、放置過程中傾斜角不要超過45度。長途運輸?shù)睦涔駪?yīng)放置2小時后方可通電使用，以防止系統(tǒng)壓力過高而損壞。第一次使用應(yīng)當(dāng)先讓空柜運行1小時，當(dāng)箱內(nèi)...

2024-11-02 04:41

地毯使用說明書(參考版)

【摘要】第一篇：地毯使用說明書使用說明書新的地毯使用初期會有輕微伏毛出現(xiàn)，屬正?，F(xiàn)象。整個使用過程中，應(yīng)注意的是地毯的清洗。清洗地毯規(guī)范及操作一、水抽清洗地毯（可適于化纖地毯）使用設(shè)備：地毯刷...

2024-11-04 22:10

老婆使用說明書：(參考版)

【摘要】第一篇：老婆使用說明書：老婆使用說明書：品名：民間俗稱老婆，正式場合可稱妻子或內(nèi)人；現(xiàn)亦叫達(dá)令化學(xué)名稱：woman 成分：水、血液和脂肪類碳水化合物，氣味幽香。理化性質(zhì)：性質(zhì)活潑，根...

2024-11-05 02:32

老婆使用說明書(參考版)

【摘要】第一篇：老婆使用說明書老婆使用說明書【品名】妻子- 【俗稱】媳婦兒- 【通用名】老婆- 【英文名】wife- 【化學(xué)名稱】已婚女性- 【成分】水、蛋白質(zhì)、脂肪、核糖核酸、碳水化合物以...

2024-11-05 02:23

生命使用說明書(參考版)

【摘要】第一篇：生命使用說明書生命使用說明書第一、做自我分析我是一個開朗，善良，有愛心，樂于幫助他人的人。業(yè)余時間，我喜歡聽歌、攝影、打羽毛球......以后我可能是一名會計，也可能是一名銀行職員...

2024-10-28 14:36

漆包線使用說明書(參考版)

【摘要】第一篇：漆包線使用說明書漆包線產(chǎn)品儲存、防護及使用注意事項一、產(chǎn)品儲存基本要求 1、漆包線包裝箱應(yīng)成板堆放，堆碼高度不宜超過4箱，線軸碼放最高不要超過5軸。 2、漆包線應(yīng)遠(yuǎn)離塵埃（含金屬粉...

2024-11-05 00:59

冷庫使用說明書(參考版)

【摘要】......冷庫系列使用說明書上海肯德機電設(shè)備有限公司冷庫使用說明書冷庫建筑的特點和要求　　冷庫主要用于食品的冷凍加工及冷藏，它通過人工制冷，使室內(nèi)保持一定的低溫。冷庫的墻壁、地板及平頂都敷設(shè)有一定厚

2025-07-23 10:43

房屋使用說明書(參考版)

【摘要】......日喀則市藏興房地產(chǎn)開發(fā)有限公司房屋使用說明書二О一六年五月房屋使用說明書（示范文本）使用說明1、本使用說明書為示范文本；本示范文本中相關(guān)條款后都有空白行，供開發(fā)建設(shè)單位根據(jù)實際情況對文本條款的內(nèi)容進行選擇、修改、增補或刪減。2、本示范文本是根據(jù)國務(wù)院《城市房地產(chǎn)開發(fā)經(jīng)營管理條

2025-07-23 00:56

住宅使用說明書(參考版)

【摘要】住宅使用說明書（修訂版）海南省住房和城鄉(xiāng)建設(shè)廳制版編號：感謝您購買本公司開發(fā)的商品房。為使您安全、方便、舒適使用，請認(rèn)真閱讀《住宅使用說明書》說明及全文，并妥善保存。矚慫潤厲釤瘞睞櫪廡賴賃軔。說明一、本《住宅使用說明書》是根據(jù)國務(wù)院《城市房地產(chǎn)開發(fā)經(jīng)營管理條例》第三十一條和建設(shè)部《商品住宅實行住宅質(zhì)量保證書和住宅使用說明書制度的規(guī)定》及我省商品房住宅使用的實際情況

2024-08-12 18:40