freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

在線產(chǎn)品即時比價系統(tǒng)設(shè)計方案(編輯修改稿)

2025-05-24 01:20 本頁面
 

【文章內(nèi)容簡介】 在搜索結(jié)果中,京東的的圖書和非圖書的搜索結(jié)果頁面結(jié)構(gòu)是不同的,圖書和非圖書商品在搜索結(jié)果頁面中的HTML代碼對比如下:ul class=listh clearfix ul class=listh clearfixli class=itembook bookid=”…” li sku=”…” 圖書商品1 非圖書商品1/li /lili class=itembook bookid=”…” li sku=”…” 圖書商品2 非圖書商品2/li /lili class=itembook bookid=”…” li sku=”…” 圖書商品3 非圖書商品3/li /li…… ……li class=itembook bookid=”…” li sku=”…” 圖書商品N 非圖書商品N/li /li…… ……/ul /ul標簽ul class=listh clearfix中存放搜索得到的所有商品。獲取商品的列表就是將標簽ul class=listh clearfix中的所有子標簽li對應(yīng)的Node結(jié)點過濾出來。系統(tǒng)中實現(xiàn)獲取搜索結(jié)果頁面商品列表算法的為類JDItemInfoList的GetItemInfoList方法,類JDItemInfoList同時也是實現(xiàn)數(shù)據(jù)爬取層的頂層類,. 類JDItemInfoList成員簡介PageInfoData pagedata存儲用戶請求的頁面信息對象pageurl當(dāng)前需要解析的頁面URLpublic JDItemInfoList ( PageInfoData pagedata1,String url)構(gòu)造方法private ListItemInfo getItemInfoList ( )通過頁面URL獲取商品列表getItemInfoList方法可以采取兩種方法來獲取商品搜索結(jié)果的列表。其中一種方法對圖書和非圖書的HTML結(jié)構(gòu)敏感,另外一種方法對兩者的HTML結(jié)構(gòu)不敏感。下文將詳細介紹這兩種方法。1  方法1:對兩者的HTML結(jié)構(gòu)不敏感方法1是一種對于兩種商品的HTML結(jié)構(gòu)不敏感的方法。圖書商品和非圖書商品都存放在標簽ul class=listh clearfix中,系統(tǒng)可以過濾出該標簽對應(yīng)的節(jié)點標簽對象,并執(zhí)行該對象的getChildren方法即可獲取商品的列表。方法1的優(yōu)點:簡潔、高效、出錯機率小。方法1的缺點: getChildren方法獲取的列表中會存在大量的空結(jié)點,在下一小層對列表中的商品進行解析時會花費額外的開銷去處理這些空結(jié)點。2  方法2:對兩者的HTML結(jié)構(gòu)敏感方法2對于兩種商品的HTML結(jié)構(gòu)敏感,該方法直接從整棵樹中過濾出商品的li結(jié)點并得到一個列表。然而系統(tǒng)預(yù)先并不知曉該頁面是圖書商品頁還是非圖書商品頁,系統(tǒng)需要同時用兩種過濾規(guī)則過濾出商品的結(jié)點列表。(2) 亞馬遜商品列表爬取算法設(shè)計與實現(xiàn)針對亞馬遜網(wǎng)站的頁面商品列表提取算法與京東的基本一樣。亞馬遜對所有商品的搜索結(jié)果頁中商品局部HTML結(jié)構(gòu)都是一樣的,比京東的更簡單。亞馬遜搜索結(jié)果頁的商品信息放在 div class=listView ……/div中,每件商品的信息放在 div id=result_序號 class=result firstResultRow product name=商品名字 …… /div 中,可以依據(jù)上訴規(guī)律來設(shè)定過濾條件。亞馬遜的搜索結(jié)果頁面結(jié)構(gòu)較統(tǒng)一,并不需要像京東那樣需要采用多線程技術(shù)針對兩種頁面進行爬取,除此之外其它的流程和京東模塊基本一致,不再贅訴。 爬取商品基本信息商品的基本信息包括:商品鏈接、商品圖片鏈接、商品價格、商品簡介。這些信息全部用字符串來表示,在java中用String來表示。系統(tǒng)用一個類ItemInfoData來存儲單件商品的基本信息。該類有5個數(shù)據(jù)成員,其定義如下:public class ItemInfoData {public String itemUrl。public String itemIntro。public String itemImage。public String itemPrice。public String jdid。}其中itemUrl是商品的鏈接,itemIntro是商品的簡介,ItemImage是商品的圖片鏈接,itemPrice是商品的價格。系統(tǒng)中所有的商品都需要抓取前4個信息,并且每件商品的信息都存儲在ItemInfoData類型的對象中。對于京東還需要抓取商品的ID存儲在jdid中。(1) 京東商城商品基本信息抓取算法在京東的搜索欄中提交關(guān)鍵字后,京東根據(jù)關(guān)鍵字搜索到符合要求的商品,并將商品按符合度排序。京東在每一頁面最多顯示36件商品。在上文中講到,每件商品的信息都放在標簽ul class=listh clearfix中的每一個 li 標簽中。標簽li中的結(jié)構(gòu)如下:1. li sku=777239 2. div class=pimg3. a target=……4. img …… datalazyload=圖片URL /5. /a6. …7. /div8. div class=pname9. a ……h(huán)ref=商品URL……10. 諾基亞(NOKIA)……商品簡介及關(guān)鍵詞11. /a12. /div13. div class=pprice 14. ……15. /div16. ……17. /li商品的HTML文本中第1行為該商品的ID號,第4行的image標簽中存放了商品的圖片鏈接,第9行的標簽a中存放了商品的主頁鏈接,第10行是商品的簡介。類JDItemInfoList用來從商品列表爬取商品的基本信息,其核心方法為getItemInfoList。 類JDItemInfoList方法簡介PageInfoData pagedata存儲當(dāng)前搜索分頁信息public JDItemInfoList (PageInfoData pagedata)構(gòu)造方法public ListItemInfo getItemInfoList()解析商品列表中的每件商品得到其基本信息private void UpdatePrice(ListItemInfo itemlist)當(dāng)爬取商品價格失敗時調(diào)用此方法重新爬取商品價格private JSONArray getPriceJSONArray(String url)爬取商品價格信息,返回JSONArray對象HTML文本中的每個Node結(jié)點都存在于一棵Node書中。類JDItemInfoGet中有一個私有的方法OneItemInfoGet用來獲取單件商品的基本信息。GetArrayFromList方法中會調(diào)用該方法來對每件商品進行解析。下文將從4個方面對OneItemInfoGet獲取商品基本信息的詳細實現(xiàn)進行講訴。...... 結(jié)點:div sku=”ID” 結(jié)點:div class=pimg 結(jié)點:div class=pname 結(jié)點:div class=pprice 單件商品在Node樹中的結(jié)構(gòu)對于京東的抓取模塊在抓取商品基本信息前需要抓取商品的ID。A. 獲取商品鏈接與商品簡介,京東每件商品的信息放在li中,而li中又有許多子標簽,標簽a target=_blank…及其子標簽中存放了商品的鏈接,以京東中的某一件商品為例,其HTML結(jié)構(gòu)如下:div class=pname a target=_blank href= onclick=searchlog(1,1022922287,0,1) 【銷售冠軍】圣優(yōu) 新款休閑男鞋韓版潮流時尚板鞋駕車鞋男士英倫防滑font class=skcolor_ljg鞋子/font透氣網(wǎng)鞋 深蘭 42碼標準運動鞋碼font style=color:ff0000 class=adwords id=AD_1022922287/font /a /div在標簽div class=pname及其子標簽中存有商品的主頁鏈接和商品的簡介。,第三層所有的結(jié)點存有商品的所有簡介信息??梢园训谌龑拥乃凶咏Y(jié)點全部轉(zhuǎn)換為字符串,用來在視圖層中顯示商品的簡介。結(jié)點:a target=……結(jié)點:div class=pnamea標簽中的文本:【銷售冠軍】…… pname局部結(jié)構(gòu)B. 獲取商品圖片鏈接商品的圖片鏈接信息存儲在標簽div class=pimg的子標簽img ……中,以某件商品為例,其該部分的HTML結(jié)構(gòu)如下:div class=pimga target=_blank href= onclick=seClick(39。SEO39。,QUERY_KEYWORD,39。77723939。)。searchlog(1,7772
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1