【正文】
LOGO 電商銷售記錄分析 嚴(yán)智強(qiáng)、賀強(qiáng)、劉瑞、 崔亞松、臧茹歌 Background 網(wǎng)購(gòu)流行 電商崛起 消費(fèi)人群 消費(fèi)習(xí)慣 潛在價(jià)值 消費(fèi)記錄 消費(fèi)喜好分析 市場(chǎng)方向 Contents contents 電商數(shù)據(jù) 天貓手機(jī)銷售數(shù)據(jù)分析 京東商城銷售數(shù)據(jù)分析 數(shù)據(jù)的獲取與預(yù)處理 替代商品的挖掘 價(jià)格空洞的發(fā)現(xiàn) 牛仔褲銷售數(shù)據(jù)的分析 用戶消費(fèi)記錄的分析 ?淘寶網(wǎng)作為國(guó)內(nèi)第一大電商,占有近 50%市場(chǎng)份額,而天貓商城則是所有優(yōu)質(zhì)店鋪的集合,每月會(huì)產(chǎn)生大量銷售數(shù)據(jù),這里以天貓近一個(gè)月的手機(jī)銷售數(shù)據(jù)進(jìn)行分析,找出這些數(shù)據(jù)隱含的價(jià)值。 天貓手機(jī)銷售數(shù)據(jù)分析 天貓手機(jī)銷售數(shù)據(jù)分析 數(shù)據(jù)的獲取與預(yù)處理 替代商品的挖掘 價(jià)格空洞的發(fā)現(xiàn) 數(shù)據(jù)的獲取與處理 構(gòu)建一個(gè)爬蟲腳本,從天貓上獲取銷量前 600的手機(jī)銷售記錄,并匹配出每條記錄的機(jī)型、售價(jià)、銷量。 How to get the data 爬蟲腳本 coding=gbk import urllib import re f1=open(r39。E:\tmao\39。)此處存儲(chǔ)了銷量前 600的網(wǎng)頁(yè)地址 =() () f2=open(r39。E:\tmao\39。,39。a39。) for i in : content=(()).read() (content) (39。\n39。) (39。39。*50) (39。\n39。) () f3=open(r39。E:\tmao\39。) lines=39。39。 for line in (): lines+=() () pattern=r39。p class=productPriceem title=(.*?).*?p class=productTitle.*?target=_blank title=(.*?).*?p class=productStatusspanem(.*?)/embr39。 result=(pattern,lines) f4=open(r39。E:\tmao\39。,39。w39。)該文件中存儲(chǔ)了每件手機(jī)的記錄(機(jī)型、售價(jià)、銷量) for item in result: for j in range(3): (item[j]) (39。\t39。) (39。\n39。) () 銷量 —— 價(jià)格 散點(diǎn)圖 替代商品的挖掘 我們認(rèn)為,如果兩件手機(jī)的售價(jià)和銷量十分接近,則認(rèn)為這兩件手機(jī)互為替代商品。從網(wǎng)絡(luò)營(yíng)銷的特點(diǎn)來看,從店鋪的角度出發(fā),選擇進(jìn)價(jià)更低的手機(jī)可獲得更多利潤(rùn)。 替代商品的挖掘 ?我們以歐氏距離小于等于 2為標(biāo)準(zhǔn) sqrt(()^2+()^2)=2 將手機(jī)聚類,找出互為替代的手機(jī)。 替代商品的挖掘 from __future__ import division from math import sqrt coding=gbk f1=open(r39。E:\tmao\39。) records=() () price=[] number=[] product=[] for i in range(len(records)): item=records[i].split(39。\t39。) (item[0]) (item[1]) (item[2]) for i in range(len(price)): for j in range(i+1,len(price)): distance=sqrt(pow((float(price[i])float(price[j])),2)+pow((int(number[i])int(number[j])),2)) if distance=2: