freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淘寶數(shù)據(jù)挖掘論文--以淘寶連衣裙店鋪評(píng)論數(shù)據(jù)挖掘?yàn)槔?留存版)

  

【正文】 這 150 家店鋪的七萬(wàn)多條數(shù)據(jù)以條作為樣本單位,七萬(wàn)多條數(shù)據(jù)來(lái)研究消費(fèi)的評(píng)論,這樣子會(huì)嚴(yán)謹(jǐn)一點(diǎn)。最后一類是注重體驗(yàn),這一類主要表現(xiàn)為各個(gè)方面均注重,而對(duì)價(jià)格關(guān)注不高。 類別 詞語(yǔ) 質(zhì)量 質(zhì)量 做工 面料 舒服 手感 物流 物流 速度 很快 慢 外觀 漂亮 效果 上身 款式 好看 價(jià)格 價(jià)格 便宜 貴 值得 服務(wù) 態(tài)度 說(shuō)好 愉快 謝謝 表 Words preliminary classification 由于每個(gè)店統(tǒng)計(jì)出的詞 頻總數(shù)并不一致,為了更科學(xué)地表示某類詞語(yǔ)在該店鋪評(píng) 15 論中出現(xiàn)的情況,利用詞頻比來(lái)進(jìn)行統(tǒng)計(jì),也就是某類詞語(yǔ)占總詞頻的比率。這里主要做的處理是,對(duì)一句一句的淘寶評(píng)論分成一個(gè)詞一個(gè)詞,采用 EXCEL 的分詞處理技術(shù),編寫(xiě)分詞的 VB 代碼,代碼的函數(shù) 13 如圖 ,參數(shù)說(shuō)明如 表 將數(shù)據(jù)導(dǎo)入 EXCEL 中, EXCEL 自動(dòng)根據(jù)所編代碼將詞語(yǔ)進(jìn)行分詞。 圖 considerations of online shoppers 在淘寶上找到不同消費(fèi)層次的連衣裙的評(píng)價(jià),在評(píng)論中發(fā)現(xiàn)連衣裙的質(zhì)量、店鋪的服務(wù)、物流、連衣裙的外觀、價(jià)格這幾個(gè)詞在評(píng)論中出現(xiàn)的頻率是比較高,然而在不同消費(fèi)階層出現(xiàn)的頻率有所差別,圖 分別是人民幣 68 元,人民幣 259,人民幣 429 元的連衣裙的評(píng)價(jià),從這三個(gè)簡(jiǎn)例可以看到在價(jià)格比較高的連衣裙消費(fèi)者在評(píng)論中沒(méi)有出現(xiàn)跟價(jià)格有關(guān)的詞語(yǔ),其中對(duì)質(zhì)量還有是否正品關(guān)注度比較高,在價(jià)格中端的連衣裙的消費(fèi)者評(píng)論中可以看到這個(gè)階層的消費(fèi)者中商品的質(zhì)量、店鋪的服務(wù)詞頻出現(xiàn)較高,而在低端消費(fèi)層次中商品的價(jià)格、物流詞頻出現(xiàn)較高。 聚類分析的算法 kmeans 算法 kmeans 算法是劃分聚類中較流行的一種算法 ,它是一種迭代的聚類算法 ,迭代過(guò)程中不斷移動(dòng)簇集中的對(duì)象 ,直至得到理想的簇集為止 ,每個(gè)簇用該簇中對(duì)象的平均值來(lái)表示。 (3)關(guān)聯(lián)規(guī)則。分析出隱藏于頁(yè)面內(nèi)部和頁(yè)面之間的相關(guān)關(guān)聯(lián)規(guī)則。 文本預(yù)處理結(jié)束后利用 SPSS 軟件對(duì)評(píng)價(jià)進(jìn)行分析,首先利用 Pearson 算法進(jìn)行相關(guān)性分析,驗(yàn)證樣本的相關(guān)性,并判斷是否需要降維處理。同時(shí)以淘寶評(píng)論數(shù)據(jù)挖掘?yàn)槔酉M芡卣箶?shù)據(jù)挖掘應(yīng)用于淘寶數(shù)據(jù)挖掘上的研究 ,以提供新的思路與借鑒。然而消費(fèi)者在 3 網(wǎng)絡(luò)購(gòu)物中的行為與在實(shí)體店中的購(gòu)物行為是有 巨大差別的,其中比較顯著的差別便是產(chǎn)品評(píng)論,基于淘寶評(píng)論的數(shù)據(jù)挖掘研究淘寶消費(fèi)者的評(píng)論顯示出的影響購(gòu)物者消費(fèi)的因素,對(duì)淘寶評(píng)論的數(shù)據(jù)挖掘能幫助商家了解用戶購(gòu)物行為,從而調(diào)整店鋪的經(jīng)營(yíng)策略,實(shí)現(xiàn)更多盈利。數(shù)據(jù)挖掘是解決數(shù)據(jù)爆炸而信息匱乏問(wèn)題的一種有效方法和途徑。 (1)分類預(yù)測(cè) :分類的方法在于根據(jù)一定的分類標(biāo)準(zhǔn) ,將待分析的數(shù)據(jù)集進(jìn)行參照與比對(duì) ,再將數(shù)據(jù)分門(mén)別類得歸入指定的分類標(biāo)準(zhǔn)之中 ,而分類標(biāo)準(zhǔn)往往需要預(yù)先構(gòu)建分類器進(jìn)行數(shù)據(jù)訓(xùn)練 ,而分類的結(jié)果往往可以用于描述數(shù)據(jù)發(fā)展的未來(lái)趨勢(shì)。應(yīng)對(duì)互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)的 WEB 挖掘方法等。 Kmeans 算法也存在不足之處 ,使用它要保證平均值有意義 ,如果存在分便量 ,這個(gè)方法不適用。表中可以看到選取的 150 家淘寶店鋪中,平均每個(gè)層次的消費(fèi)階級(jí)選取 50 家店鋪,每家店鋪摘取 500600 條評(píng)論數(shù)作為研究樣本 。默認(rèn)為“ |”符號(hào)。兩張張表中 ,四類類分法的變量差異性較大的 ,其具有統(tǒng)計(jì)意義。一無(wú)所知是指原本對(duì)數(shù)據(jù)挖掘只停留在概念上的理解,沒(méi)有實(shí)踐過(guò),而知之甚少是指在整個(gè)研究過(guò)程,從數(shù)據(jù)搜集到最終的數(shù)據(jù)分析,這些實(shí)踐性的操作與分析都無(wú)到有的學(xué)習(xí)過(guò)程,并且在學(xué)習(xí)的過(guò)程當(dāng)中,越深入越感覺(jué)自己學(xué)習(xí)的越少,所以最終有一種越學(xué)越覺(jué)得少的感覺(jué)。同時(shí)在本次分析中應(yīng)用的 SPSS 軟件也是十分強(qiáng)大的分析工具, SPSS 當(dāng)中包含多種統(tǒng)計(jì)分析的算法,可以根據(jù)實(shí)際需要調(diào)用里面的算法,結(jié)果也可以根據(jù)自己的需要進(jìn)行設(shè)置。 與最終聚類 中心之 間 的 距離 聚集 1 2 3 4 1 .676 .148 .122 2 .676 .587 .641 3 .148 .587 .075 4 .122 .641 .075 表 Distance between final cluster centers 從表 最終聚類中心點(diǎn)間的距離來(lái)看 ,4 個(gè)最終聚類中心彼此之間的距離是顯著的 ,中心 2 與中心 3 之間距離是最大的 ,達(dá)到了 ,中心 3 與中心 4 之間的距離最小 ,為 。 14 圖 淘寶評(píng)論分詞 Taobao ment Word 分詞處理之后進(jìn)行詞頻統(tǒng)計(jì),詞頻統(tǒng)計(jì)也是運(yùn)用 EXCEL 進(jìn)行統(tǒng)計(jì),編寫(xiě)相應(yīng)的 VB程序,對(duì)詞頻進(jìn)行統(tǒng)計(jì)。打開(kāi)八爪魚(yú)采集器制定采集規(guī)則,也就是采集的流程,這里采用的采集流程圖 ,打開(kāi)網(wǎng)頁(yè),開(kāi)始一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),在循環(huán)當(dāng)中嵌套一個(gè)分組的循環(huán),在分組中抓取所需要的數(shù)據(jù)。 7 淘寶評(píng)論的概述 淘寶評(píng)論是指在淘寶平臺(tái)上購(gòu)買(mǎi)商品在商品評(píng)論區(qū),對(duì)購(gòu)買(mǎi)的商品寫(xiě)下的評(píng)論。 本文試圖通過(guò)搜集淘寶連衣裙評(píng)論的相關(guān)數(shù)據(jù) ,發(fā)現(xiàn)淘寶連衣裙消費(fèi)群體并予以分類 ,所以采用數(shù)據(jù)挖 掘中聚類分析的方法進(jìn)行研究是合適與有效的。典型的分類預(yù)測(cè)算法包括 K 臨近、神經(jīng)網(wǎng)絡(luò)與粗糖集等。根據(jù)這三種數(shù)據(jù)類型,數(shù)據(jù)挖掘技術(shù)大體分為:內(nèi)容數(shù)據(jù)( content mining)、結(jié)構(gòu) 挖 掘( structure mining)以及日志 挖 掘( usage mining)。 研究方法 文本采集工具 本文中淘寶評(píng)論的數(shù)據(jù)是通過(guò)八爪魚(yú)采集器進(jìn)行采集的。近年隨著電商的發(fā)展,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)上的應(yīng)用也逐漸受到關(guān)注,主要應(yīng)用的方向是淘寶用戶的消費(fèi)行為偏好的研究。 圖 八爪魚(yú)淘寶數(shù)據(jù)采集流程圖 Data Acquisition flowchart 4 文本預(yù)處理以及分析 本次研究文本預(yù)處理主要通過(guò) WORD 以及 EXCEL 這兩個(gè)軟件,首先將保存的數(shù)據(jù)在EXCEL 中利用宏功能將沒(méi)有規(guī)則的文本進(jìn)行分詞處理,再將劃分好的詞導(dǎo)出到 WORD 中進(jìn)行詞語(yǔ)的篩選以及格式的去除,分詞中無(wú)用的詞語(yǔ)剔除,然后保存為純文本。除此之外,內(nèi)容挖掘的主要任務(wù)是處理 Inter 信息,并作適當(dāng)?shù)娜ピ胩幚?,同時(shí)還可以提高文本挖掘的準(zhǔn)確率和 5 質(zhì)量。聚類分析常常用于先驗(yàn)知識(shí)不足的數(shù)據(jù)挖掘任務(wù) ,且能起到不錯(cuò)的效果。也就是將大量的數(shù)據(jù)劃分成群組的過(guò)程 ,即把對(duì)象分成多個(gè)類 ,在同 一個(gè)類中的數(shù)據(jù)對(duì)象之間具有較高的相似度 ,而不同類中的數(shù)據(jù)對(duì)象差別較大。 連衣裙消費(fèi)者分類特征的發(fā)現(xiàn)與分類模型的建立 連衣裙消費(fèi)者分類特征的發(fā)現(xiàn) 網(wǎng)絡(luò)購(gòu)物成為當(dāng)今購(gòu)物的熱潮,根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 3013 年的統(tǒng)計(jì),統(tǒng)計(jì)如圖 , 消費(fèi)者在進(jìn)行網(wǎng)絡(luò)購(gòu)物決策的時(shí)候受到其他用戶的影響是最大的,所占比例為 %。實(shí)施采集后,總共采集到 76131 條淘寶評(píng)論。詞頻在前 100 的詞語(yǔ)初步分為 5 類,分別是質(zhì)量、物流、外觀、價(jià)格、服務(wù)。 其中注重價(jià)格物流,顧名思義就是在購(gòu)買(mǎi)商品的時(shí)候?qū)ι唐返膬r(jià)格和物流關(guān)注度比較高,表 中表現(xiàn)為第 4 類,第 4 類中在物流與價(jià)格兩個(gè)方面是強(qiáng)關(guān)注度,而在質(zhì)量、服務(wù)關(guān)注度是為弱而外觀的關(guān)注度為強(qiáng)。 SPSS 軟件還有許多應(yīng)用的地方,本次數(shù)據(jù)挖掘激發(fā)了我學(xué)習(xí) SPSS 的興趣,在本次數(shù)據(jù)挖掘結(jié)束后,本人也將深入學(xué)習(xí)使用 SPSS強(qiáng)大的分析功能,同時(shí)也想深入學(xué)習(xí)掌握 EXCEL 的統(tǒng)計(jì)分析。而對(duì)于中端連衣裙消費(fèi)者賣(mài)家可以對(duì)在物流與服務(wù)方面降低成本,而質(zhì) 量方面要堅(jiān)決做好;而低端連衣裙消費(fèi)者屬于價(jià)格敏感者,要從價(jià)格方面入手去吸引消費(fèi)者。下面進(jìn)行這一步的工作 : 19 (1)類簇個(gè)數(shù)與最終每個(gè)聚類中案例數(shù)目的 比較,如表 所示。使用邏輯值 True/False 來(lái)表示是否啟用。 淘寶評(píng)論數(shù)據(jù)挖掘 樣本的確定 淘寶評(píng)論有海量評(píng)論數(shù)據(jù),這里先對(duì)淘寶店鋪進(jìn)行劃分,參考艾瑞網(wǎng)上對(duì)服裝 消費(fèi)的層次的分層標(biāo)準(zhǔn),將淘寶店鋪劃分表 所示的消費(fèi)層次。 這個(gè)過(guò)程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)不再明顯變
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1