【正文】
1 淘寶評(píng)論數(shù)據(jù)挖掘 以淘寶連衣裙店鋪評(píng)論數(shù)據(jù)挖掘?yàn)槔? 內(nèi)容摘要 數(shù)據(jù)挖掘方法能夠找到海量數(shù)據(jù)中有潛在價(jià)值的知識(shí)與模式 ,所用到的數(shù)學(xué)算法在經(jīng)過多年完善修正已經(jīng)日趨穩(wěn)定 ,在金融、電信等領(lǐng)域的應(yīng)用也有很多的成功案例。近年隨著電商的發(fā)展,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)上的應(yīng)用也逐漸受到關(guān)注,主要應(yīng)用的方向是淘寶用戶的消費(fèi)行為偏好的研究。 本文嘗試使用數(shù)據(jù)分析的方法、借助數(shù)據(jù)挖掘工具,對(duì)淘寶上 150 家不同消費(fèi)層次連衣裙店鋪的評(píng)論進(jìn)行挖掘分析,旨在從淘寶用戶的評(píng)論中發(fā)現(xiàn)不同消費(fèi)層次的消費(fèi)者對(duì)連衣裙消 費(fèi)的關(guān)注點(diǎn)以及影響因素。同時(shí)以淘寶評(píng)論數(shù)據(jù)挖掘?yàn)槔酉M芡卣箶?shù)據(jù)挖掘應(yīng)用于淘寶數(shù)據(jù)挖掘上的研究 ,以提供新的思路與借鑒。 關(guān)鍵詞 : 數(shù)據(jù)挖掘,文本分析,淘寶評(píng)價(jià),分詞,詞頻統(tǒng)計(jì) Abstract Data mining is able to find out the potential value and knowledge of mass data and the mathematical algorithms of it used in recent years has bee stable, the application in the fields of finance,telemunications and others also have many success in the field of microblog user interest,it has not yet using maturely. Recent years,with the development of electricity merce,the application of data mining technology in electronic merce has gradually been concerned,those research is mainly used in consumer behavior of Taobao user . This paper attempts to explore Taobao consumer habits,consumer preferences and preferences with data analysis method and data mining tools,meanwhile, I hope to expand the application scope of data mining in Taobao user reviews research and provide new ideas and references. 2 Key words: data mining ,text analysis,Taobao evaluation,participle,Word frequency 目錄 1 研究背景 1 研究意義 3 研究方法 3 文本采集工具 3 文本預(yù)處理以及分析 4 文獻(xiàn)綜述 4 4 數(shù)據(jù)挖掘概念 4 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別 5 數(shù)據(jù)挖掘方法 5 聚類分析 6 聚類分析的概念 6 聚類分析的算法 6 6 淘寶評(píng)論的概述 7 連衣裙消費(fèi)者分類特征的發(fā)現(xiàn)與分類模型的建立 7 連衣裙消費(fèi)者分類特征的發(fā)現(xiàn) 7 連衣裙評(píng)論分類模型的建立 10 11 淘寶評(píng)論數(shù) 據(jù)挖掘 11 樣本的確定 11 評(píng)論挖掘 12 淘寶評(píng)論數(shù)據(jù)預(yù)處理 12 淘寶評(píng)論數(shù)據(jù)的篩選統(tǒng)計(jì) 13 淘寶評(píng)論的分析 18 Kmeans 快速聚類 18 3 分析結(jié)論 21 22 參考文獻(xiàn) 23 后記 24 致謝 24 1 研究背景 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與成熟,目前,互聯(lián)網(wǎng)的應(yīng)用顯然已經(jīng)成為改變?nèi)藗兩盍?xí)慣、生活狀況的主要產(chǎn)業(yè)。隨著阿里巴巴在美國(guó)的上市,電子商務(wù)已經(jīng)成為促進(jìn)經(jīng)濟(jì)發(fā)展一支強(qiáng)大的力量。 2021 年 2 月 3 日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心( CNNIC)在京發(fā)布第 35次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》(以下簡(jiǎn)稱《報(bào)告》)?!秷?bào)告》顯示,截至 2021 年 12 月,我國(guó)網(wǎng)民規(guī)模達(dá) 億,互聯(lián)網(wǎng)普及率為 %,具體如圖 。互聯(lián)網(wǎng)普及的同時(shí),網(wǎng)絡(luò)購(gòu)物人群也在增長(zhǎng),截至 2021 年 12 月中國(guó)網(wǎng)絡(luò)購(gòu)物規(guī)模 已經(jīng)達(dá)到 36142 萬(wàn)人,網(wǎng)民使用率高達(dá) % ,圖 顯示 20212021 年中國(guó)網(wǎng)購(gòu)交易額一年年增長(zhǎng)趨勢(shì)。圖 2021 年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)用戶購(gòu)買商品品類分布圖中可以看到服裝鞋帽類是網(wǎng)購(gòu)中占最大比例的,高達(dá) %。 圖 Chinese Inter users and Inter peration 2 圖 20212021 年中國(guó)網(wǎng)購(gòu)交易金額及增長(zhǎng)率 20212021 China39。s online shopping transaction amount and growth rate 圖 2021 年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)用戶購(gòu)買商品品類分布 Figure 2021 Distribution of china’s online shopping product categories 近年來(lái),電子商務(wù)快速發(fā)展,使得越來(lái)越多的傳統(tǒng)企業(yè)看到了電子商務(wù)的發(fā)展?jié)摿?,并將?zhàn)略市場(chǎng)轉(zhuǎn)向網(wǎng)絡(luò)商城,使得網(wǎng)絡(luò)店鋪數(shù)量如雨后春筍一般。然而消費(fèi)者在 3 網(wǎng)絡(luò)購(gòu)物中的行為與在實(shí)體店中的購(gòu)物行為是有 巨大差別的,其中比較顯著的差別便是產(chǎn)品評(píng)論,基于淘寶評(píng)論的數(shù)據(jù)挖掘研究淘寶消費(fèi)者的評(píng)論顯示出的影響購(gòu)物者消費(fèi)的因素,對(duì)淘寶評(píng)論的數(shù)據(jù)挖掘能幫助商家了解用戶購(gòu)物行為,從而調(diào)整店鋪的經(jīng)營(yíng)策略,實(shí)現(xiàn)更多盈利。 研究意義 本文以淘寶連衣裙為例,挖掘不同層次的消費(fèi)者對(duì)于在淘寶上對(duì)于其購(gòu)買的連衣裙的評(píng)價(jià),通過數(shù)據(jù)挖掘算法中的 k中心算法和關(guān)聯(lián)規(guī)則算法對(duì)這些評(píng)價(jià)進(jìn)行分類,從評(píng)價(jià)的分類中將消費(fèi)者劃分為幾個(gè)類別,分析不同類別的消費(fèi)者網(wǎng)購(gòu)連衣裙的影響因素,使得淘寶賣家更加了解用戶的購(gòu)物行為,從而為淘寶賣家提出提高營(yíng)業(yè) 額的策略。 研究方法 文本采集工具 本文中淘寶評(píng)論的數(shù)據(jù)是通過八爪魚采集器進(jìn)行采集的。采集流程如圖 。通過該流程采集提取淘寶網(wǎng)頁(yè)中的評(píng)論文本,采集后的數(shù)據(jù)以 .xls 文件格式保存。 圖 八爪魚淘寶數(shù)據(jù)采集流程圖 Data Acquisition flowchart 4 文本預(yù)處理以及分析 本次研究文本預(yù)處理主要通過 WORD 以及 EXCEL 這兩個(gè)軟件,首先將保存的數(shù)據(jù)在EXCEL 中利用宏功能將沒有規(guī)則的文本進(jìn)行分詞處理,再將劃分好的詞導(dǎo)出到 WORD 中進(jìn)行詞語(yǔ)的篩選以及格式的去除,分詞中無(wú)用的詞語(yǔ)剔除,然后保存為純文本。接著再利用 EXCEL 對(duì)分詞好的文本進(jìn)行詞頻計(jì)算統(tǒng)計(jì),以及比率計(jì)算,也就是對(duì)文本進(jìn)行量化處理。 文本預(yù)處理結(jié)束后利用 SPSS 軟件對(duì)評(píng)價(jià)進(jìn)行分析,首先利用 Pearson 算法進(jìn)行相關(guān)性分析,驗(yàn)證樣本的相關(guān)性,并判斷是否需要降維處理。相關(guān)性分析結(jié)束后,進(jìn)行聚類分析,利用 K 平均值聚類算法對(duì)數(shù)據(jù)進(jìn)行一輪分類,再接著用利用系統(tǒng)聚類算法對(duì)數(shù)據(jù)進(jìn)行二次分類。 文獻(xiàn)綜述 數(shù)據(jù)挖掘的概述以及淘寶評(píng)論分類模型的構(gòu)建主要是通過 閱讀大量文獻(xiàn)整理得出的。 數(shù)據(jù)挖掘概念 隨著人們對(duì)數(shù)據(jù)的深入了解及廣泛使用,現(xiàn)在人們對(duì)數(shù)據(jù)的定義不僅僅是對(duì)事物定性或定量的記錄,事實(shí)上數(shù)據(jù)還應(yīng)包括信息和知識(shí)等。信息和知識(shí)可以反映為某些行為以及現(xiàn)象,我們需要從海量并且真實(shí)的數(shù)據(jù)中提取出可以為人類所用,并且是針對(duì)用戶興趣的信息和知識(shí),最終為可以服務(wù)于人類的潛在的信息和知識(shí)。 互聯(lián)網(wǎng)發(fā)展快速的時(shí)代,信息時(shí)刻處于爆炸狀態(tài),面對(duì)豐富的信息資源,人類如何高效地找出對(duì)自己有價(jià)值的數(shù)據(jù)成為了亟待