【正文】
分類(lèi) ,所以采用數(shù)據(jù)挖 掘中聚類(lèi)分析的方法進(jìn)行研究是合適與有效的。應(yīng)對(duì)互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)的 WEB 挖掘方法等。為應(yīng)對(duì)空間數(shù)據(jù)庫(kù)而產(chǎn)生的數(shù)據(jù)挖掘方法 。在面對(duì)多樣的數(shù)據(jù)類(lèi)型時(shí) ,也有相應(yīng)的數(shù)據(jù)挖掘方法。另外在醫(yī)療領(lǐng)域 ,對(duì)病人的癥狀進(jìn)行關(guān)聯(lián)分析可以預(yù)測(cè)他患有某一疾病的概率。關(guān)聯(lián)分析思想在于找到數(shù)據(jù)集中某一項(xiàng)記錄或多項(xiàng)記錄與其他記錄之間的相關(guān)關(guān)系 ,如果一項(xiàng)或多項(xiàng)記錄與其他記錄共同出現(xiàn) ,并且出現(xiàn)的頻率達(dá)到了預(yù)先設(shè)定的閾值 ,那么便認(rèn)為這兩者之間是存在關(guān)聯(lián)規(guī)則的。聚類(lèi)的經(jīng)典算法有劃分中的 K 均值、層次聚類(lèi)算法等。聚類(lèi)方法的思想在于在數(shù)據(jù)集中找到令人滿(mǎn)意的類(lèi)簇 ,與分類(lèi)不同的是這種方法不需要事 先指定類(lèi)簇標(biāo)準(zhǔn) ,按照相應(yīng)的算法自動(dòng)的對(duì)數(shù)據(jù)集進(jìn)行分類(lèi) ,最后得出分析結(jié)果。典型的分類(lèi)預(yù)測(cè)算法包括 K 臨近、神經(jīng)網(wǎng)絡(luò)與粗糖集等。 (1)分類(lèi)預(yù)測(cè) :分類(lèi)的方法在于根據(jù)一定的分類(lèi)標(biāo)準(zhǔn) ,將待分析的數(shù)據(jù)集進(jìn)行參照與比對(duì) ,再將數(shù)據(jù)分門(mén)別類(lèi)得歸入指定的分類(lèi)標(biāo)準(zhǔn)之中 ,而分類(lèi)標(biāo)準(zhǔn)往往需要預(yù)先構(gòu)建分類(lèi)器進(jìn)行數(shù)據(jù)訓(xùn)練 ,而分類(lèi)的結(jié)果往往可以用于描述數(shù)據(jù)發(fā)展的未來(lái)趨勢(shì)。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值;而且它是一個(gè)非平凡的過(guò)程,也即挖掘過(guò)程不是線(xiàn)性的,有反復(fù)和循環(huán),所挖掘到的知識(shí)也不是通過(guò)簡(jiǎn)單的分析就能得到,這些知識(shí)可能是隱含在表面現(xiàn)象的內(nèi)部,需要經(jīng)過(guò)大量的數(shù)據(jù)比較分析,應(yīng)用一些專(zhuān)門(mén)處理大數(shù)據(jù)量的數(shù)據(jù)挖掘工具才能取得。 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析不同在于數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、 發(fā)現(xiàn)知識(shí)。主要的應(yīng)用是挖掘用戶(hù)瀏覽頁(yè)面的模式,掌握用戶(hù)個(gè)人喜好以及瀏覽習(xí)慣,對(duì)用戶(hù)進(jìn)行個(gè)性化推薦。主要作用是提供適當(dāng)?shù)母纳祈?yè)面設(shè)計(jì)依據(jù),提高用戶(hù)的訪(fǎng)問(wèn)率。 結(jié)構(gòu)挖掘是指對(duì)鏈接結(jié)構(gòu)( HTML 標(biāo)簽)、 XML 標(biāo)簽等描述內(nèi)容格式標(biāo)準(zhǔn)和頁(yè)面組織結(jié)構(gòu)的數(shù)據(jù)進(jìn)行提取。以上信息均為內(nèi)容挖掘的主要目標(biāo)。根據(jù)這三種數(shù)據(jù)類(lèi)型,數(shù)據(jù)挖掘技術(shù)大體分為:內(nèi)容數(shù)據(jù)( content mining)、結(jié)構(gòu) 挖 掘( structure mining)以及日志 挖 掘( usage mining)。數(shù)據(jù)挖掘是解決數(shù)據(jù)爆炸而信息匱乏問(wèn)題的一種有效方法和途徑。數(shù)據(jù)挖掘是利用分析工具在大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)系的過(guò)程。 互聯(lián)網(wǎng)發(fā)展快速的時(shí)代,信息時(shí)刻處于爆炸狀態(tài),面對(duì)豐富的信息資源,人類(lèi)如何高效地找出對(duì)自己有價(jià)值的數(shù)據(jù)成為了亟待解決的問(wèn)題。 數(shù)據(jù)挖掘概念 隨著人們對(duì)數(shù)據(jù)的深入了解及廣泛使用,現(xiàn)在人們對(duì)數(shù)據(jù)的定義不僅僅是對(duì)事物定性或定量的記錄,事實(shí)上數(shù)據(jù)還應(yīng)包括信息和知識(shí)等。相關(guān)性分析結(jié)束后,進(jìn)行聚類(lèi)分析,利用 K 平均值聚類(lèi)算法對(duì)數(shù)據(jù)進(jìn)行一輪分類(lèi),再接著用利用系統(tǒng)聚類(lèi)算法對(duì)數(shù)據(jù)進(jìn)行二次分類(lèi)。接著再利用 EXCEL 對(duì)分詞好的文本進(jìn)行詞頻計(jì)算統(tǒng)計(jì),以及比率計(jì)算,也就是對(duì)文本進(jìn)行量化處理。通過(guò)該流程采集提取淘寶網(wǎng)頁(yè)中的評(píng)論文本,采集后的數(shù)據(jù)以 .xls 文件格式保存。 研究方法 文本采集工具 本文中淘寶評(píng)論的數(shù)據(jù)是通過(guò)八爪魚(yú)采集器進(jìn)行采集的。然而消費(fèi)者在 3 網(wǎng)絡(luò)購(gòu)物中的行為與在實(shí)體店中的購(gòu)物行為是有 巨大差別的,其中比較顯著的差別便是產(chǎn)品評(píng)論,基于淘寶評(píng)論的數(shù)據(jù)挖掘研究淘寶消費(fèi)者的評(píng)論顯示出的影響購(gòu)物者消費(fèi)的因素,對(duì)淘寶評(píng)論的數(shù)據(jù)挖掘能幫助商家了解用戶(hù)購(gòu)物行為,從而調(diào)整店鋪的經(jīng)營(yíng)策略,實(shí)現(xiàn)更多盈利。 圖 Chinese Inter users and Inter peration 2 圖 20212021 年中國(guó)網(wǎng)購(gòu)交易金額及增長(zhǎng)率 20212021 China39。互聯(lián)網(wǎng)普及的同時(shí),網(wǎng)絡(luò)購(gòu)物人群也在增長(zhǎng),截至 2021 年 12 月中國(guó)網(wǎng)絡(luò)購(gòu)物規(guī)模 已經(jīng)達(dá)到 36142 萬(wàn)人,網(wǎng)民使用率高達(dá) % ,圖 顯示 20212021 年中國(guó)網(wǎng)購(gòu)交易額一年年增長(zhǎng)趨勢(shì)。 2021 年 2 月 3 日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心( CNNIC)在京發(fā)布第 35次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》(以下簡(jiǎn)稱(chēng)《報(bào)告》)。 關(guān)鍵詞 : 數(shù)據(jù)挖掘,文本分析,淘寶評(píng)價(jià),分詞,詞頻統(tǒng)計(jì) Abstract Data mining is able to find out the potential value and knowledge of mass data and the mathematical algorithms of it used in recent years has bee stable, the application in the fields of finance,telemunications and others also have many success in the field of microblog user interest,it has not yet using maturely. Recent years,with the development of electricity merce,the application of data mining technology in electronic merce has gradually been concerned,those research is mainly used in consumer behavior of Taobao user . This paper attempts to explore Taobao consumer habits,consumer preferences and preferences with data analysis method and data mining tools,meanwhile, I hope to expand the application scope of data mining in Taobao user reviews research and provide new ideas and references. 2 Key words: data mining ,text analysis,Taobao evaluation,participle,Word frequency 目錄 1 研究背景 1 研究意義 3 研究方法 3 文本采集工具 3 文本預(yù)處理以及分析 4 文獻(xiàn)綜述 4 4 數(shù)據(jù)挖掘概念 4 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別 5 數(shù)據(jù)挖掘方法 5 聚類(lèi)分析 6 聚類(lèi)分析的概念 6 聚類(lèi)分析的算法 6 6 淘寶評(píng)論的概述 7 連衣裙消費(fèi)者分類(lèi)特征的發(fā)現(xiàn)與分類(lèi)模型的建立 7 連衣裙消費(fèi)者分類(lèi)特征的發(fā)現(xiàn) 7 連衣裙評(píng)論分類(lèi)模型的建立 10 11 淘寶評(píng)論數(shù) 據(jù)挖掘 11 樣本的確定 11 評(píng)論挖掘 12 淘寶評(píng)論數(shù)據(jù)預(yù)處理 12 淘寶評(píng)論數(shù)據(jù)的篩選統(tǒng)計(jì) 13 淘寶評(píng)論的分析 18 Kmeans 快速聚類(lèi) 18 3 分析結(jié)論 21 22 參考文獻(xiàn) 23 后記 24 致謝 24 1 研究背景 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與成熟,目前,互聯(lián)網(wǎng)的應(yīng)用顯然已經(jīng)成為改變?nèi)藗兩盍?xí)慣、生活狀況的主要產(chǎn)業(yè)。 本文嘗試使用數(shù)據(jù)分析的方法、借助數(shù)據(jù)挖掘工具,對(duì)淘寶上 150 家不同消費(fèi)層次連衣裙店鋪的評(píng)論進(jìn)行挖掘分析,旨在從淘寶用戶(hù)的評(píng)論中發(fā)現(xiàn)不同消費(fèi)層次的消費(fèi)者對(duì)連衣裙消 費(fèi)的關(guān)注點(diǎn)以及影響因素。 1 淘寶評(píng)論數(shù)據(jù)挖掘 以淘寶連衣裙店鋪評(píng)論數(shù)據(jù)挖掘?yàn)槔? 內(nèi)容摘要 數(shù)據(jù)挖掘方法能夠找到海量數(shù)據(jù)中有潛在價(jià)值的知識(shí)與模式 ,所用到的數(shù)學(xué)算法在經(jīng)過(guò)多年完善修正已經(jīng)日趨穩(wěn)定 ,在金融、電信等領(lǐng)域的應(yīng)用也有很多的成功案例。近年隨著電商的發(fā)展,數(shù)據(jù)挖