freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淘寶數(shù)據(jù)挖掘論文--以淘寶連衣裙店鋪評論數(shù)據(jù)挖掘為例(留存版)

2025-08-03 04:46上一頁面

下一頁面
  

【正文】 這 150 家店鋪的七萬多條數(shù)據(jù)以條作為樣本單位,七萬多條數(shù)據(jù)來研究消費的評論,這樣子會嚴(yán)謹(jǐn)一點。最后一類是注重體驗,這一類主要表現(xiàn)為各個方面均注重,而對價格關(guān)注不高。 類別 詞語 質(zhì)量 質(zhì)量 做工 面料 舒服 手感 物流 物流 速度 很快 慢 外觀 漂亮 效果 上身 款式 好看 價格 價格 便宜 貴 值得 服務(wù) 態(tài)度 說好 愉快 謝謝 表 Words preliminary classification 由于每個店統(tǒng)計出的詞 頻總數(shù)并不一致,為了更科學(xué)地表示某類詞語在該店鋪評 15 論中出現(xiàn)的情況,利用詞頻比來進(jìn)行統(tǒng)計,也就是某類詞語占總詞頻的比率。這里主要做的處理是,對一句一句的淘寶評論分成一個詞一個詞,采用 EXCEL 的分詞處理技術(shù),編寫分詞的 VB 代碼,代碼的函數(shù) 13 如圖 ,參數(shù)說明如 表 將數(shù)據(jù)導(dǎo)入 EXCEL 中, EXCEL 自動根據(jù)所編代碼將詞語進(jìn)行分詞。 圖 considerations of online shoppers 在淘寶上找到不同消費層次的連衣裙的評價,在評論中發(fā)現(xiàn)連衣裙的質(zhì)量、店鋪的服務(wù)、物流、連衣裙的外觀、價格這幾個詞在評論中出現(xiàn)的頻率是比較高,然而在不同消費階層出現(xiàn)的頻率有所差別,圖 分別是人民幣 68 元,人民幣 259,人民幣 429 元的連衣裙的評價,從這三個簡例可以看到在價格比較高的連衣裙消費者在評論中沒有出現(xiàn)跟價格有關(guān)的詞語,其中對質(zhì)量還有是否正品關(guān)注度比較高,在價格中端的連衣裙的消費者評論中可以看到這個階層的消費者中商品的質(zhì)量、店鋪的服務(wù)詞頻出現(xiàn)較高,而在低端消費層次中商品的價格、物流詞頻出現(xiàn)較高。 聚類分析的算法 kmeans 算法 kmeans 算法是劃分聚類中較流行的一種算法 ,它是一種迭代的聚類算法 ,迭代過程中不斷移動簇集中的對象 ,直至得到理想的簇集為止 ,每個簇用該簇中對象的平均值來表示。 (3)關(guān)聯(lián)規(guī)則。分析出隱藏于頁面內(nèi)部和頁面之間的相關(guān)關(guān)聯(lián)規(guī)則。 文本預(yù)處理結(jié)束后利用 SPSS 軟件對評價進(jìn)行分析,首先利用 Pearson 算法進(jìn)行相關(guān)性分析,驗證樣本的相關(guān)性,并判斷是否需要降維處理。同時以淘寶評論數(shù)據(jù)挖掘為例子希望能拓展數(shù)據(jù)挖掘應(yīng)用于淘寶數(shù)據(jù)挖掘上的研究 ,以提供新的思路與借鑒。然而消費者在 3 網(wǎng)絡(luò)購物中的行為與在實體店中的購物行為是有 巨大差別的,其中比較顯著的差別便是產(chǎn)品評論,基于淘寶評論的數(shù)據(jù)挖掘研究淘寶消費者的評論顯示出的影響購物者消費的因素,對淘寶評論的數(shù)據(jù)挖掘能幫助商家了解用戶購物行為,從而調(diào)整店鋪的經(jīng)營策略,實現(xiàn)更多盈利。數(shù)據(jù)挖掘是解決數(shù)據(jù)爆炸而信息匱乏問題的一種有效方法和途徑。 (1)分類預(yù)測 :分類的方法在于根據(jù)一定的分類標(biāo)準(zhǔn) ,將待分析的數(shù)據(jù)集進(jìn)行參照與比對 ,再將數(shù)據(jù)分門別類得歸入指定的分類標(biāo)準(zhǔn)之中 ,而分類標(biāo)準(zhǔn)往往需要預(yù)先構(gòu)建分類器進(jìn)行數(shù)據(jù)訓(xùn)練 ,而分類的結(jié)果往往可以用于描述數(shù)據(jù)發(fā)展的未來趨勢。應(yīng)對互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)的 WEB 挖掘方法等。 Kmeans 算法也存在不足之處 ,使用它要保證平均值有意義 ,如果存在分便量 ,這個方法不適用。表中可以看到選取的 150 家淘寶店鋪中,平均每個層次的消費階級選取 50 家店鋪,每家店鋪摘取 500600 條評論數(shù)作為研究樣本 。默認(rèn)為“ |”符號。兩張張表中 ,四類類分法的變量差異性較大的 ,其具有統(tǒng)計意義。一無所知是指原本對數(shù)據(jù)挖掘只停留在概念上的理解,沒有實踐過,而知之甚少是指在整個研究過程,從數(shù)據(jù)搜集到最終的數(shù)據(jù)分析,這些實踐性的操作與分析都無到有的學(xué)習(xí)過程,并且在學(xué)習(xí)的過程當(dāng)中,越深入越感覺自己學(xué)習(xí)的越少,所以最終有一種越學(xué)越覺得少的感覺。同時在本次分析中應(yīng)用的 SPSS 軟件也是十分強大的分析工具, SPSS 當(dāng)中包含多種統(tǒng)計分析的算法,可以根據(jù)實際需要調(diào)用里面的算法,結(jié)果也可以根據(jù)自己的需要進(jìn)行設(shè)置。 與最終聚類 中心之 間 的 距離 聚集 1 2 3 4 1 .676 .148 .122 2 .676 .587 .641 3 .148 .587 .075 4 .122 .641 .075 表 Distance between final cluster centers 從表 最終聚類中心點間的距離來看 ,4 個最終聚類中心彼此之間的距離是顯著的 ,中心 2 與中心 3 之間距離是最大的 ,達(dá)到了 ,中心 3 與中心 4 之間的距離最小 ,為 。 14 圖 淘寶評論分詞 Taobao ment Word 分詞處理之后進(jìn)行詞頻統(tǒng)計,詞頻統(tǒng)計也是運用 EXCEL 進(jìn)行統(tǒng)計,編寫相應(yīng)的 VB程序,對詞頻進(jìn)行統(tǒng)計。打開八爪魚采集器制定采集規(guī)則,也就是采集的流程,這里采用的采集流程圖 ,打開網(wǎng)頁,開始一個點擊下一頁的循環(huán),在循環(huán)當(dāng)中嵌套一個分組的循環(huán),在分組中抓取所需要的數(shù)據(jù)。 7 淘寶評論的概述 淘寶評論是指在淘寶平臺上購買商品在商品評論區(qū),對購買的商品寫下的評論。 本文試圖通過搜集淘寶連衣裙評論的相關(guān)數(shù)據(jù) ,發(fā)現(xiàn)淘寶連衣裙消費群體并予以分類 ,所以采用數(shù)據(jù)挖 掘中聚類分析的方法進(jìn)行研究是合適與有效的。典型的分類預(yù)測算法包括 K 臨近、神經(jīng)網(wǎng)絡(luò)與粗糖集等。根據(jù)這三種數(shù)據(jù)類型,數(shù)據(jù)挖掘技術(shù)大體分為:內(nèi)容數(shù)據(jù)( content mining)、結(jié)構(gòu) 挖 掘( structure mining)以及日志 挖 掘( usage mining)。 研究方法 文本采集工具 本文中淘寶評論的數(shù)據(jù)是通過八爪魚采集器進(jìn)行采集的。近年隨著電商的發(fā)展,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)上的應(yīng)用也逐漸受到關(guān)注,主要應(yīng)用的方向是淘寶用戶的消費行為偏好的研究。 圖 八爪魚淘寶數(shù)據(jù)采集流程圖 Data Acquisition flowchart 4 文本預(yù)處理以及分析 本次研究文本預(yù)處理主要通過 WORD 以及 EXCEL 這兩個軟件,首先將保存的數(shù)據(jù)在EXCEL 中利用宏功能將沒有規(guī)則的文本進(jìn)行分詞處理,再將劃分好的詞導(dǎo)出到 WORD 中進(jìn)行詞語的篩選以及格式的去除,分詞中無用的詞語剔除,然后保存為純文本。除此之外,內(nèi)容挖掘的主要任務(wù)是處理 Inter 信息,并作適當(dāng)?shù)娜ピ胩幚?,同時還可以提高文本挖掘的準(zhǔn)確率和 5 質(zhì)量。聚類分析常常用于先驗知識不足的數(shù)據(jù)挖掘任務(wù) ,且能起到不錯的效果。也就是將大量的數(shù)據(jù)劃分成群組的過程 ,即把對象分成多個類 ,在同 一個類中的數(shù)據(jù)對象之間具有較高的相似度 ,而不同類中的數(shù)據(jù)對象差別較大。 連衣裙消費者分類特征的發(fā)現(xiàn)與分類模型的建立 連衣裙消費者分類特征的發(fā)現(xiàn) 網(wǎng)絡(luò)購物成為當(dāng)今購物的熱潮,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心 3013 年的統(tǒng)計,統(tǒng)計如圖 , 消費者在進(jìn)行網(wǎng)絡(luò)購物決策的時候受到其他用戶的影響是最大的,所占比例為 %。實施采集后,總共采集到 76131 條淘寶評論。詞頻在前 100 的詞語初步分為 5 類,分別是質(zhì)量、物流、外觀、價格、服務(wù)。 其中注重價格物流,顧名思義就是在購買商品的時候?qū)ι唐返膬r格和物流關(guān)注度比較高,表 中表現(xiàn)為第 4 類,第 4 類中在物流與價格兩個方面是強關(guān)注度,而在質(zhì)量、服務(wù)關(guān)注度是為弱而外觀的關(guān)注度為強。 SPSS 軟件還有許多應(yīng)用的地方,本次數(shù)據(jù)挖掘激發(fā)了我學(xué)習(xí) SPSS 的興趣,在本次數(shù)據(jù)挖掘結(jié)束后,本人也將深入學(xué)習(xí)使用 SPSS強大的分析功能,同時也想深入學(xué)習(xí)掌握 EXCEL 的統(tǒng)計分析。而對于中端連衣裙消費者賣家可以對在物流與服務(wù)方面降低成本,而質(zhì) 量方面要堅決做好;而低端連衣裙消費者屬于價格敏感者,要從價格方面入手去吸引消費者。下面進(jìn)行這一步的工作 : 19 (1)類簇個數(shù)與最終每個聚類中案例數(shù)目的 比較,如表 所示。使用邏輯值 True/False 來表示是否啟用。 淘寶評論數(shù)據(jù)挖掘 樣本的確定 淘寶評論有海量評論數(shù)據(jù),這里先對淘寶店鋪進(jìn)行劃分,參考艾瑞網(wǎng)上對服裝 消費的層次的分層標(biāo)準(zhǔn),將淘寶店鋪劃分表 所示的消費層次。 這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)不再明顯變
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1