freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淘寶數(shù)據(jù)挖掘論文--以淘寶連衣裙店鋪評論數(shù)據(jù)挖掘為例-文庫吧

2025-05-15 04:46 本頁面


【正文】 解決的問題。由此,數(shù)據(jù)挖掘技術(shù)應用而生 。數(shù)據(jù)挖掘是利用分析工具在大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)系的過程。通過分析過程可以進行預測,幫助分析者尋找數(shù)據(jù)間關(guān)聯(lián),發(fā)現(xiàn)作用因素。數(shù)據(jù)挖掘是解決數(shù)據(jù)爆炸而信息匱乏問題的一種有效方法和途徑。 在互聯(lián)網(wǎng)上的數(shù)據(jù)主要有三種形式:文本數(shù)據(jù)( content data)、結(jié)構(gòu)數(shù)據(jù)( structure data)以及日志數(shù)據(jù)( usage data)。根據(jù)這三種數(shù)據(jù)類型,數(shù)據(jù)挖掘技術(shù)大體分為:內(nèi)容數(shù)據(jù)( content mining)、結(jié)構(gòu) 挖 掘( structure mining)以及日志 挖 掘( usage mining)。 互聯(lián)網(wǎng)信息多為結(jié)構(gòu)化的文本數(shù)據(jù),隨著互聯(lián)網(wǎng)的高速發(fā)展,如今,互聯(lián)網(wǎng)中還存在著半結(jié)構(gòu)化的超文本信息以及非結(jié)構(gòu)化的視頻信息和 video 信息。以上信息均為內(nèi)容挖掘的主要目標。除此之外,內(nèi)容挖掘的主要任務是處理 Inter 信息,并作適當?shù)娜ピ胩幚?,同時還可以提高文本挖掘的準確率和 5 質(zhì)量。 結(jié)構(gòu)挖掘是指對鏈接結(jié)構(gòu)( HTML 標簽)、 XML 標簽等描述內(nèi)容格式標準和頁面組織結(jié)構(gòu)的數(shù)據(jù)進行提取。分析出隱藏于頁面內(nèi)部和頁面之間的相關(guān)關(guān)聯(lián)規(guī)則。主要作用是提供適當?shù)母纳祈撁嬖O計依據(jù),提高用戶的訪問率。 日 志挖掘是指對用戶訪問頁面時留下的結(jié)構(gòu)化的記錄數(shù)據(jù)(瀏覽器端 log、服務器 log 以及代理服務器 log)的挖掘。主要的應用是挖掘用戶瀏覽頁面的模式,掌握用戶個人喜好以及瀏覽習慣,對用戶進行個性化推薦。日志數(shù)據(jù)包括兩部分,第一部分是通過設計良好的 log 工具將數(shù)據(jù)轉(zhuǎn)化成 log 信息所獲得的數(shù)據(jù);第二部分是將物理層的數(shù)據(jù)經(jīng)過核心國模日志記錄和經(jīng)核心定位后的自動模式所獲得的日志數(shù)據(jù)。 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析不同在于數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、 發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應具有先前未知、有效和可實用三個特征。先前未知的信息是指該信息是預先未曾預料到的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值;而且它是一個非平凡的過程,也即挖掘過程不是線性的,有反復和循環(huán),所挖掘到的知識也不是通過簡單的分析就能得到,這些知識可能是隱含在表面現(xiàn)象的內(nèi)部,需要經(jīng)過大量的數(shù)據(jù)比較分析,應用一些專門處理大數(shù)據(jù)量的數(shù)據(jù)挖掘工具才能取得。 數(shù)據(jù)挖掘方法 經(jīng)過多年的發(fā)展 ,數(shù)據(jù)挖掘的方法 不斷豐富 ,常用的數(shù)據(jù)挖掘方法有 :分類分析、聚類分析、關(guān)聯(lián)規(guī)則分析 ,下面進行簡要介紹。 (1)分類預測 :分類的方法在于根據(jù)一定的分類標準 ,將待分析的數(shù)據(jù)集進行參照與比對 ,再將數(shù)據(jù)分門別類得歸入指定的分類標準之中 ,而分類標準往往需要預先構(gòu)建分類器進行數(shù)據(jù)訓練 ,而分類的結(jié)果往往可以用于描述數(shù)據(jù)發(fā)展的未來趨勢。分類預測的方法可以對商業(yè)中客戶細分有著較好的效果。典型的分類預測算法包括 K 臨近、神經(jīng)網(wǎng)絡與粗糖集等。 (2)聚類。聚類方法的思想在于在數(shù)據(jù)集中找到令人滿意的類簇 ,與分類不同的是這種方法不需要事 先指定類簇標準 ,按照相應的算法自動的對數(shù)據(jù)集進行分類 ,最后得出分析結(jié)果。聚類分析常常用于先驗知識不足的數(shù)據(jù)挖掘任務 ,且能起到不錯的效果。聚類的經(jīng)典算法有劃分中的 K 均值、層次聚類算法等。 (3)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析思想在于找到數(shù)據(jù)集中某一項記錄或多項記錄與其他記錄之間的相關(guān)關(guān)系 ,如果一項或多項記錄與其他記錄共同出現(xiàn) ,并且出現(xiàn)的頻率達到了預先設定的閾值 ,那么便認為這兩者之間是存在關(guān)聯(lián)規(guī)則的。關(guān)聯(lián)規(guī)則的應用十分廣泛 ,在比如在零售領(lǐng)域?qū)蛻糍徺I的產(chǎn)品組合進行關(guān)聯(lián)分析 ,可以發(fā)現(xiàn)單個用戶或整體用 6 戶的購買習慣 ,有利 于商家調(diào)整產(chǎn)品組合以達更好的營銷效果。另外在醫(yī)療領(lǐng)域 ,對病人的癥狀進行關(guān)聯(lián)分析可以預測他患有某一疾病的概率。 (4)其他方法。在面對多樣的數(shù)據(jù)類型時 ,也有相應的數(shù)據(jù)挖掘方法。比如對于圖片、視頻等的多媒體數(shù)據(jù)挖掘 。為應對空間數(shù)據(jù)庫而產(chǎn)生的數(shù)據(jù)挖掘方法 。應對文本型數(shù)據(jù)而提出的文本數(shù)據(jù)挖掘方法 。應對互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)的 WEB 挖掘方法等??偠灾?,存在數(shù)據(jù)集的領(lǐng)域 ,數(shù)據(jù)挖掘便有用武之地 ,而相應的方法也會隨之產(chǎn)生。 本文試圖通過搜集淘寶連衣裙評論的相關(guān)數(shù)據(jù) ,發(fā)現(xiàn)淘寶連衣裙消費群體并予以分類 ,所以采用數(shù)據(jù)挖 掘中聚類分析的方法進行研究是合適與有效的。下面重點介紹聚類分析技術(shù)。 聚類分析 聚類分析的概念 聚類就是對數(shù)據(jù)集中的數(shù)據(jù)應用某種方法進行分組 ,把具有相似性質(zhì)的事物區(qū) 分開加以分類。也就是將大量的數(shù)據(jù)劃分成群組的過程 ,即把對象分成多個類 ,在同 一個類中的數(shù)據(jù)對象之間具有較高的相似度 ,而不同類中的數(shù)據(jù)對象差別較大。它對 發(fā)現(xiàn)數(shù)據(jù)集內(nèi)在的結(jié)構(gòu)起著非常重要的作用。 聚類分析的算法 kmeans 算法 kmeans 算法是劃分聚類中較流行的一種算法 ,它是一種迭代的聚類算法 ,迭代過程中不斷移動簇集中的對象 ,直至得到理想的簇集為止 ,每個簇用該簇中對象的平均值來表示。利用 kmeans 算法得到的簇 ,簇中對象的相似度很高 ,不同簇中對象之間的相異度也很高。算法的主要步驟為 : ( 1)從 n 個數(shù)據(jù)對象隨機選取 k 個對象作為初始簇中心 。 ( 2)計算每個簇的平均值 ,并用該平均值代表相應的簇 。 ( 3)根據(jù)每個對象與各個簇中心的距離 ,分配給最近的簇 。 ( 4)轉(zhuǎn)第二步 ,重新計算每個簇的平均值。 這個過程不斷重復直到滿足某個準則函數(shù)不再明顯變化或者聚類的對象不再變 化才停止。一般 ,K,eans 算法的準則函數(shù)采用平方誤差準則 ,定義為 : ||E 1? ?? ? ?? ki cp ii mp 其中, E 是數(shù)據(jù)集中所有對象與相應類聚中心的均方差之和 ,p 為給定的數(shù)據(jù)對象 , 聚類的均值 (p 和 m 均是多維的 )kmeans 算法對于大型數(shù)據(jù)庫是相對可伸縮的和高效的 ,算法的時間復雜度為 O(tkn),其中 t 為迭代次數(shù)。一般情況下結(jié)束于局部最優(yōu)解。 Kmeans 算法也存在不足之處 ,使用它要保證平均值有意義 ,如果存在分便量 ,這個方法不適用。不能對非凸面形狀的數(shù)據(jù)進行處理。 7 淘寶評論的概述 淘寶評論是指在淘寶平臺上購買商品在商品評論區(qū),對購買的商品寫下的評論。淘寶評論是用戶在收到商品后才撰寫的,在一定程度上能反映出商品還有店鋪的一些特性,同時用戶的評論也能體現(xiàn)用戶對商品的哪些方面比較關(guān)注。通過對淘寶評論的數(shù)據(jù)數(shù)據(jù)挖掘能夠了解用戶行為,從而為店鋪提供決策建議。 連衣裙消費者分類特征的發(fā)現(xiàn)與分類模型的建立 連衣裙消費者分類特征的發(fā)現(xiàn) 網(wǎng)絡購物成為當今購物的熱潮,根據(jù)中國互聯(lián)網(wǎng)絡信息中心 3013 年的統(tǒng)計,統(tǒng)計如圖 , 消費者在進行網(wǎng)絡購物決策的時候受到其他用戶的影響是最大的,所占比例為 %。用戶評價中能反應出商品的多種信息,同時用戶的評價也能體現(xiàn)不用用戶對商品的消費偏好。 圖 considerations of online shoppers 在淘寶上找到不同消費層次的連衣裙的評價,在評論中發(fā)現(xiàn)連衣裙的質(zhì)量、店鋪的服務、物流、連衣裙的外觀、價格這幾個詞在評論中出現(xiàn)的頻率是比較高,然而在不同消費階層出現(xiàn)的頻率有所差別,圖 分別是人民幣 68 元,人民幣 259,人民幣 429 元的連衣裙的評價,從這三個簡例可以看到在價格比較高的連衣裙消費者在評論中沒有出現(xiàn)跟價格有關(guān)的詞語,其中對質(zhì)量還有是否正品關(guān)注度比較高,在價格中端的連衣裙的消費者評論中可以看到這個階層的消費者中商品的質(zhì)量、店鋪的服務詞頻出現(xiàn)較高,而在低端消費層次中商品的價格、物流詞頻出現(xiàn)較高。由此提出研 8 究的問題,研究不同層次消費者的評論中顯示出對商品不同角度的關(guān)注度。 圖 人民幣 68元連衣裙的評論 ¥ 68 dress’s ment 9 圖 人民幣 259元連衣裙的評論 ¥ 259 dress’s ment 10
點擊復制文檔內(nèi)容
畢業(yè)設計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1