【文章內(nèi)容簡介】
的、不完全的,要想得到簡潔、準(zhǔn)確的數(shù)據(jù)必須經(jīng)過數(shù)據(jù)的預(yù)處理過程。預(yù)處理主要對用戶訪問日志進(jìn)行數(shù)據(jù)清洗、用戶的唯一性識別、用戶的會話識別、完善訪問路徑和事務(wù)識別等處理。(1)數(shù)據(jù)清洗:目的是從服務(wù)器日志文件中消除不相干的項,縮小被挖掘數(shù)據(jù)對象的范圍。(2)用戶的唯一性識別:可以通過分析用戶方的日志文件和采用 catch busting技術(shù),并借助其他一些信息來實現(xiàn),例如 IP 地址。另外可以參考網(wǎng)絡(luò)站點的拓?fù)浣Y(jié)構(gòu)信息。(3)用戶的會話識別:目的是將每個用戶的訪問信息劃分為若干個獨立的會話進(jìn)程,最簡單方法是采用超時估計,即當(dāng)頁面之間的請求時間間隔超過了規(guī)定的時間范圍,就可以認(rèn)為用戶已經(jīng)開始進(jìn)行一次新的會話。(4)完善訪問路徑:如果一個頁面請求信息與該用戶上次請求的頁面沒有直接的鏈接關(guān)系,可以查看參考日志文件來決定這個頁面來自哪個頁面的鏈接。(5)事務(wù)識別:目的是依據(jù)數(shù)據(jù)挖掘任務(wù)的需求將事務(wù)進(jìn)行分割或合并處理,使其適合于數(shù)據(jù)挖掘需求的分析。模式發(fā)現(xiàn):模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效地、新穎的、潛在的、有用的及最終可以理解的信息和知識。其中應(yīng)用于 Web 使用挖掘的技術(shù)有路徑分析、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)、序列模式的發(fā)現(xiàn)、分類聚類技術(shù)。(1)路徑分析:通過對網(wǎng)站結(jié)構(gòu)圖和用戶的訪問信息分析可以得出路徑圖,通過路徑圖可以判定一個 Web 站點中最頻繁訪問的路徑,例如通過路徑分析可以得出:70%的客戶在瀏覽 4 個或更少的頁面后離開了。(2)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn):找到客戶訪問網(wǎng)站上各種文件之間的相互關(guān)聯(lián) [13]。例如:50%的用戶訪問 Web 頁面 A 公司的 B 產(chǎn)品時,也訪問了 A 公司的 D 產(chǎn)品。(3)序列模式的發(fā)現(xiàn):目的是在時間戳有序的事務(wù)集中,找到那些“一些項跟9 / 33隨另一個項”內(nèi)部事務(wù)模式。如:在 A 公司 B 產(chǎn)品上進(jìn)行在線訂購的顧客中喲 70%的在一個月內(nèi)也在 A 公司的 C 產(chǎn)品上下過訂單。(4)分類和聚類技術(shù):分類技術(shù)可以從個人信息或共同的訪問模式中得出訪問某一服務(wù)器文件的用戶特征。分類技術(shù)可以通過決策樹方法、貝葉斯分類法來實現(xiàn)。聚類分析可以從 Web 訪問信息數(shù)據(jù)中聚類出相似特性的客戶,可實現(xiàn)自動給一個特定的顧客聚類發(fā)送銷售郵件,為一個顧客聚類動態(tài)的改變一個特殊的站點。模式分析:模式分析主要是為了從模式發(fā)現(xiàn)算法找到的模式集合中篩選出有趣的模式。模式分析的形式可以像 SQL 那樣知識查詢機(jī)制,也可以把 Web 使用數(shù)據(jù)裝入數(shù)據(jù)倉庫,以便執(zhí)行聯(lián)機(jī)分析處理操作。 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用越來越普遍,也越來越受到電子商務(wù)管理者的重視。目前 Web 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用主要體現(xiàn)在以下四個領(lǐng)域。 數(shù)據(jù)挖掘在網(wǎng)站設(shè)計、管理中的應(yīng)用數(shù)據(jù)挖掘技術(shù)在網(wǎng)站設(shè)計、管理中的應(yīng)用主要體現(xiàn)在以下五個方面:網(wǎng)站設(shè)計中的數(shù)據(jù)挖掘在網(wǎng)站建設(shè)中,使用數(shù)據(jù)挖掘技術(shù),通過對網(wǎng)站內(nèi)容的挖掘,可有效地組織網(wǎng)站信息。例如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織; 分析用戶的Web 訪問行為,可為用戶提供智能化個性化服務(wù) [14]。比如,可根據(jù)客戶的訪問興趣、訪問頻度、訪問時間,動態(tài)地調(diào)整頁面結(jié)構(gòu), 迎合每個客戶的瀏覽興趣。另外,網(wǎng)站還可以根據(jù)實際用戶的瀏覽情況,挖掘用戶的興趣點,定期為用戶推送相關(guān)信息,以及調(diào)整網(wǎng)站中網(wǎng)頁的鏈接結(jié)構(gòu)和內(nèi)容,為用戶提供個人的定制服務(wù)。改進(jìn)站點設(shè)計對 Web 站點的鏈接結(jié)構(gòu)的優(yōu)化可從三方面來考慮:(1)對 WebLog 的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而對密切聯(lián)系的網(wǎng)頁之間增加鏈接,方便用戶使用。(2)利用路徑分析技術(shù)判定在一個 Web 站點中最頻繁的訪問路徑,可以考慮把重要的商品信息放在這些頁面中,改進(jìn)頁面和網(wǎng)站結(jié)構(gòu)的設(shè)計,增強(qiáng)對客戶的吸引力,提高銷售量。(3)通過對WebLog 的挖掘,發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接,從而10 / 33實現(xiàn)對Web站點結(jié)構(gòu)的優(yōu)化。序列模式發(fā)現(xiàn)發(fā)現(xiàn)序列模式便于電子商務(wù)的組織者預(yù)測客戶的行為,為客戶提供個性化的服務(wù)。使用序列模式分析挖掘Web 日志,可以發(fā)現(xiàn)客戶的訪問序列模式,預(yù)測出客戶未來的訪問模式,有的方矢地進(jìn)行在線推薦或安排廣告等營銷活動。采用關(guān)聯(lián)規(guī)則技術(shù),找出具有一定支持度和置信度的相關(guān)聯(lián)的物品,并且針對客戶的動態(tài)變化來調(diào)整網(wǎng)站的結(jié)構(gòu),可以使客戶直接訪問關(guān)聯(lián)商品的鏈接信息。在電子郵件管理中的應(yīng)用在電子商務(wù)中,現(xiàn)實的和潛在的客戶往往采用電子郵件咨詢電子商務(wù)企業(yè)商品的性能、價格、安裝使用、維護(hù)等各種問題。此時,電子商務(wù)企業(yè)就需要對所接收到的各種電子郵件進(jìn)行準(zhǔn)確、快速的分類?;跀?shù)據(jù)挖掘的電子郵件過濾、篩選和分類技術(shù)則可以從大量的郵件清除垃圾郵件,將有用的客戶郵件正確地分發(fā)到相應(yīng)的部門進(jìn)行及時處理。在搜索引擎中的應(yīng)用網(wǎng)絡(luò)用戶經(jīng)常使用搜索引擎在網(wǎng)站中搜索自己所希望的商品,有的用戶希望利用搜索引擎在整個網(wǎng)絡(luò)上搜索自己所關(guān)心的商品,并希望對這些商品的價格、質(zhì)量、性能、售后服務(wù)進(jìn)行比較。此時就需要利用搜索引擎進(jìn)行Web數(shù)據(jù)挖掘。例如,通過對網(wǎng)頁的聚類、分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索,以找到同樣類型的商品;通過用戶所使用的提問式歷史記錄的分析,可以有效地進(jìn)行提問擴(kuò)展,提高用戶的檢索效果;運用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,可以提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,改善檢索效果。 數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用客戶關(guān)系管理(Customer Relationship Management,CRM) ,簡單的說,就是對客戶關(guān)系進(jìn)行管理的一種思想和技術(shù),換句話說,客戶關(guān)系管理是一種“以客戶為中心”的經(jīng)營理念,它借助于信息技術(shù)在企業(yè)的市場、銷售、技術(shù)支持、客戶服務(wù)等各個環(huán)節(jié)的應(yīng)用,以改善和增進(jìn)企業(yè)與客戶的關(guān)系,實現(xiàn)以更優(yōu)質(zhì)、更快捷、更富個性化的服務(wù)保持和吸引更多客戶的目標(biāo),并通過全面優(yōu)化面向客戶的業(yè)務(wù)流程使保留老客戶和獲取新客戶的成本達(dá)到最低化,最終使企業(yè)的市場適應(yīng)能力和競爭實力有一個質(zhì)的提高 [15]。數(shù)據(jù)挖掘可以應(yīng)用在客戶群體分類分析、客戶效益分類分析和預(yù)測、客戶背景分析、客戶滿意度分析、交叉銷售、客戶信用分析、客戶流失分析、客戶的獲得與保持等方面 [16]。主要應(yīng)用在以下六個方面:11 / 33客戶的群體分類分析通過對電子商務(wù)系統(tǒng)收集的交易數(shù)據(jù)進(jìn)行聚類分析,對具有相似瀏覽行為或客戶指標(biāo)的客戶進(jìn)行分組,找出分組客戶的共同特征,從而確定不同類型客戶的行為模式。這樣可以幫助電子商務(wù)的組織者更好地了解自己的客戶,向客戶提供更適合客戶的服務(wù)。例如:有一些客戶都花了一些時間瀏覽“森馬服飾”頁面,經(jīng)過分析這些客戶被聚為一類。商家可以針對該群體的需求,為他們盡可能的發(fā)送廣告,或者及時的調(diào)整頁面及頁面內(nèi)容,滿足客戶的需求??蛻舻男б娣诸惙治龊皖A(yù)測客戶的利潤回報分析是客戶效益分類分析和預(yù)測的關(guān)鍵。客戶利潤回報預(yù)測是最令人向往的預(yù)測類型,也是客戶關(guān)系管理應(yīng)用能否替企業(yè)實現(xiàn)長期ROI 的一個重要環(huán)節(jié)。通過聚類技術(shù)和分類技術(shù)可以發(fā)現(xiàn)那些客戶是中重要的,那些客戶是不重要的,對給企業(yè)帶來利潤的客戶我們要對他好點,比如贈送禮物,多打折扣等??蛻魸M意度分析客戶滿意度是對某項產(chǎn)品或服務(wù)的消費經(jīng)驗的總體評價,是客戶通過對一個產(chǎn)品或服務(wù)的可感知的效果與其期望值相比較后,所形成的愉悅或失望的感覺狀態(tài),是衡量企業(yè)經(jīng)營質(zhì)量水平的一種方式。它是客戶經(jīng)過長期沉淀而形成的情感訴求,也是客戶在歷次交易活動中狀態(tài)的積累。分析客戶對企業(yè)產(chǎn)品和服務(wù)的滿意度,可以幫助企業(yè)了解客戶的想法、需求和期望,發(fā)現(xiàn)企業(yè)在產(chǎn)品、服務(wù)和管理上的不足,為企業(yè)改善經(jīng)營策略、提高客戶忠誠度指明方向。通過自定義的定量的度量標(biāo)準(zhǔn)和公式,并根據(jù)時間和其他參數(shù),利用數(shù)據(jù)挖掘技術(shù)和企業(yè)的數(shù)據(jù)庫中關(guān)于客戶購買、維修、反饋意見、建議、投訴等信息,可對客戶的滿意度進(jìn)行分析,找出客戶不滿意的原因并制定相應(yīng)的策略,提高客戶忠誠度,增加企業(yè)的利潤 [17]。交叉銷售交叉銷售是建立在 WinWin 原則上的,對客戶來講,要得到更多更好滿足并需求的服務(wù)并從中受益,對企業(yè)來講,也會因銷售額的增長而獲益。數(shù)據(jù)挖掘可以幫助企業(yè)分析出最優(yōu)的、合理的銷售匹配??蛻舻墨@得與保留通過 Web 數(shù)據(jù)挖掘可以對潛在客戶信息進(jìn)行聚類和分類的分析,再用模式分析預(yù)測那些可能成為新客戶,以幫助市場銷售人員找到正確的營銷對象。Web 數(shù)據(jù)挖掘還可以解釋客戶的行為習(xí)慣,發(fā)現(xiàn)在不同情況下有相似行為的新客戶,幫助商家識別潛在的客戶群,采用積極的營銷策略,不斷挖掘新客戶,提高市場占有率。通過 Web 數(shù)據(jù)挖掘,可發(fā)現(xiàn)不同的客戶群在網(wǎng)站上購買不同的商品,那些客戶可能正在流失,那些客戶是網(wǎng)站的忠誠客戶,那些是贏利客戶。針對不同的客戶,進(jìn)行個性化的營銷,使他們都成為電子商務(wù)企業(yè)的忠誠的老客戶。12 / 33客戶信用分析數(shù)據(jù)挖掘技術(shù)可以為企業(yè)提供客戶信用分析,如可以為保險索賠、移動電話呼叫、信用卡購買等易于發(fā)生欺詐的行業(yè)建立模型。 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營銷中的應(yīng)用網(wǎng)絡(luò)營銷是指利用 Inter 技術(shù),最大限度地滿足客戶需求,以達(dá)到開拓市場、增盈利目標(biāo)的經(jīng)營過程。它從傳統(tǒng)營銷的以產(chǎn)品銷售為中心的“4P”(Product,Price,Place,Promotion)轉(zhuǎn)向以滿足客戶需求為中心的 “4C”(Customer,Cost,Convenienee,Communication)。數(shù)據(jù)挖掘在提高營銷的有效性、交叉營銷等方面有著廣泛的應(yīng)用。進(jìn)行有針對性的營銷,提高營銷的有效性數(shù)據(jù)挖掘技術(shù)可以通過分析客戶點擊流等信息,挖掘出客戶的行為動機(jī),分析出用戶所處的階段,以幫助電子商務(wù)管理者針對用戶所處的階段提供不同的營銷策略,向用戶進(jìn)行有針對性的信息反饋和廣告發(fā)送;數(shù)據(jù)挖掘技術(shù)還可以對市場、客戶數(shù)據(jù)進(jìn)行恰當(dāng)?shù)姆诸愅诰?,從而分析出各個層次的細(xì)分市場,為電子商務(wù)企業(yè)定位于自己的目標(biāo)市場提供可靠的依據(jù)。交叉營銷交叉營銷就是指通過與客戶交流,向現(xiàn)有的客戶提供新的產(chǎn)品和服務(wù)的營銷過程。企業(yè)與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系,通過不斷地相互接觸和交流,客戶得到了更好更貼切的服務(wù)質(zhì)量,企業(yè)則因為增加了銷售量而獲利?;诳蛻粢呀?jīng)購買的商品,推薦客戶購買一些相關(guān)的商品,建立忠誠度。客戶往往愿意到那些最能滿足自己需求的網(wǎng)站購物。 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)廣告中的應(yīng)用企業(yè)可以利用數(shù)據(jù)挖掘技術(shù)分析網(wǎng)絡(luò)廣告的有效性、正確的的關(guān)聯(lián)匹配關(guān)系和精準(zhǔn)發(fā)送信息情況等。目的在于提高網(wǎng)絡(luò)廣告的投放率和網(wǎng)絡(luò)廣告的投資回報率(ROI)。網(wǎng)絡(luò)廣告的有效性分析網(wǎng)絡(luò)廣告與電視廣告、報紙廣告等傳統(tǒng)媒體廣告具有很大的不同,電子商務(wù)企業(yè)13 / 33需要根據(jù)網(wǎng)絡(luò)廣告的特點,采用數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)廣告的布局、投放進(jìn)行挖掘分析,以獲得更好的廣告效果。利用數(shù)據(jù)挖掘技術(shù)可以對各種廣告進(jìn)行分類,了解其點擊率、分析廣告在點擊以后的商品銷售情況,以判斷廣告的實際有效性。網(wǎng)絡(luò)廣告的關(guān)聯(lián)匹配網(wǎng)絡(luò)廣告的的關(guān)聯(lián)匹配是“數(shù)據(jù)挖掘”和網(wǎng)絡(luò)廣告的結(jié)合體。關(guān)聯(lián)匹配廣告的實現(xiàn)不僅需要了解網(wǎng)絡(luò)訪問者的習(xí)慣,而且還需要使用關(guān)聯(lián)規(guī)則對網(wǎng)絡(luò)廣告設(shè)計進(jìn)行分析,以確定哪些廣告的鏈接效果更好,可以使訪問者能夠更容易受到網(wǎng)絡(luò)廣告的影響去購買企業(yè)的商品。網(wǎng)絡(luò)廣告的精準(zhǔn)發(fā)送精準(zhǔn)廣告發(fā)送需要依托網(wǎng)絡(luò)搜索技術(shù)和所積累的龐大的網(wǎng)絡(luò)訪問者行為數(shù)據(jù)倉庫,對網(wǎng)絡(luò)瀏覽者的上網(wǎng)行為進(jìn)行個性化的數(shù)據(jù)挖掘分析,按電子商務(wù)企業(yè)的廣告需求鎖定目標(biāo)受眾,進(jìn)行一對一傳播,向細(xì)分人群分類發(fā)送他們各自感興趣的個性化商品信息,實現(xiàn)網(wǎng)絡(luò)廣告的精準(zhǔn)投放。為此,電子商務(wù)企業(yè)需要利用數(shù)據(jù)挖掘系統(tǒng)對網(wǎng)絡(luò)訪問者的 IP 地址進(jìn)行分析