【正文】
挖掘,可以讓網(wǎng)站設(shè)計(jì)者或者后期維護(hù)者知道哪些界面是訪問(wèn)者經(jīng)常連續(xù)點(diǎn)擊訪問(wèn)的頁(yè)面,就可以調(diào)整 6 這些相關(guān)的頁(yè)面鏈接,可以將這些鏈接放在明顯的部分,并改變鏈接深度,使得用戶易于訪問(wèn),用戶就不需要在一大堆不感興趣的鏈接之間尋找自己想要的鏈接,從而避免降低用戶對(duì)網(wǎng)站的興趣。 增加網(wǎng)頁(yè)鏈接促進(jìn)網(wǎng)站優(yōu)化 通過(guò)挖掘用戶的 Web 日志文件,對(duì) Web 站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可以從兩方面來(lái)考慮:一是發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的相關(guān)性,對(duì)密切相關(guān)的網(wǎng)頁(yè)之間增加鏈接。 客戶關(guān)系管理中延長(zhǎng)客戶駐留時(shí)間 在電子商務(wù)中,傳統(tǒng)的買方客戶與賣方銷售商之間的空間距離已經(jīng)不存在,在 Inter 上,每個(gè)賣方銷售商對(duì)于買方客戶來(lái)說(shuō)都一樣。從它的分類中判斷是否需要把這個(gè)新客戶作為潛在客戶展示一些特殊的,個(gè)性化的頁(yè)面內(nèi)容,提高對(duì)用戶服務(wù)的質(zhì)量。 第三章 web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用 web 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用 客戶關(guān)系管理中發(fā)掘潛在客戶 通過(guò)分析和探究 web 日志記錄中的規(guī)律,可以對(duì)已經(jīng)存在的訪問(wèn)者進(jìn)行分類,確定分類的關(guān)鍵屬性及相互間的關(guān)系。使用這個(gè)圖形用戶界面對(duì)于用戶管理和理解大量的模式提供極大的便利。若分析者要求的是所有最小支持度是 20%且最小可信度是 80%,發(fā)送與 2021 年 8 月 8 號(hào)以后的規(guī)則并且域名來(lái)自于“ .”的用戶感興趣,基于這個(gè)條件,查詢語(yǔ) 句就可以表示為: SELECT association_rules(M*A*B) FROM logdata WHERE Date=20210808 AND domain=. AND support=20AND confidence=80 通過(guò)這個(gè)查詢得到消息可以用來(lái)限制挖掘活動(dòng)的范圍,減少挖掘過(guò)程的代價(jià)。發(fā)現(xiàn)的知識(shí)一般也能以被用戶理解,所以為了能讓用戶理解他們需求的知識(shí),一般采取三個(gè)方法:查詢, OLAP 技術(shù),可視化技術(shù)。例如:統(tǒng)計(jì)分析通過(guò)分析網(wǎng)頁(yè)視圖,瀏覽時(shí)間和導(dǎo)航路徑長(zhǎng)度,有助于改進(jìn)系統(tǒng)性能,增加系統(tǒng)安全性,便于站點(diǎn)修改并提供決策支持;路徑分析技術(shù)用于發(fā)現(xiàn)web 站點(diǎn)中最經(jīng)常被訪問(wèn)的路徑,從而調(diào)整站點(diǎn)結(jié)構(gòu);通過(guò)訪問(wèn)模式能挖掘關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn)。但 是在 web 日志中的訪問(wèn)事務(wù)不是一個(gè)顯然的結(jié)果,需要采用專門算法來(lái)生成,常用的方法是:時(shí)間窗口和最大向前路徑算法。 IP 地址或者代理在任何站點(diǎn)都可以利用,服務(wù)器和客戶端都不必要增加功能,但是只能夠獲取有限的信息如: IP 地址,代理和 URL。 最常用的識(shí)別用戶的方法是 IP 地址或代理。 數(shù)據(jù)項(xiàng)解析:對(duì)于 CGI 數(shù)據(jù)項(xiàng)必須被解析與不同的域中且形式為 名字,值 對(duì)的形式。使用的方法是通過(guò)檢查日志記錄中的代理域,采用字符串匹配方法剔除。 消除不相干的數(shù)據(jù):在 web 日志文件中一些對(duì)挖掘不必要的存取記錄要剔除,例如圖像文件,壓縮文件等對(duì)挖掘來(lái)說(shuō)不需考慮的可以剔除。由于數(shù)據(jù)的表示和寫(xiě)入對(duì)象的不同,用戶興趣及挖掘算法的 各個(gè)要求不盡相 同,所以必須先對(duì) web 日志的數(shù)據(jù)配上合適的清洗策略進(jìn)行清洗。 數(shù)據(jù)預(yù)處理的過(guò)程就是要先對(duì)提供的日志文件進(jìn) 行整理與數(shù)據(jù)清洗,然后進(jìn)行識(shí)別用戶訪問(wèn)事務(wù)和識(shí)別訪問(wèn)片段。 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是 web 挖掘的重要步驟,直接影響到最后分析的數(shù)據(jù)的準(zhǔn)確 性和正確性,主要是對(duì)日 志文件進(jìn)行清洗、過(guò)濾、轉(zhuǎn)換及剔除無(wú)關(guān)記錄。如圖三所示的,這四個(gè)部分又由其他幾個(gè)子部分組成。 如表 21 所示。訪問(wèn)者訪問(wèn) web 時(shí),服務(wù)器自動(dòng)收集這些信息,然后存儲(chǔ)到訪問(wèn)日志、引用日志和代理日志中。主要記錄的就是什么人在什么時(shí)候?yàn)g覽了什么內(nèi)容,網(wǎng)站的流量和訪問(wèn)者的信息等。 Web 服務(wù)器的日志文件記錄和積累了 所訪問(wèn)的頁(yè)面,時(shí)間和用戶ID,還包括描述用戶瀏覽網(wǎng)頁(yè)和沿著網(wǎng)頁(yè)鏈接所產(chǎn)生的點(diǎn)擊流序列信息等。這個(gè)功能一般通過(guò)決策樹(shù)和貝葉斯分類法實(shí)現(xiàn)的。 分類 在數(shù)據(jù)挖掘中應(yīng)用最多的任務(wù)就是分類,分類就是基于一個(gè)可預(yù)測(cè)屬性把事例分成多個(gè)級(jí)別。目前用于 web 日志挖掘的聚類算法很多,用戶對(duì) web 站點(diǎn)的訪問(wèn)有某種有序的關(guān)系,這種有序關(guān)系反映的是用戶的訪問(wèn)興趣,也就是說(shuō)先訪問(wèn)的節(jié)點(diǎn)具有高興趣度。 聚類是一種強(qiáng)大的工具,用途很廣,一種重要的人類行為。 Kmeans 算法以計(jì)算距離的平均值對(duì)聚類成員分配; EM 算法是使用概率進(jìn)行度量,度量某個(gè)對(duì)象的概率來(lái)判定該對(duì)象屬于哪個(gè)聚類中。具體描述為:將數(shù)據(jù)對(duì)象分為多個(gè)類或者簇的過(guò)程,原則是在同一個(gè)簇中的對(duì)象間具有較高的相似度,而不同簇中的對(duì)象要差別大點(diǎn),聚類要?jiǎng)澐值念愂鞘孪炔恢赖牟涣私獾?,類的形成完全是?shù)據(jù)驅(qū)動(dòng)的,屬于一種無(wú)指導(dǎo)的學(xué)習(xí)方法。在 web站點(diǎn)的合理布局時(shí),圖標(biāo)常用來(lái)表現(xiàn) web 站點(diǎn)頁(yè)面 瀏覽路徑,圖的節(jié)點(diǎn)表示 web 界面,有向邊表示頁(yè)面的超鏈接,各種圖都是建立在頁(yè)面與頁(yè)面間聯(lián)系或者是一定數(shù)量的用戶瀏覽界面順序的基礎(chǔ)上。序列分析常用語(yǔ) web 點(diǎn)擊分析, web 日志分析中。 序列規(guī)則 序列分析用來(lái)發(fā)現(xiàn)離散序列中的模式,序列和關(guān)聯(lián)數(shù)據(jù)有點(diǎn)相似,都包含一個(gè)項(xiàng)集成一組狀態(tài)。在 web 數(shù)據(jù)挖掘的情況下, 關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)某個(gè)用戶生成的服務(wù)器文件中不同引用之間的關(guān)系??蛻粼L問(wèn)某個(gè)網(wǎng)站一般都是通過(guò)探索興趣詞條來(lái)找到相關(guān)興趣網(wǎng)頁(yè)并通過(guò)連接訪問(wèn)。 Web 數(shù)據(jù)挖掘常用的技術(shù)有: Web 數(shù)據(jù)挖掘 Web 內(nèi)容挖掘 搜索結(jié)果挖掘 Web 結(jié)構(gòu)挖掘 Web 訪問(wèn)信息挖掘 Web 頁(yè)面內(nèi)容挖掘 用戶使用記錄跟蹤 登陸模式跟蹤 3 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是最常見(jiàn)的從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí),若有 2 個(gè)或者多個(gè)數(shù)據(jù)項(xiàng)的取值之間重復(fù)出現(xiàn)且概率很高,則會(huì)存在某種關(guān)聯(lián),可以建立這些數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。本文重點(diǎn)討論的就是聚類算法與路徑分析在挖掘 web訪問(wèn)信息這方面的應(yīng)用。 Web訪問(wèn)信息挖掘中我們重點(diǎn) 討論的是 web日志挖掘的過(guò)程,具體來(lái)說(shuō)就是要從 web日志文件中抽取現(xiàn)今還未知的,有潛在價(jià)值的隱藏信息如:識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量,改進(jìn) web服務(wù)器系統(tǒng)的性能,甚至是建立針對(duì)個(gè)體用戶的定制 web服務(wù)。不同的 web站點(diǎn)和 web訪問(wèn)日志可以幫助挖掘過(guò)程中研究的用戶的行為和 web的結(jié)構(gòu)。在這個(gè)過(guò)程中通常都是由結(jié)構(gòu)比較好的記錄集提供資源信息即 web訪問(wèn) log日志。例如,分析頁(yè)面重要性可知 ,如果一個(gè)頁(yè)面被多次引用,則這個(gè)也沒(méi)可能很重要,一個(gè)頁(yè)面雖然未被多次引用,但是被一個(gè)重要頁(yè)面引用,則該頁(yè)面也可能很重要。 web結(jié)構(gòu) 挖掘 Web結(jié)構(gòu)挖掘是對(duì) web頁(yè)面間的連接關(guān)系中推導(dǎo)知識(shí),利用這種連接間的關(guān)聯(lián)關(guān)系,不僅可以對(duì) web界面進(jìn)行分類,而且可以找出權(quán)威頁(yè)面,改變搜索引擎,提高網(wǎng)頁(yè)點(diǎn)擊率。界面內(nèi)容包括:文本,圖像,音頻,多媒體,視頻和其他類型的數(shù)據(jù)。 web 數(shù)據(jù)挖掘的分類 Inter 中的數(shù)據(jù)挖掘總的來(lái)說(shuō)有三個(gè)目標(biāo):精確度,表示的是返回?cái)?shù)據(jù)是否符合用戶的需求;覆蓋率,表示能返回多少符合用戶需求的數(shù)據(jù)內(nèi)容;效率,表示反映的速度。 Web挖掘就是要從 web豐富的數(shù)據(jù)中發(fā)現(xiàn)潛在的,對(duì)網(wǎng)站有用的,和從前不了解的信息和知識(shí)的完整過(guò)程,是知識(shí)發(fā) 現(xiàn)對(duì) web數(shù)據(jù)的擴(kuò)展。通過(guò)原始數(shù)據(jù)的高度自動(dòng)化分析處理后得到數(shù)據(jù)間的關(guān)系模式,反 2 映了數(shù)據(jù)的內(nèi)在特性,是對(duì)信息的更高層次的抽象過(guò)程。將數(shù)據(jù)庫(kù)中的“數(shù)據(jù)”形象地比作礦床,“數(shù)據(jù)挖掘”由此而來(lái)。 運(yùn)用 web數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)源進(jìn)行挖掘發(fā)現(xiàn)潛在的客戶,提供優(yōu)質(zhì)個(gè)性化服務(wù),提高客戶忠誠(chéng)度,改進(jìn)網(wǎng)站設(shè)計(jì)等相關(guān)應(yīng)用,可以提高企業(yè)和網(wǎng)站的競(jìng)爭(zhēng)力,為客戶提供更優(yōu)質(zhì)的服務(wù)。在這個(gè)稱之為信息爆炸的時(shí)代,如何發(fā)掘有用知識(shí),提高數(shù)據(jù)的利用效 率十分重要。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)系統(tǒng)在社會(huì)生活總得到了越來(lái)越廣泛的應(yīng)用,大大改變了企業(yè)的經(jīng)營(yíng)方式,規(guī)范了企業(yè)內(nèi)部流程和交易手續(xù),減少了交易中間環(huán)節(jié),更多的降低了企業(yè)的經(jīng)營(yíng)成本;拉近了企業(yè)和客戶的關(guān)系,電子商務(wù)這種交易形勢(shì)前景十分廣闊。一般網(wǎng)站進(jìn)行 web數(shù)據(jù)挖掘,改進(jìn)客戶對(duì)網(wǎng)站的體驗(yàn)和與網(wǎng)站的交互,數(shù)據(jù)挖掘至少有助于完成3個(gè)任務(wù):網(wǎng)站的設(shè)計(jì)是否符合用戶期望,有沒(méi)有 為用戶提供個(gè)性化服務(wù),用戶需求有沒(méi)有得到更好地滿足。 Web 上的信息不能清楚地用數(shù)據(jù)模型表示,基于數(shù)據(jù)挖掘的復(fù)雜性,現(xiàn)今我們只把重點(diǎn)放在 web訪問(wèn)信息的數(shù)據(jù)挖掘上。數(shù)據(jù)這門學(xué)科由這些需要新的,無(wú)法被今天技 術(shù)所支持的能力的應(yīng)用所驅(qū)動(dòng),面對(duì)需要分析的這些新興復(fù)雜的 web數(shù)據(jù),數(shù)據(jù)挖掘才得以進(jìn)一步適應(yīng)發(fā)展。但是若在海量的數(shù)據(jù)中要發(fā)現(xiàn)數(shù)據(jù)之前內(nèi)在的關(guān)系和隱藏著的信息這對(duì)于人們來(lái)說(shuō)還是十分困難的。聚類算法利于客戶群體的聚類,發(fā)掘潛在的客戶;路徑分析法關(guān)注客戶行為路徑,發(fā)現(xiàn)客戶興趣與期望,并對(duì)網(wǎng)頁(yè)的鏈接進(jìn)行優(yōu)化設(shè)置。因此,在 web 上的數(shù)據(jù)挖掘需要用到很多不同于結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)。而隨著計(jì)算機(jī)處理能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)類型越來(lái)越能多,越來(lái)越復(fù)雜,人們開(kāi)始關(guān)心另一個(gè)話題:非結(jié)構(gòu)化的數(shù)據(jù)能否進(jìn)行數(shù)據(jù)挖掘,其中就著重關(guān)注到 web 數(shù)據(jù)挖掘。 所以人們開(kāi)發(fā)出新的方法 —— 數(shù)據(jù)挖掘技術(shù),它是一門將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的技術(shù)。 【 關(guān)鍵詞 】 web 數(shù)據(jù)挖掘;聚類算法;路徑分析;電子商務(wù) 目 錄 引言 .................................................................................................................................................. 1 第一章 web數(shù)據(jù)挖掘現(xiàn)狀 .......................................