freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

計算機科學與技術專業(yè)畢業(yè)設計-web數(shù)據(jù)挖掘技術在電子商務中的應用(完整版)

2025-07-25 05:28上一頁面

下一頁面
  

【正文】 增強對最終用戶的因特網(wǎng)信息服務的質量,改進 web服務器系統(tǒng)的性能,甚至是建立針對個體用戶的定制 web服務。在 web 數(shù)據(jù)挖掘的情況下, 關聯(lián)規(guī)則是發(fā)現(xiàn)某個用戶生成的服務器文件中不同引用之間的關系。具體描述為:將數(shù)據(jù)對象分為多個類或者簇的過程,原則是在同一個簇中的對象間具有較高的相似度,而不同簇中的對象要差別大點,聚類要劃分的類是事先不知道的不了解的,類的形成完全是數(shù)據(jù)驅動的,屬于一種無指導的學習方法。 分類 在數(shù)據(jù)挖掘中應用最多的任務就是分類,分類就是基于一個可預測屬性把事例分成多個級別。訪問者訪問 web 時,服務器自動收集這些信息,然后存儲到訪問日志、引用日志和代理日志中。 數(shù)據(jù)預處理的過程就是要先對提供的日志文件進 行整理與數(shù)據(jù)清洗,然后進行識別用戶訪問事務和識別訪問片段。 數(shù)據(jù)項解析:對于 CGI 數(shù)據(jù)項必須被解析與不同的域中且形式為 名字,值 對的形式。例如:統(tǒng)計分析通過分析網(wǎng)頁視圖,瀏覽時間和導航路徑長度,有助于改進系統(tǒng)性能,增加系統(tǒng)安全性,便于站點修改并提供決策支持;路徑分析技術用于發(fā)現(xiàn)web 站點中最經(jīng)常被訪問的路徑,從而調整站點結構;通過訪問模式能挖掘關于用戶行為及潛在顧客信息的發(fā)現(xiàn)。 第三章 web數(shù)據(jù)挖掘在電子商務中的具體應用 web 數(shù)據(jù)挖掘在電子商務中的應用 客戶關系管理中發(fā)掘潛在客戶 通過分析和探究 web 日志記錄中的規(guī)律,可以對已經(jīng)存在的訪問者進行分類,確定分類的關鍵屬性及相互間的關系。通過對日志文件的挖掘,可以讓網(wǎng)站設計者或者后期維護者知道哪些界面是訪問者經(jīng)常連續(xù)點擊訪問的頁面,就可以調整 6 這些相關的頁面鏈接,可以將這些鏈接放在明顯的部分,并改變鏈接深度,使得用戶易于訪問,用戶就不需要在一大堆不感興趣的鏈接之間尋找自己想要的鏈接,從而避免降低用戶對網(wǎng)站的興趣。 一個 web 站點的拓撲結構是一副有向圖,每個客戶在一段時間內的訪問模式就是它的子圖,具有相似訪問子圖的客戶很可能就是需求相似的客戶,將這些需求相似的客 戶歸類,這就是客戶聚類。根據(jù)客戶登記數(shù)據(jù)庫查詢是否交易,若客戶僅做了瀏覽而并未與商家成交,即列向量的值是未成交次數(shù),那么此相似客戶群為潛在客戶群;否則,為交易客戶群。根據(jù) Web 服務器的日志文件和客戶數(shù)據(jù)庫,我們可以建立如下 URLUser 關聯(lián)矩陣 M6*7 式( 1),用 1 代替矩陣式( 1)中的所有非零數(shù)字,即可得到矩陣 M6*7(式( 2))。 續(xù)實例( 1)中的聚類數(shù)據(jù): 去掉矩陣( 2)中第 5 個值為 0 的行向量,根據(jù) hamming 定義,計算矩陣( 2)中其余每個行向量的 hamming 距離,得到 URL 向量間的 Hamming 距離矩陣如下圖( 4),由閾值計算公式可知閾值為 3,據(jù)此將 URL 分成四個類: {URL1, URL3}, {URL2, URL4}, {URL3, URL6}, {URL5} 聚類分析是電子商務中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好的幫助電子商務用戶了解自己的客戶,向客戶提供更合適的服務 。若一定時期內大多數(shù)用戶都表現(xiàn)出訪問路徑相似性,則站點就要做相應的訪問路徑優(yōu)化 。 這里討論最大向前訪問路徑方法。相對路徑 P1 來說,訪問路徑 P2 的人次少了許多,但他是否是頻繁路徑,還跟所取的閾值大小有關。另外,有些自動生成的頁面,可以根據(jù)“熱門訪問路徑”自動生成鏈接及其排列次序,把熱門的鏈接放到前面排列, 這個是在商業(yè)上很有價值的 。在這里我要感謝在論文撰寫的過程中給予我?guī)椭闹笇Ю蠋熂巴瑢W們。但是在電子商務中進行 web 的數(shù)據(jù)挖掘時還有很多問題需要解決:例如怎么樣將服務器的日志數(shù)據(jù)轉化成適合某種數(shù)據(jù)挖掘技術的數(shù)據(jù)格式;怎么樣解決分布性,異構性數(shù)據(jù)源的挖掘問題;如何控制整個 web 上的知識 發(fā)現(xiàn)過程等等。當訪問次數(shù)與訪問所有最大向前訪問路徑的次數(shù)比到底一個規(guī)定值是,這個最大訪問路徑就是該用戶的頻繁訪問路徑,就可以了解到用戶的興趣所在 。 定義 1:設訪問路徑圖: TPG(T)=( V,E)其中 V 為節(jié)點(頁面)的集合,即 V={V1,V2… ,Vn}E 為有向邊(頁面的超鏈接)的集合, E={e|e=( ni, ni1) },訪問路徑圖實際上是訪問十五中的頁面依時間次序構成有向圖。了解客戶訪問興趣可以通過路徑分析技術進行分析,了解客戶對哪些頁面感興趣,從而更好的改進設計,為客戶服務。這個代價可以H7*7d= 0 1 3 3 3 1 2 0 2 2 2 2 1 0 0 0 4 1 0 0 4 1 0 4 1 0 3 0 ( 3) H5*5d= 0 5 3 6 4 0 6 1 5 0 5 1 0 4 0 ( 4) M6*7= 9 理解為所經(jīng)過的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。由閾值計算公式可知閾值為 1,據(jù)此將客戶分為 3 個類: M6*7= 1 1 1 1 1 1 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 ( 2) M6*7= 5 23 20 67 32 53 40 2 0 0 0 0 23 0 0 0 20 67 20 0 20 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 5 6 4 0 0 ( 1) 8 {Cust1, Cust2, Cust6}、 {Cust2, Cust7 }、 {Cust3, Cust4, Cust5, Cust7} 又例如: 通過 分析大量 的瀏覽“ puter”網(wǎng)頁的用戶 , 可以找出常在這個網(wǎng)頁上瀏覽的客戶,并且通過對這些客戶 登記 的 資料 進行 分析, 就可以得出這些用戶是潛在的要買電腦的用戶群體,于是我們就通過 調整“ puter”網(wǎng)頁的 相關的內容,盡量滿足客戶的要求 。即對于 M[i,j]0,令 M[i,j]= hamming 距離,距離越小,其相似度越高。 在 有向圖 G 的 所有 結點集 N 中一般可以 得到站點所有的 URL,從結點屬性集 NP 也能 得到訪問每個結點的 UID 和對應 訪問 的 次數(shù),這樣就可以得到一個 URLUID 的關聯(lián)矩陣 Mm*n ,如下: 其中, Ci, j 是 j 客戶在 某段期間 訪問第 i 個 URL 的次數(shù);由矩陣 MM*N 看出,每一列向量表示某客戶對該站點中所有 URL 的訪問情況。網(wǎng)站網(wǎng)頁的內容設置 會 直接影響 客戶訪問網(wǎng)站的效率。從它的分類中判斷是否需要把這個新客戶作為潛在客戶展示一些特殊的,個性化的頁面內容,提高對用戶服務的質量。發(fā)現(xiàn)的知識一般也能以被用戶理解,所以為了能讓用戶理解他們需求的知識,一般采取三個方法:查詢, OLAP 技術,可視化技術。 最常用的識別用戶的方法是 IP 地址或代理。由于數(shù)據(jù)的表示和寫入對象的不同,用戶興趣及挖掘算法的 各個要求不盡相 同,所以必須先對 web 日志的數(shù)據(jù)配上合適的清洗策略進行清洗。 如表 21 所示。這個功能一般通過決策樹和貝葉斯分類法實現(xiàn)的。 Kmeans 算法以計算距離的平均值對聚類成員分配; EM 算法是使用概率進行度量,度量某個對象的概率來判定該對象屬于哪個聚類中。 序列規(guī)則 序列分析用來發(fā)現(xiàn)離散序列中的模式,序列和關聯(lián)數(shù)據(jù)有點相似,都包含一個項集成一組狀態(tài)。本文重點討論的就是聚類算法與路徑分析在挖掘 web訪問信息這方面的應用。例如,分析頁面重要性可知 ,如果一個頁面被多次引用,則這個也沒可能很重要,一個頁面雖然未被多次引用,但是被一個重要頁面引用,則該頁面也可能很重要。 Web挖掘就是要從 web豐富的數(shù)據(jù)中發(fā)現(xiàn)潛在的,對網(wǎng)站有用的,和從前不了解的信息和知識的完整過程,是知識發(fā) 現(xiàn)對 web數(shù)據(jù)的擴展。在這個稱之為信息爆炸的時代,如何發(fā)掘有用知識,提高數(shù)據(jù)的利用效 率十分重要。數(shù)據(jù)這門學科由這些需要新的,無法被今天技 術所支持的能力的應用所驅動,面對需要分析的這些新興復雜的 web數(shù)據(jù),數(shù)據(jù)挖掘才得以進一步適應發(fā)展。而隨著計算機處理能力的發(fā)展和業(yè)務復雜性的提高,數(shù)據(jù)類型越來越能多,越來越復雜,人們開始關心另一個話題:非結構化的數(shù)據(jù)能否進行數(shù)據(jù)挖掘,其中就著重關注到 web 數(shù)據(jù)挖掘。挖掘過程分為數(shù)據(jù)預處理,模式算法實施,模式分析和可視化四個步驟。本文著重討論的是面向 web訪問信息的挖掘?,F(xiàn)在的數(shù)據(jù)挖掘技術已在商務、醫(yī)療、科學和工程等領域應用發(fā)展。若是知道并且能了解數(shù)據(jù)挖掘這個技術,困難便迎刃而解,即便在處理新興的 web數(shù)據(jù)上,數(shù)據(jù)挖掘技術也有望成為一種至關重要的可行性技術。而隨著快速發(fā)展,電子商務及基于各種互聯(lián)網(wǎng)的商業(yè) web網(wǎng)站的競爭也越來越激烈。整個過程由計算機完成,甚少需要人工干預,不僅大大提高了分析處理數(shù)據(jù)的效率,而且提高了分析數(shù)據(jù)處理的深度,越來越受人們的重視。對頁面進行排序,發(fā)現(xiàn)重要頁面。它是一門綜合技術,目前流行的挖掘技術包括:路徑分析,關聯(lián)規(guī)則和有序模式的發(fā)現(xiàn),聚類和分類等。在大型的 web 事務數(shù)據(jù)庫中,關聯(lián)規(guī)則能為站點重構和定位潛在客戶行為提供有價值的輸入。現(xiàn)階段的聚類算法又 2 種不同的分配算法: KMeans算法 和期望最大化( EM)算法。 Web挖掘中,分類技術根據(jù)用戶
點擊復制文檔內容
畢業(yè)設計相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1