freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計-web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用(參考版)

2025-06-11 05:28本頁面
  

【正文】 在這里我要感謝在論文撰寫的過程中給予我?guī)椭闹笇?dǎo)老師及同學(xué)們。 11 致謝 感謝有這次論文寫作的機(jī)會 。 經(jīng)過這幾個月的探索分析,我認(rèn)識了數(shù)據(jù)挖掘這門技術(shù)的強(qiáng)大力量,這段時間 我通過圖書館的書籍資料以及互聯(lián)網(wǎng)上的一些相關(guān)資源信息的收集、篩選,并且與導(dǎo)師的積極探討,獲得了很多的收獲,也提高了我學(xué)習(xí)、分析問題、解決問題的方法。但是在電子商務(wù)中進(jìn)行 web 的數(shù)據(jù)挖掘時還有很多問題需要解決:例如怎么樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式;怎么樣解決分布性,異構(gòu)性數(shù)據(jù)源的挖掘問題;如何控制整個 web 上的知識 發(fā)現(xiàn)過程等等。另外,有些自動生成的頁面,可以根據(jù)“熱門訪問路徑”自動生成鏈接及其排列次序,把熱門的鏈接放到前面排列, 這個是在商業(yè)上很有價值的 。那么認(rèn)為路徑 ? ?nddd ..., 21 中用戶需要訪問的是 dn,可以增加鏈接 d1 到 dn的鏈接。站點(diǎn)的主頁一般都是熱門頁面,但是,如果有頁面是多個熱門路徑的交點(diǎn),那么這 個界面也就很重要。當(dāng)訪問次數(shù)與訪問所有最大向前訪問路徑的次數(shù)比到底一個規(guī)定值是,這個最大訪問路徑就是該用戶的頻繁訪問路徑,就可以了解到用戶的興趣所在 。相對路徑 P1 來說,訪問路徑 P2 的人次少了許多,但他是否是頻繁路徑,還跟所取的閾值大小有關(guān)。 續(xù)實(shí)例( 1)中聚類分 析后,進(jìn)一步分析客戶訪問模式得: 由于 URL 類 {URL1, URL3}, {URL3, URL6}在一條路徑上,且路徑頻度分別為 %和 %,假設(shè)超過了指定的閾值,可以將他們合并起來構(gòu)成路徑 Pi ={URL1, URL3, URL6}。例 如,設(shè)某個 web 站點(diǎn)中的日志文件包含某客戶的一次訪問路徑(如圖 31); {A, B, C, D, C, B, A, E, F,G, F, H},實(shí)線箭頭表示向前瀏覽方向,虛線箭頭表示瀏覽 的 后退 方向, 而 訪問次序 是由有向邊 的數(shù)字表示,則圖五中 就存在 三條最大向前訪問路徑 【 4】 : 圖 31 1) (A→ B)( B→ C)( C→ D) A B C D E F G H 10 2)( A→ E)( E→ F)( F→ G) 3)( A→ E)( E→ F)( F→ H) 設(shè) TP 為一最大向前訪問路徑, P 的公式 ( 33) 如下所示: niTPkP nit ii,...2,1, ??? ?? 公式( 33) 其中 TPi 為某站點(diǎn) 上 第 I 條最大向前訪問路徑, KI 為 TPi 的訪問次數(shù)。 定義 1:設(shè)訪問路徑圖: TPG(T)=( V,E)其中 V 為節(jié)點(diǎn)(頁面)的集合,即 V={V1,V2… ,Vn}E 為有向邊(頁面的超鏈接)的集合, E={e|e=( ni, ni1) },訪問路徑圖實(shí)際上是訪問十五中的頁面依時間次序構(gòu)成有向圖。 這里討論最大向前訪問路徑方法。頁面 的抽象是圖中的頂點(diǎn),而且頁面 間的超鏈接 是 抽象為圖中的有向邊。用路徑分析技術(shù)進(jìn)行 web 數(shù)據(jù)挖掘最常用到的是圖。了解客戶訪問興趣可以通過路徑分析技術(shù)進(jìn)行分析,了解客戶對哪些頁面感興趣,從而更好的改進(jìn)設(shè)計,為客戶服務(wù)。若一定時期內(nèi)大多數(shù)用戶都表現(xiàn)出訪問路徑相似性,則站點(diǎn)就要做相應(yīng)的訪問路徑優(yōu)化 。 根據(jù)用戶重復(fù)瀏覽路徑可以 導(dǎo)出 用戶興趣視圖, 然后 依據(jù)用戶興趣視圖完成 其 個性化 的 推薦,為用戶提供定制的訪問體驗(yàn)。 網(wǎng)站的頻繁瀏覽路徑 就是 某個用戶在相應(yīng)一段時間內(nèi)的活動規(guī)律 ,是站點(diǎn) 要進(jìn)行 路徑優(yōu)化的依據(jù),主要包括: 1) 一個 個體用戶 在 瀏覽 行為中多次重復(fù)瀏覽的一個路徑 。這個代價可以H7*7d= 0 1 3 3 3 1 2 0 2 2 2 2 1 0 0 0 4 1 0 0 4 1 0 4 1 0 3 0 ( 3) H5*5d= 0 5 3 6 4 0 6 1 5 0 5 1 0 4 0 ( 4) M6*7= 9 理解為所經(jīng)過的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。 續(xù)實(shí)例( 1)中的聚類數(shù)據(jù): 去掉矩陣( 2)中第 5 個值為 0 的行向量,根據(jù) hamming 定義,計算矩陣( 2)中其余每個行向量的 hamming 距離,得到 URL 向量間的 Hamming 距離矩陣如下圖( 4),由閾值計算公式可知閾值為 3,據(jù)此將 URL 分成四個類: {URL1, URL3}, {URL2, URL4}, {URL3, URL6}, {URL5} 聚類分析是電子商務(wù)中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好的幫助電子商務(wù)用戶了解自己的客戶,向客戶提供更合適的服務(wù) 。 閾值計算也可按公式( 32)來計算,也可按照具體情況自己指定閾值大小。如果客戶對某些頁面的訪問情況相同或者相似那么這些界面應(yīng)該是相關(guān)界面,可以聚類。由閾值計算公式可知閾值為 1,據(jù)此將客戶分為 3 個類: M6*7= 1 1 1 1 1 1 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 ( 2) M6*7= 5 23 20 67 32 53 40 2 0 0 0 0 23 0 0 0 20 67 20 0 20 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 5 6 4 0 0 ( 1) 8 {Cust1, Cust2, Cust6}、 {Cust2, Cust7 }、 {Cust3, Cust4, Cust5, Cust7} 又例如: 通過 分析大量 的瀏覽“ puter”網(wǎng)頁的用戶 , 可以找出常在這個網(wǎng)頁上瀏覽的客戶,并且通過對這些客戶 登記 的 資料 進(jìn)行 分析, 就可以得出這些用戶是潛在的要買電腦的用戶群體,于是我們就通過 調(diào)整“ puter”網(wǎng)頁的 相關(guān)的內(nèi)容,盡量滿足客戶的要求 。根據(jù) Web 服務(wù)器的日志文件和客戶數(shù)據(jù)庫,我們可以建立如下 URLUser 關(guān)聯(lián)矩陣 M6*7 式( 1),用 1 代替矩陣式( 1)中的所有非零數(shù)字,即可得到矩陣 M6*7(式( 2))。 聚類分 析是電子商務(wù)中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好的幫助電子商務(wù)用戶了解自己的客戶,向客戶提供更合適的服務(wù)。 客戶群體聚類時,先對 URLUID 關(guān)聯(lián)矩陣進(jìn)行預(yù)處理,化簡數(shù)據(jù),然后按 Hamming 距離的公式計算 hamming 距離,公式如下: C11 C12… C1j… C1n C21 C22… C2j… C2n … … … … Ci1 Ci2… Cij… Cin MM*N= UID URL 7 iXi idYXYXH ?? ??1),( ( X,Y∈ {0,1}n n≧ 1) 公式( 31) 接 下 去 建 立 列 向 量 間 的 距 離 矩 陣 dHnnM? , 在 這 個 對 稱 矩 陣 中 , 對 于 任 意 的?jid, dHnnM? ? ?njini ???? ,1 表示第 i 個列向量和第 j 個列向量間的 hamming 距離,對角元素為 0。即對于 M[i,j]0,令 M[i,j]= hamming 距離,距離越小,其相似度越高。根據(jù)客戶登記數(shù)據(jù)庫查詢是否交易,若客戶僅做了瀏覽而并未與商家成交,即列向量的值是未成交次數(shù),那么此相似客戶群為潛在客戶群;否則,為交易客戶群。 客戶群體聚類 如上所述,由矩陣 MM*N 看出,每一列向量表示某客戶對該站點(diǎn)中所有 URL 的 訪問情況。所以,我們可以這么認(rèn)為,行向量不僅代表了站點(diǎn)的結(jié)構(gòu),還蘊(yùn)涵客戶的共同訪問模式,列向量則反應(yīng)了客戶類型和客戶的個性化訪問子圖。 在 有向圖 G 的 所有 結(jié)點(diǎn)集 N 中一般可以 得到站點(diǎn)所有的 URL,從結(jié)點(diǎn)屬性集 NP 也能 得到訪問每個結(jié)點(diǎn)的 UID 和對應(yīng) 訪問 的 次數(shù),這樣就可以得到一個 URLUID 的關(guān)聯(lián)矩陣 Mm*n ,如下: 其中, Ci, j 是 j 客戶在 某段期間 訪問第 i 個 URL 的次數(shù);由矩陣 MM*N 看出,每一列向量表示某客戶對該站點(diǎn)中所有 URL 的訪問情況。 一個 web 站點(diǎn)的拓?fù)浣Y(jié)構(gòu)是一副有向圖,每個客戶在一段時間內(nèi)的訪問模式就是它的子圖,具有相似訪問子圖的客戶很可能就是需求相似的客戶,將這些需求相似的客 戶歸類,這就是客戶聚類。 聚類算法在 web 數(shù)據(jù)挖掘中的應(yīng)用 聚類算法就是將一個 web 站點(diǎn)的分析的有向圖轉(zhuǎn)變成矩陣后對矩陣的行向量和列向量進(jìn)行化簡、計算 hamming 距離并進(jìn)行分類的過程。總之, Web 設(shè)計者是根據(jù)訪問者的信息來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和外觀,而不再完全依靠專家的定性指導(dǎo)來設(shè)計網(wǎng)站,站點(diǎn)上頁面內(nèi)容的安排和鏈接就如超級市場中物品擺放一樣,把具有一定支持度和信任度的相關(guān)聯(lián)的物品擺 放在一起有助于銷售。網(wǎng)站網(wǎng)頁的內(nèi)容設(shè)置 會 直接影響 客戶訪問網(wǎng)站的效率。通過對日志文件的
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1