freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web事務(wù)聚類分析的研究與實(shí)現(xiàn)畢業(yè)論文-資料下載頁(yè)

2025-06-23 06:31本頁(yè)面
  

【正文】 12科學(xué)研究 (sid=12) 12招生就業(yè) (sid=7) 11學(xué)院信息 (sid=2) 9重要文件 (sid=135) 6后勤服務(wù) (sid=14) 4招生信息網(wǎng) (sid=265) 4重點(diǎn)實(shí)驗(yàn)室 (sid=235) 1簇8 包含35個(gè)會(huì)話訪問(wèn)的主題 總訪問(wèn)次數(shù)學(xué)院概況 (sid=3) 176招生就業(yè) (sid=7) 129研究生工作處 (sid=327) 43學(xué)院信息 (sid=2) 35人才培養(yǎng) (sid=5) 29系部設(shè)置 (sid=158) 28學(xué)生天地 (sid=9) 23科學(xué)研究 (sid=12) 11后勤服務(wù) (sid=14) 9招生信息網(wǎng) (sid=265) 9機(jī)構(gòu)總覽 (sid=4) 5重要文件 (sid=135) 3專題 (sid=170) 2專題 (sid=393) 1 第二次使用K均值(=8)聚類算法得到的各個(gè)簇的特征在這一次的聚類結(jié)果中,簇1的體積極其龐大,幾乎覆蓋了整個(gè)數(shù)據(jù)集。該簇的事務(wù)主要訪問(wèn)的主題是“學(xué)院信息”、“學(xué)院概況”、“招生就業(yè)”、“系部設(shè)置”、“學(xué)生天地”和“研究生工作處”,這幾乎包含了網(wǎng)站中所有最主要的主題??梢哉f(shuō),這樣的事務(wù)特征等于“沒(méi)有特征”。簇簇3和簇8的體積雖然偏小,但是仍能作為正常的事務(wù)簇。簇2和簇3的事務(wù)以訪問(wèn)學(xué)院的新聞動(dòng)態(tài)為主,但不同的是——簇2的事務(wù)除了關(guān)心新聞動(dòng)態(tài)以外,還關(guān)心學(xué)院的概況和機(jī)構(gòu)設(shè)置,可以推測(cè)這類事務(wù)的用戶可能是有意報(bào)考我院的考生,或者是有意到我院就職的應(yīng)聘人員;而簇3的事務(wù)除了訪問(wèn)新聞動(dòng)態(tài)以外,還比較關(guān)注學(xué)院的后勤服務(wù)信息,這是在使用蟻群算法作為聚類手段時(shí)沒(méi)有發(fā)現(xiàn)的。簇8的事務(wù)以訪問(wèn)學(xué)院的概況和招生就業(yè)信息為主,其次是訪問(wèn)學(xué)院的研究生工作信息。可以推測(cè)這類事務(wù)的用戶很可能是有意報(bào)考我院的考生,并且其中含有大量報(bào)考我院研究生的考生。其余簇的體積過(guò)小,因此不能作為正常的事務(wù)簇。 試驗(yàn)結(jié)果小結(jié)從試驗(yàn)結(jié)果可以看出,使用蟻群聚類算法不需要與數(shù)據(jù)集相關(guān)的先驗(yàn)知識(shí),無(wú)需事先指定簇的數(shù)目,并且獲得的聚類結(jié)果較為自然,能夠發(fā)現(xiàn)各種大小的簇,且包含的細(xì)節(jié)數(shù)量適中,可以很好地被解釋。但是在蟻群聚類分析的結(jié)果中,可能存在著大量的孤立點(diǎn),這些孤立點(diǎn)可能含有細(xì)微但是重要的特征。K均值聚類算法需要知道數(shù)據(jù)集中簇的數(shù)目這一先驗(yàn)知識(shí)。由于該算法不考慮孤立點(diǎn)的存在,因此可能會(huì)將大量相似度較低的數(shù)據(jù)對(duì)象聚集到一個(gè)簇中,最終形成體積龐大并且特征模糊的簇。另外,由于K均值算法含有較多的隨機(jī)因素,因此其聚類結(jié)果不穩(wěn)定。但是使用K均值算法有可能發(fā)現(xiàn)蟻群算法聚類中不能發(fā)現(xiàn)的孤立點(diǎn)的特征。7 總結(jié)與展望 論文總結(jié)Web事務(wù)聚類分析是Web挖掘領(lǐng)域的重要內(nèi)容,通過(guò)對(duì)Web用戶事務(wù)進(jìn)行聚類分析,可以獲得用戶群對(duì)站點(diǎn)的關(guān)注熱點(diǎn)、用戶瀏覽網(wǎng)站的行為規(guī)律等模式知識(shí),這些知識(shí)對(duì)于于Web服務(wù)個(gè)性化推薦,改善頁(yè)面之間的鏈接結(jié)構(gòu),提高整個(gè)Web系統(tǒng)的性能,開展電子商務(wù)智能應(yīng)用等方面都具有重大意義。本文結(jié)合北京電子科技學(xué)院的Web服務(wù)器日志,對(duì)基于會(huì)話粒度的Web事務(wù)聚類分析的各個(gè)階段進(jìn)行了詳細(xì)的論述。本文在介紹了Web事務(wù)聚類分析系統(tǒng)的總體設(shè)計(jì)之后,首先分析了聚類分析的數(shù)據(jù)基礎(chǔ),并在聚類分析前對(duì)原始數(shù)據(jù)實(shí)施了有針對(duì)性的數(shù)據(jù)清洗工作。為了獲得質(zhì)量良好的聚類結(jié)果,除了對(duì)數(shù)據(jù)集進(jìn)行有針對(duì)性的數(shù)據(jù)清洗以及采用良好的聚類算法之外,數(shù)據(jù)集本身也要滿足一定的要求。一是清洗后得到的數(shù)據(jù)集中,用戶集中訪問(wèn)的不同URL地址的個(gè)數(shù)和會(huì)話總數(shù)的比例要適當(dāng)。如果該比例過(guò)?。ū热缯麄€(gè)數(shù)據(jù)集中只有一個(gè)URL地址),那么用戶的行為模式可能會(huì)比較單一,沒(méi)有進(jìn)行聚類分析的必要;如果該比例過(guò)大,那么聚類分析后可能會(huì)得到許多體積很小的簇,這樣的分析結(jié)果是難以為人所理解的。二是Web站點(diǎn)的網(wǎng)頁(yè)地址要具有良好的格式,這會(huì)使數(shù)據(jù)清洗工作更易實(shí)現(xiàn),也會(huì)使聚類的結(jié)果更易為人所理解。在Web事務(wù)聚類階段,本文首先采用了基于人工螞蟻模型的聚類分析算法得到了和數(shù)據(jù)集相關(guān)的先驗(yàn)知識(shí),然后在此先驗(yàn)知識(shí)的基礎(chǔ)上,又采用K均值算法對(duì)數(shù)據(jù)集進(jìn)行了重新分析,并且對(duì)比了兩個(gè)算法的優(yōu)劣。試驗(yàn)表明,在缺乏先驗(yàn)知識(shí)的情況下,蟻群算法比K均值算法更適合作為Web事務(wù)聚類分析的算法。但是為了獲得更為全局的認(rèn)識(shí),或者為了發(fā)現(xiàn)蟻群算法不能發(fā)現(xiàn)的更細(xì)微的事務(wù)特征,可以根據(jù)使用蟻群算法所獲得的先驗(yàn)知識(shí),采用K均值算法對(duì)事務(wù)集再次進(jìn)行分析。以上的技術(shù)和方法對(duì)于發(fā)現(xiàn)用戶訪問(wèn)北京電子科技學(xué)院Web站點(diǎn)的行為規(guī)律是行之有效的,對(duì)于研究其它Web站點(diǎn)也具有一定的參考價(jià)值。 下一步的研究工作Web事務(wù)聚類分析只是Web使用挖掘工作的一部分。本文的緒論也曾提到,在很多應(yīng)用中,聚類分析作為一種數(shù)據(jù)預(yù)處理過(guò)程,是進(jìn)一步分析和處理數(shù)據(jù)的基礎(chǔ)。因此,在本文的基礎(chǔ)上,還可以在下面幾個(gè)方向上做進(jìn)一步的研究:(1)進(jìn)一步分析各事務(wù)簇的模式。本文根據(jù)各個(gè)事務(wù)所訪問(wèn)的主題將相似的事務(wù)聚集成簇,并且以簇中事務(wù)頻繁訪問(wèn)的主題作為該簇的特征。在此基礎(chǔ)上,還可以發(fā)現(xiàn)簇中事務(wù)的更多特征。比如,在關(guān)心學(xué)院新聞動(dòng)態(tài)的事務(wù)中,用戶更關(guān)注哪一類新聞?這些用戶都來(lái)自什么地區(qū)?他們喜歡在哪些時(shí)間上學(xué)院的網(wǎng)站看新聞?等等。(2)挖掘孤立點(diǎn)的特征。在基于蟻群算法的聚類分析中,我們發(fā)現(xiàn)了大量的孤立點(diǎn),數(shù)量接近數(shù)據(jù)集的一半。這些孤立點(diǎn)不能被分配到已發(fā)現(xiàn)的任何一個(gè)簇中。雖然在基于K均值算法的聚類分析中,我們發(fā)現(xiàn)了一些蟻群聚類算法不能發(fā)現(xiàn)的特征,但是這些特征仍然十分模糊。這些孤立點(diǎn)可能隱藏了一些有價(jià)值的知識(shí)。(3)根據(jù)已有的聚類分析結(jié)果構(gòu)建個(gè)性化服務(wù)推薦系統(tǒng)。Web事務(wù)聚類分析的結(jié)果可以用于構(gòu)建個(gè)性化服務(wù)的推薦系統(tǒng)。當(dāng)一個(gè)用戶在網(wǎng)站上瀏覽了一定時(shí)間后,個(gè)性化服務(wù)系統(tǒng)就可以判斷該用戶更具備哪個(gè)用戶群的特征,從而將已經(jīng)為該用戶群定制好的頁(yè)面呈現(xiàn)給用戶,使得用戶的瀏覽更為便利,同時(shí)也可提高用戶的訪問(wèn)興趣。這種推薦系統(tǒng)在電子商務(wù)網(wǎng)站上具有巨大的應(yīng)用價(jià)值。隨著Web的迅猛發(fā)展和電子商務(wù)、電子政務(wù)的興起,Web使用挖掘?qū)?huì)得到更多的重視,也會(huì)得到更大的發(fā)展。8 致謝首先非常感謝XXX老師!張老師從我的畢業(yè)設(shè)計(jì)開題起,就不斷地給予我許多指導(dǎo),同時(shí)他也帶我走進(jìn)了數(shù)據(jù)挖掘的大門。感謝XXX和XXX老師!他們對(duì)我的畢業(yè)設(shè)計(jì)都提供了非常有幫助的建議。感謝計(jì)算機(jī)科學(xué)與技術(shù)系全體老師的辛勤教育!他們?yōu)槲业难芯抗ぷ鞔蛳铝藞?jiān)實(shí)的基礎(chǔ)。感謝評(píng)閱、評(píng)審論文和出席論文答辯會(huì)的各位專家在百忙中給予的悉心指導(dǎo)!9 參考文獻(xiàn)[1] 繆勇. 匿名用戶瀏覽路徑挖掘研究與實(shí)現(xiàn). 南京理工大學(xué)碩士學(xué)位論文,2006.[2] 張慧穎, 焦霖楠. 用戶訪問(wèn)模式聚類分析在網(wǎng)頁(yè)推薦中的應(yīng)用. 計(jì)算機(jī)工程. 2006年8月, 第32卷第15期. 64 – 66.[3] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques (Second Edition). China Machine Press, 2007.[4] 戴升祥. 蟻群算法在Web挖掘中的應(yīng)用研究. 廣西大學(xué)碩士學(xué)位論文,2006.[5] 段海濱. 蟻群算法原理及其應(yīng)用. 科學(xué)出版社,2005年. 6–7, 1213, 290297.[6] 何堯, 趙躍龍. 一種新的Web用戶行為模式挖掘算法的研究. 計(jì)算機(jī)測(cè)量與控制. (6). 600 – 602.[7] George Karypis, Vipin Kuma. A Fast and High Quality Multilevel Schema for Partitioning Irregular Graphs. SIAM Journal on Scientific Computing, 20(1):359392, 1998.[8] Giuseppe Manco, Piccardo Ortale, Domenico Sacc226。. SimilarityBased Clustering of Web Transactions. ACM. 2006. 12121216.[9] 潘鈞. 面向Web日志的語(yǔ)義聚類算法. 計(jì)算機(jī)應(yīng)用研究, 2007年7月, 第24卷第7期. 267–269.[10] 潘瑩, 梁京章, 黎慧娟. 基于Kmeans算法的校園網(wǎng)用戶行為聚類分析. 計(jì)算機(jī)技術(shù)與自動(dòng)化, 2007年3月, 第26卷第1期. 66–69.[11] 郭巖. 網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用. 中國(guó)科學(xué)院計(jì)算科學(xué)技術(shù)研究所博士學(xué)位論文, 2004年.[12] 金松河, 錢慎一, 張素智. 基于Web日志的高精度聚類算法. 河南科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2006年4月, 第27卷第2期. 29–52.[13] 張姝. 網(wǎng)站可用性分析及可視化技術(shù)研究. 沈陽(yáng)工業(yè)大學(xué)碩士學(xué)位論文, 2006年3月.[14] 吳俊杰, 陳俊杰, 趙栓柱. 基于用戶訪問(wèn)興趣的路徑聚類研究. 計(jì)算機(jī)工程與應(yīng)用, . 170–171, 182.[15] 張傳升, 蕭蘊(yùn)詩(shī), 趙勇. 用模糊C均值聚類算法挖掘Web日志潛在客戶的應(yīng)用研究. 微型機(jī)與應(yīng)用. 2005年第1期. 57 – 60.[16] Ling Chen, Xiaohua Xu, Yixin Chen. An Adaptive Ant Colony Clustering Algorithm. IEEE. 2004. 13871392.[17] Arindam Banerjee, Joydeep Ghosh. Clickstream Clustering Using Weighted Longest Common Subsequences. In Procs. SDM Workshop on Web Mining, 2001. [18] Xin Jin, Yanzan Zhou, Bamshad Mobasher. Web Usage Mining Based on Probabilistic Latent Semantic Analysis. ACM. 2004. 197205.[19] Thomas H. Cormen, Charles E. Leiserson, Ronald , Clifford Stein. Introduction to Algorithms Second Edition. China Machine Press, 2007.附錄 Web事務(wù)聚類分析系統(tǒng)用戶界面(1)數(shù)據(jù)清洗視圖。附圖1展示了數(shù)據(jù)清洗完成后的用戶界面。界面中,分割欄上方的滾動(dòng)表格顯示了過(guò)濾后的日志記錄;分割欄下方的文本區(qū)域顯示程序運(yùn)行的狀態(tài),圖中該區(qū)域顯示——本次數(shù)據(jù)清洗過(guò)程共讀取日志記錄440600條,經(jīng)過(guò)清洗后剩余記錄19812條。附圖 1
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1