freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘考試復(fù)習(xí)大綱(參考版)

2025-05-19 11:39本頁面
  

【正文】 Web Usage Mining的作用 ? 通過對(duì)電子商務(wù)網(wǎng)站應(yīng)用 Web Usage Mining數(shù)據(jù)挖掘技術(shù),可以 ? 提高站點(diǎn)的質(zhì)量 ? 改善 WEB緩存,緩解網(wǎng)絡(luò)交通,提高性能 ? 在電子商務(wù)中還可捕捉到大量的采購過程的細(xì)節(jié),為更加深入的分析提供了可能 。 ? 我們可以在一個(gè)電子商務(wù)網(wǎng)站挖掘些什么東西? ? 內(nèi)容挖掘 (Web Content Mining) ? 結(jié)構(gòu)挖掘 (Web Structure Mining) ? 使用挖掘 (Web Usage Mining) Web Usage Mining ? 與 Web Content Mining和 Web Structure Mining不同的是, Web Usage Mining的挖掘?qū)ο笫怯脩艉途W(wǎng)絡(luò)交互過程中抽取出來的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問 Web時(shí)在 Web日志里留下的信息,以及其它一些交互信息, ? 日志信息包括訪問日期、時(shí)間、用戶 IP地址、服務(wù)器 IP地址、方法、所請(qǐng)求 URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。 ? 預(yù)測和分類的異同 ? 相同點(diǎn) ? 兩者都需要構(gòu)建模型 ? 都用模型來估計(jì)未知值 ? 預(yù)測當(dāng)中主要的估計(jì)方法是回歸分析 ? 線性回歸和多元回歸 ? 非線性回歸 ? 不同點(diǎn) ? 分類法主要是用來預(yù)測類標(biāo)號(hào)(分類屬性值) ? 預(yù)測法主要是用來估計(jì)連續(xù)值(量化屬性值) 第八章、聚類分析 什么是聚類分析? ? 聚類(簇):數(shù)據(jù)對(duì)象的集合 ? 在同一個(gè)聚類(簇)中的對(duì)象彼此相似 ? 不同簇中的對(duì)象則相異 ? 聚類分析 ? 將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程 ? 聚類是一種無指導(dǎo)的學(xué)習(xí):沒有預(yù)定義的類編號(hào) ? 聚類分析的數(shù)據(jù)挖掘功能 ? 作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況 ? 作為其他算法(如:特征和分類)的預(yù)處理步驟 聚類分析的典型應(yīng)用 ? 模式識(shí)別 ? 空間數(shù)據(jù)分析 ? 在 GIS系統(tǒng)中,對(duì)相似區(qū)域進(jìn)行聚類,產(chǎn)生主題地圖 ? 檢測空間聚類,并給出它們?cè)诳臻g數(shù)據(jù)挖掘中的解釋 ? 圖像處理 ? 經(jīng)濟(jì)學(xué)(尤其是市場研究) ? 萬維網(wǎng) ? 對(duì) WEB上的文檔進(jìn)行分類 ? 對(duì) WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式 主要的聚類方法 ? 聚類分析算法種類繁多,具體的算法選擇取決于數(shù)據(jù)類型,聚類的應(yīng)用和目的,常用的聚類算法包括: ? 劃分方法 ? 層次的方法 ? 基于密度的方法 ? 基于網(wǎng)格的方法 ? 基于模型的方法 ? 實(shí)際應(yīng)用中的聚類算法,往往是上述聚類方法中多種方法的整合 孤立點(diǎn)挖掘 ? 什么是孤立點(diǎn)? ? 一個(gè)數(shù)據(jù)集與其他數(shù)據(jù)有著顯著區(qū)別的數(shù)據(jù)對(duì)象的集合 ? 例如:運(yùn)動(dòng)員: Michael Jordon, 舒馬赫,布勃卡 ? 孤立點(diǎn)產(chǎn)生原因 ? 度量或執(zhí)行錯(cuò)誤(年齡: 999) ? 數(shù)據(jù)變異的結(jié)果 ? 孤立點(diǎn)挖掘 ? 給定一個(gè) n個(gè)數(shù)據(jù)對(duì)象的集合,以及預(yù)期的孤立點(diǎn)數(shù)目 k,發(fā)現(xiàn)與剩余的數(shù)據(jù)有著顯著差異的頭 k個(gè)數(shù)據(jù)對(duì)象 ? 應(yīng)用 ? 信用卡欺詐檢測 ? 移動(dòng)電話欺詐檢測 ? 客戶劃分 ? 醫(yī)療分析(異常) 電子商務(wù)與數(shù)據(jù)挖掘 電子商務(wù)與數(shù)據(jù)挖掘 —— 完美結(jié)合 ? 在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘得益于: ? 電子商務(wù)提供海量的數(shù)據(jù) ? 如果一個(gè)電子商務(wù)網(wǎng)站平均每個(gè)小時(shí)賣出五件物品,那么它一個(gè)月的平均點(diǎn)擊量是 160萬次。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確標(biāo)號(hào)來學(xué)習(xí)。 ? 樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問題產(chǎn)生的影響都是一樣的。 ])1[]1[(])2[]2[(. ..])2[]2[(])1[]1[( 21212121 ???????????? klklklklllll21 ll ??Apriori算法 —— 示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 使用 Apiori性質(zhì)由 L2產(chǎn)生 C3 ? 1 .連接: ? C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} ? 2.使用 Apriori性質(zhì)剪枝:頻繁項(xiàng)集的所有子集必須是頻繁的,對(duì)候選項(xiàng) C3,我們可以刪除其子集為非頻繁的選項(xiàng): ? {A,B,C}的 2項(xiàng)子集是 {A,B},{A,C},{B,C},其中 {A,B}不是 L2的元素,所以刪除這個(gè)選項(xiàng); ? {A,C,E}的 2項(xiàng)子集是 {A,C},{A,E},{C,E},其中 {A,E} 不是 L2的元素,所以刪除這個(gè)選項(xiàng); ? {B,C,E}的 2項(xiàng)子集是 {B,C},{B,E},{C,E},它的所有 2-項(xiàng)子集都是L2的元素,因此保留這個(gè)選項(xiàng)。因此可以通過掃描數(shù)據(jù)庫,通過計(jì)算每個(gè) k項(xiàng)集的支持度來得到 Lk 。 ? 連接: 為了找 Lk,通過 Lk1與自己連接產(chǎn)生候選 k項(xiàng)集的集合,該 候選 k項(xiàng)集 記為 Ck。( 模式不可能比 A更頻繁的出現(xiàn)) ? Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過測試,則該集合的所有超集也不能通過相同的測試。 ? 先找到頻繁 1項(xiàng)集集合 L1,然后用 L1找到頻繁 2項(xiàng)集集合 L2,接著用 L2找 L3,直到找不到頻繁 k項(xiàng)集,找每個(gè) Lk需要一次數(shù)據(jù)庫掃描。 ? City VS country 類比較的過程 136 ? 數(shù)據(jù)收集 ? 通過查詢處理收集數(shù)據(jù)庫中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類和一個(gè)或多個(gè)對(duì)比類 ? 維相關(guān)分析 ? 使用屬性相關(guān)分析方
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1