freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘考試復習大綱-資料下載頁

2025-05-15 11:39本頁面
  

【正文】 標號和該樣本的學習模型類預測比較 ? 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 ? 測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況 有指導的學習 VS. 無指導的學習 ? 有指導的學習(用于分類) ? 模型的學習在被告知每個訓練樣本屬于哪個類的“指導”下進行 ? 新數(shù)據(jù)使用訓練數(shù)據(jù)集中得到的規(guī)則進行分類 ? 無指導的學習(用于聚類) ? 每個訓練樣本的類編號是未知的,要學習的類集合或數(shù)量也可能是事先未知的 ? 通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號或進行聚類 比較分類方法 ? 使用下列標準比較分類和預測方法 ? 預測的準確率:模型正確預測新數(shù)據(jù)的類編號的能力 ? 速度:產(chǎn)生和使用模型的計算花銷 ? 健壯性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預測的能力 ? 可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力 ? 可解釋性:學習模型提供的理解和洞察的層次 用判定樹歸納分類 ? 什么是判定樹? ? 類似于流程圖的樹結(jié)構(gòu) ? 每個內(nèi)部節(jié)點表示在一個屬性上的測試 ? 每個分枝代表一個測試輸出 ? 每個樹葉節(jié)點代表類或類分布 ? 判定樹的生成由兩個階段組成 ? 判定樹構(gòu)建 ? 開始時,所有的訓練樣本都在根節(jié)點 ? 遞歸的通過選定的屬性,來劃分樣本 (必須是離散值) ? 樹剪枝 ? 許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝 ? 判定樹的使用:對未知樣本進行分類 ? 通過將樣本的屬性值與判定樹相比較 貝葉斯分類 ? 貝葉斯分類利用統(tǒng)計學中的貝葉斯定理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。 ? 樸素貝葉斯分類:假設(shè)每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。 )()()|()|(DPhPhDPDhP ?后向傳播分類 ? 后向傳播是一種神經(jīng)網(wǎng)絡(luò)學習算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入 /輸出單元,每個連接都與一個權(quán)相連。在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預測輸入樣本的正確標號來學習。 ? 優(yōu)點 ? 預測精度總的來說較高 ? 健壯性好,訓練樣本中包含錯誤時也可正常工作 ? 輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值 ? 對目標進行分類較快 ? 缺點 ? 訓練(學習)時間長 ? 蘊涵在學習的權(quán)中的符號含義很難理解 ? 很難根專業(yè)領(lǐng)域知識相整合 什么是預測? ? 預測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 ? 預測和分類的異同 ? 相同點 ? 兩者都需要構(gòu)建模型 ? 都用模型來估計未知值 ? 預測當中主要的估計方法是回歸分析 ? 線性回歸和多元回歸 ? 非線性回歸 ? 不同點 ? 分類法主要是用來預測類標號(分類屬性值) ? 預測法主要是用來估計連續(xù)值(量化屬性值) 第八章、聚類分析 什么是聚類分析? ? 聚類(簇):數(shù)據(jù)對象的集合 ? 在同一個聚類(簇)中的對象彼此相似 ? 不同簇中的對象則相異 ? 聚類分析 ? 將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程 ? 聚類是一種無指導的學習:沒有預定義的類編號 ? 聚類分析的數(shù)據(jù)挖掘功能 ? 作為一個獨立的工具來獲得數(shù)據(jù)分布的情況 ? 作為其他算法(如:特征和分類)的預處理步驟 聚類分析的典型應(yīng)用 ? 模式識別 ? 空間數(shù)據(jù)分析 ? 在 GIS系統(tǒng)中,對相似區(qū)域進行聚類,產(chǎn)生主題地圖 ? 檢測空間聚類,并給出它們在空間數(shù)據(jù)挖掘中的解釋 ? 圖像處理 ? 經(jīng)濟學(尤其是市場研究) ? 萬維網(wǎng) ? 對 WEB上的文檔進行分類 ? 對 WEB日志的數(shù)據(jù)進行聚類,以發(fā)現(xiàn)相同的用戶訪問模式 主要的聚類方法 ? 聚類分析算法種類繁多,具體的算法選擇取決于數(shù)據(jù)類型,聚類的應(yīng)用和目的,常用的聚類算法包括: ? 劃分方法 ? 層次的方法 ? 基于密度的方法 ? 基于網(wǎng)格的方法 ? 基于模型的方法 ? 實際應(yīng)用中的聚類算法,往往是上述聚類方法中多種方法的整合 孤立點挖掘 ? 什么是孤立點? ? 一個數(shù)據(jù)集與其他數(shù)據(jù)有著顯著區(qū)別的數(shù)據(jù)對象的集合 ? 例如:運動員: Michael Jordon, 舒馬赫,布勃卡 ? 孤立點產(chǎn)生原因 ? 度量或執(zhí)行錯誤(年齡: 999) ? 數(shù)據(jù)變異的結(jié)果 ? 孤立點挖掘 ? 給定一個 n個數(shù)據(jù)對象的集合,以及預期的孤立點數(shù)目 k,發(fā)現(xiàn)與剩余的數(shù)據(jù)有著顯著差異的頭 k個數(shù)據(jù)對象 ? 應(yīng)用 ? 信用卡欺詐檢測 ? 移動電話欺詐檢測 ? 客戶劃分 ? 醫(yī)療分析(異常) 電子商務(wù)與數(shù)據(jù)挖掘 電子商務(wù)與數(shù)據(jù)挖掘 —— 完美結(jié)合 ? 在電子商務(wù)中進行成功的數(shù)據(jù)挖掘得益于: ? 電子商務(wù)提供海量的數(shù)據(jù) ? 如果一個電子商務(wù)網(wǎng)站平均每個小時賣出五件物品,那么它一個月的平均點擊量是 160萬次。 ? 豐富的記錄信息 ? 良好的 WEB站點設(shè)計將有助于獲得豐富的信息 ? 干凈的數(shù)據(jù) ? 從電子商務(wù)站點收集的都是電子數(shù)據(jù),無需人工輸入或者是從歷史系統(tǒng)進行整合 ? 研究成果容易轉(zhuǎn)化 ? 在電子商務(wù)中,很多知識發(fā)現(xiàn)都可以進行直接應(yīng)用 ? 投資收益容易衡量 對電子商務(wù)網(wǎng)站的 Web數(shù)據(jù)挖掘 ? 通常在一個電子商務(wù)網(wǎng)站上應(yīng)用的數(shù)據(jù)挖掘技術(shù)是 Web數(shù)據(jù)挖掘。 ? 我們可以在一個電子商務(wù)網(wǎng)站挖掘些什么東西? ? 內(nèi)容挖掘 (Web Content Mining) ? 結(jié)構(gòu)挖掘 (Web Structure Mining) ? 使用挖掘 (Web Usage Mining) Web Usage Mining ? 與 Web Content Mining和 Web Structure Mining不同的是, Web Usage Mining的挖掘?qū)ο笫怯脩艉途W(wǎng)絡(luò)交互過程中抽取出來的二手數(shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問 Web時在 Web日志里留下的信息,以及其它一些交互信息, ? 日志信息包括訪問日期、時間、用戶 IP地址、服務(wù)器 IP地址、方法、所請求 URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。 ? Web Usage Mining就是對系統(tǒng)日志信息,以及用戶的注冊數(shù)據(jù)等進行挖掘,以發(fā)現(xiàn)有用的模式和知識。 Web Usage Mining的作用 ? 通過對電子商務(wù)網(wǎng)站應(yīng)用 Web Usage Mining數(shù)據(jù)挖掘技術(shù),可以 ? 提高站點的質(zhì)量 ? 改善 WEB緩存,緩解網(wǎng)絡(luò)交通,提高性能 ? 在電子商務(wù)中還可捕捉到大量的采購過程的細節(jié),為更加深入的分析提供了可能
點擊復制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1