freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

spssclementine和knime數(shù)據(jù)挖掘入門-全文預(yù)覽

2024-09-17 14:16 上一頁面

下一頁面
  

【正文】 gC的反應(yīng)最少。 通過一個訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型,歸納出申請額和農(nóng)場大小、估計的收入 ,主要作物等等 之間的關(guān)系 。神經(jīng)網(wǎng)絡(luò) 通過各個變量對申請金額進行預(yù)測 ,使用預(yù)測結(jié)果,我們可以探索偏離正常值的記錄或記錄組。 圖 從圖中我們可以看到, 所有 較大的偏差 都 發(fā)生 在 arable_dev 類型 的 申請時 ,因此, 我們只選擇 arable_de 類貸款申請作為研究對象 。我們要考慮資料中可能存在的欺詐類型,假設(shè)在資料中每個農(nóng)場有一個唯一的標示,那么 可以 計算出每個 標識出現(xiàn)的次數(shù),連接到 distribution 節(jié)點 圖 為了 探索其他可能的 欺詐 形式, 我們 可以 撇開 多次 申請的紀錄 , 將 注意力集中到只 申請過 一次的 記錄 上 來 。 從上面的途中均可以看出促銷對不同的產(chǎn)品影響也不同, promotion 與increase 有一定的線性關(guān)系,接下來我們可以用神經(jīng)網(wǎng)絡(luò)和決策樹來對進行分析預(yù)測。 圖 最后運行 L3 路線,對另一樣本集作預(yù)測,需要在最后添加一個 Table 節(jié)點,以顯示預(yù)測的結(jié)果,如圖 。 圖 圖 運行圖 中的 L1 路線(此時 L2 和 L3 都尚未連接,運行 L L3 時同理),對訓(xùn)練集進行測試,會得到如圖 12 的 3 個輸出,從總可以看出 2 個模型各自的準確率。 這里我們選擇兩個模型,神經(jīng)網(wǎng)絡(luò)( NN 節(jié)點)和決策樹( 節(jié)點),分別設(shè)置它們的目標變量和輸入變量(由于前面都已經(jīng)設(shè)置好了,所以此處用 默認值也可以),如圖 :左側(cè)為 ,右側(cè)為 NN,他們選擇輸入和目標的方法相似,只是在 NN 設(shè)置時選擇 50%的樣本為測試集,如右側(cè)圖中 prevent overtraining一欄。如圖 1 在 SQL 節(jié)點編輯中首先需要建立數(shù)據(jù)源和 clementine的連接,在 datasource下選擇 add new就會彈出圖 窗口,選擇我們需要的數(shù)據(jù)源即可。在 analysis 節(jié)點中選擇 coincidence matices 最后得到的效果如下: Correct 967 % Wrong 33 % Total 1000 圖 圖 二、客戶流失 下面的試驗是對客戶流失預(yù)警的模擬,數(shù)據(jù)資料來源于 05 年 1 月份以前,我們要做的是在試驗當月( 12 月份)根據(jù)客戶 11 月份及以前的數(shù)據(jù),預(yù)測用戶 1月份的流失狀態(tài)。 == 39。 == 39。 == 39。 == 39。 == 39。 == 39。 (4)使用滑標或在文本框中指定一個數(shù)來設(shè)置低于 90 的 弱連接 。 (2)選擇顯示若連接還是強連接 。 首先要在 type 節(jié)點中定義變量類型和方向,將 candid 設(shè)置為 typeless,個人資料字段設(shè)置為 none,其他購物籃內(nèi)容設(shè)置為 both(即可以作為輸入也可作為輸出)流程如下: 圖 GRI 輸出結(jié)果: 圖 從上面的結(jié)果中看出 :肉類、啤酒、罐裝蔬菜關(guān)聯(lián)性比較大。右鍵單擊結(jié)點選擇“ Configure”對結(jié)點進行配置;配置完成并且正確的話,便會亮起黃燈,表示準備就緒數(shù)據(jù)可以通過;再次右鍵單擊結(jié)點選擇“ Execute”運行這個結(jié)點,當綠燈亮 起時表示結(jié)點執(zhí)行成功,數(shù)據(jù)已經(jīng)通過并傳給下一個結(jié)點。 Knime 是基于 Eclipse 的開源數(shù)據(jù)挖掘軟件,它通過工作流的方式來完成數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘中數(shù)據(jù)的抽取 轉(zhuǎn)換 加載( ExtractTransformLoad)操作。 在 Clementine 菜單欄選 Tools Helper Applications。 首先 OLE DB for DM 包括了 Model_PMML 結(jié)構(gòu)行集,可以使用 DMX 語句 “Create Mining Model Model Name From PMML xml string”將 SPSS Clementine 導(dǎo)出的 PMML 模型加入 SSAS。 SQL Server 2020 相比 2020 的變化之一就是將開發(fā)客戶端整合到了 Visual Studio 中,但是這種整合做得并不徹底。 但 SQL Server 2020 使用 Visual Studio 2020 作為客戶端開發(fā)工具, Visual Studio 的 SSAS 項目只能作為模型設(shè)計和部署工具而已,根本不能獨立實現(xiàn)完整的 CrispDM 流程。 如果要在其他程序中使用模型,可以使用 Clementine 執(zhí)行庫( CLEMRTL),相比起 Microsoft 的 ole db for dm,SPSS 的提供的 API 在開發(fā)上還不是很好用。 pim 文件保存流的所有信息, par 文件保存參數(shù)。注意種子不要更改。如果確定模型后點上方黃色的圖標。 將模型從管理區(qū)拖入數(shù)據(jù)流設(shè)計區(qū),替換原來的 Feature Selection 組件。 有時候用于預(yù)測的輸入字段太多,會耗費大量訓(xùn)練時間,可以使用 Feature Selection 組件篩選對預(yù)測字段影響較大的字段。 注意為種子指定一個值,學(xué)過統(tǒng)計和計算機的應(yīng)該知道只要種子不變,計算機產(chǎn)生的偽隨機序列是不變的。 3. 準備數(shù)據(jù) 將之前的輸出和圖形工具從數(shù)據(jù)流涉及區(qū)中刪除。只有了解這些信息后才能決定使用哪些字段,應(yīng)用何種挖掘算法和算法參數(shù)。 Type 是依據(jù) Values判斷字段的類型, Flag類型只包含兩種值,類似于 boolean; Set 是指包含有限個值,類似于 enumeration; Ragnge 是連續(xù)性數(shù)值,類似于 float。 下面使用 Adventure Works 數(shù)據(jù)庫中的 Target Mail 作例子,通過建立分類樹和神經(jīng)網(wǎng)絡(luò)模型,決策樹用來預(yù)測哪些人會響應(yīng)促銷,神 經(jīng)網(wǎng)絡(luò)用來預(yù)測年收入。例如,下面的數(shù)據(jù)源連接到矩陣、數(shù)據(jù)審查、直方圖工具,在執(zhí)行數(shù)據(jù)流后,這個工具產(chǎn)生了三個輸出。通過在管理區(qū)的 Streams 欄中點擊切換不同的數(shù)量流。 模型( Model) Clementine 中包括了豐富的數(shù)據(jù)挖掘模型。 源工具( Sources) 相當 SSIS數(shù)據(jù)流中的源組件啦, clementine 支持的數(shù)據(jù)源有數(shù)據(jù)庫、平面文件、 Excel、維度數(shù)據(jù)、 SAS 數(shù)據(jù)、用戶輸入等。 Clementine 里通過組織 CRISPDM 的六個步驟完成項目。下面就是 clementine 客戶端的界面。SPSS Clementine 是 Spss 公司收購 ISL獲得的數(shù)據(jù)挖掘工具。 客戶端基本界面 SPSS Clementine(在此簡稱 clementine)在安裝好后會自動啟用服務(wù),服務(wù)端的管理需要使用 SPSS Predictive Enterprise Manager,在服務(wù)端 clementine 沒有復(fù)雜的管理工具,一般的數(shù)據(jù)挖掘人員通過客戶端完成所有工作。其中 CRISPDM ( Cross Industry Standard Process for Data Mining,數(shù)據(jù)挖掘跨行業(yè)標準流程)是由 SPSS、 DaimlerChrysler(戴姆勒克萊斯勒,汽車公司)、 NCR(就是那個擁有 Teradata 的公司)共同提出的。 Clementine 中有 6 類工具。 ※ 在 ver 11, Output 中的 ETL數(shù)據(jù)目的工具被分到了 Export 的工具欄中。 比如說,我這里有兩個數(shù)據(jù)流: Stream1 和 Stream2。 Outputs 不要跟工具欄中的輸出搞混,這里的 Outputs 是圖形、輸出這類工具產(chǎn)生的分析結(jié)果。另外,模型還可以導(dǎo)出為支持 PMML協(xié)議的 XML文件,但是 PMML沒有給定所有模型的規(guī)范,很多廠商都在 PMML的基礎(chǔ)上對模型內(nèi)容進行了擴展, Clementine除了可以導(dǎo)出擴展的 SPSS SmartScore,還可以導(dǎo)出標準的 PMML 。 Values 是字段包含的值,比如在數(shù) 據(jù)集中 NumberCardsOwned 字段的值是從 0 到 4 的數(shù), HouseOwnerFlag只有 1 和 0 兩種值。 2. 理解數(shù)據(jù) 在建模之前,我們需要了解數(shù)據(jù)集中都 有哪些字段,這些字段如何分布,它們之間是否隱含著相關(guān)性等信息。 等一會,然后這兩個組件就會輸出統(tǒng)計報告和條形圖,這些輸出會保存在管理區(qū)中(因為條形圖是高級可視化組件,其輸出不會出現(xiàn)在管理區(qū)),以后只要在管理區(qū)雙擊輸出就可以看打開報告。 加入 Sample 組件做隨機抽樣,從源數(shù)據(jù)中抽取 70%的數(shù)據(jù)作為訓(xùn) 練集,剩下 30%作為檢驗集。 神經(jīng)網(wǎng)絡(luò)用于預(yù)測年收入,需要將 YearlyIne 設(shè)置為預(yù)測字段。模型從 12 個字段中選出了 11 個字段,認為這 11 個字段對年收入的影響比較大,所以我們只要用這 11 個字段作為輸入列即可。 Clementine 在訓(xùn)練 CHAID 樹時,會開啟交互式會話窗口,在交互會話中可以控制樹生長和對樹剪枝,避免過擬合。 5. 模型評估 修改抽樣組件,將 Mode 改成 “Discard Sample”,意思是拋棄之前用于訓(xùn)練模型的那 70%數(shù)據(jù),將剩下 30
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1