freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

碩士學(xué)位論文基于sas系統(tǒng)的稅務(wù)數(shù)據(jù)挖掘研究-資料下載頁

2024-11-07 05:14本頁面

【導(dǎo)讀】系統(tǒng)等稅收業(yè)務(wù)應(yīng)用系統(tǒng)全面推行,全國積累了大量的稅收征管業(yè)務(wù)數(shù)據(jù),如何有效地利用這些資源,為各級領(lǐng)導(dǎo)決策。理水平,也成為目前稅務(wù)系統(tǒng)中亟待解決的問題。從而揭示數(shù)據(jù)背后隱藏的知識的技術(shù)。分析納稅人的行為信息,識別出納稅人走逃或虛開的特征,鎖定稽查目標,行業(yè)交易規(guī)則庫,定位接受虛開的增值稅發(fā)票,建立虛開模型。重點就稅務(wù)系統(tǒng)今后可能的挖掘方向進行了探討。

  

【正文】 并成一個大類為止。這種 連續(xù)合并類的過程可以用聚 類譜系圖來表示,俗稱樹狀圖,與數(shù)據(jù)結(jié)構(gòu)里經(jīng)常 見到的樹狀圖形很相似。聚類譜系圖清晰地展現(xiàn)了所有樣本聚類的過程,根據(jù) 該圖,可以知道所有樣本聚類過程中的聚類效果,從而達到對聚類結(jié)果的多重 利用,做出對全部樣本的分類。 具體步驟如下: D 開始時各樣本自成一類, n 個樣品構(gòu)成 n 類;計算兩兩之間的距離,構(gòu)成 距離矩陣 dij ,記作 D o 。此時 Dtp‘ o dpq。 Gp 與 Gq 合并為一類,記為 Gr Gp, Gq ;利用遞推公式計算新類與其它類之間的 距離。分別刪除 D o 中 Gp 與 Gq 對應(yīng)的行與列,并新增新類與其它類之間的距離所 組成的一行和 N,得到一新的距離矩陣 D I 。 D 從 D 1 出發(fā)重復(fù)步驟 2 的做法得到 D 2 ;再由 D 2 出發(fā)重復(fù)上述步驟,直到 n 個樣品聚為一類為止。 D 畫出聚類譜系圖。 D 決定類的個數(shù),及各類包含的樣品數(shù),并對類最出解釋。 2 類平均法 Averagegrouplinkage 系統(tǒng)聚類法在進行聚類的過程中,需要計算類與類之間的距離。根據(jù)類與 類之間的距離計算 方法的不同,我們可以將系統(tǒng)聚類法分為單連接法、完全連 接法、平均連接法、組平均連接法與離差平方和法等。除了以上幾種方法之外, SAS 軟件還提供了另外七種類間聚類計算方法。國外很多研究大多數(shù)給出具有綜 合特性的聚類方法是類平均法和 Wards 最小方差法,最差的則是最短距離。本次 數(shù)據(jù)挖掘工作采用的類平均法。 用 du 表示樣本 i 和樣本 j 的距離, GI, G2,?表示類,用 D 陽表示類Gp 與類 Gq 的 距離,類平均連接法采用的距離定義為兩類之間的平方距離的平均數(shù),即公式 2. 6 % 2 擊乏五咿 。 2 射 其中 np 和 flq 分別為 Gp與類 Gq 的樣品個數(shù),容易得到它的一個遞推公式 2. 7 為 12 2. 3. 3.常用統(tǒng)計量 在聚類的過程中 及如何準確的對聚類結(jié)果進行評估,是比較困難的問題【 391。實際應(yīng)用中,對這 類問題的解決,主要是依據(jù)統(tǒng)計學(xué)中方差分析的思想 I 刪,用統(tǒng)計量的方法進 行 估計。下面對一些常用的統(tǒng)計量進行簡單介紹。 設(shè)觀測個數(shù)為 n,變量個數(shù)為 v, G 為某一類聚類水平上聚類的個數(shù),xi 為第 i 個觀測, ck 是當(dāng)前 水平 G 的第 K 類, Nk 為 ck中的觀測個數(shù), x 為均值向量, % Zllx,x。 0 為類 ck 的類內(nèi)離差平方和,尼 ∑彬‘為聚類水平 G 對應(yīng)的各類 的類內(nèi)澍差平芳和的綜合。假設(shè)某一步把類 ck 和類 cI 合并為下一水平的類cM, 兩個觀測之間的距離或非相似性測度, DKL 為 G 水平的類 Ck 和類 CL 之間的距離或 非相似性測度。 1 R2 統(tǒng)計量 其度量方法如公式 2. 8 R2 1 一等 2. 8 其中 PG 為分類數(shù)為 G 個類時的總類內(nèi)離差平方和, T 為所有變量的總離差平 方和。 R2 越大,說明分為 G 個類時,類內(nèi)離差平方和之和在總離差平方和中所占 的比例小,也即每個類分得越開,分為 G 個類是合適的。因此, R2 統(tǒng)計量可用于 評價合并成 m 個類是的聚類效果。但是,顯然分類越多, R2 越大,所以我們只能 取 G 使得 R2 足夠大,但 G 本身比較小,而且 R2 不再大幅度增加。 2 半偏 R2 統(tǒng)計量 在把類 Ck 和 CL 合并為類 CM 時,半偏 R2 統(tǒng)計量的公式定義為 2. 9 半偏 R2 等 2. 9 13 2 相關(guān)挖掘技術(shù)概述 其中 BKL 為合并為類 CM 后,導(dǎo)致的 類內(nèi)離差平方總和的增量,半偏 R2值是上 一步 R2 值與該步值之差。半偏 R2 越大,則這兩個類合并后聚類的效果更差,所 以如果由 G+l 類合并為 G 類是如果半偏相關(guān)很大,就應(yīng)該取 G+l 類,即不應(yīng)該合 并。 3 偽 F 統(tǒng)計量 其度量方法如公式 2. 10 2. 1。 。? 最“玎 . G1 F 1 r麗 Po / G1 偽 F 統(tǒng)計量主要度量將數(shù)據(jù)集分為 G 個類時的聚類效果。如果分類結(jié)果合理, 則各類內(nèi)的離差平方和應(yīng)偏小,類之間離差平方和 分子 應(yīng)該相對偏大。所 以聚類水平的選擇,應(yīng)取偽 F 統(tǒng)計量偏大,但是類的個數(shù)偏小的水平。偽F 統(tǒng)計 量可以作為確定類個數(shù)的有用指標,但不具有像隨機變量 F 那樣的分布。 4 偽 t2 統(tǒng)計量 其度量方法如公式 2. 11 2. II t2 %/ % +睨 / 心 +M2 利用 t2 統(tǒng)計量來度量將類 Ck 和類 CL 合并以后的效果,該值較大表示類 Ck 和類 CL 合并成類 CM 后,類內(nèi)的離差平方和的增加量 BKL 相對于原 Ck 和 CL 兩類的類內(nèi)的 離差平方和的和較大。則說明這兩個類不應(yīng)該合并,也即合并前的聚類效果是 好的。 上面簡單介紹了幾種確定聚類個數(shù)的統(tǒng)計方 法,在實際數(shù)據(jù)挖掘過程中, 很少孤立地使用某一種數(shù)據(jù)挖掘算法。經(jīng)常把聚類分析作為其他數(shù)據(jù)挖掘工作 的基礎(chǔ),然后利用變量間的相似性分層次進行聚類。利用聚類,先把數(shù)據(jù)集劃 分為不同的類,然后在不同的類進一步開展建模工作。利用聚類分析把整個數(shù) 據(jù)集分為不同的子集之后,在此基礎(chǔ)上再利用其它的數(shù)據(jù)挖掘工具進行分析以 發(fā)現(xiàn)有價值的規(guī)律,就變得更加容易。例如,如果從全體數(shù)據(jù)中得不到明顯的 模式,可以先對數(shù)據(jù)聚類,再從每個聚類中發(fā)現(xiàn)規(guī)則和模式。本文中虛開模型 就是這方面的一個典型應(yīng)用。 14 2 相關(guān)挖掘技術(shù)概述 2. 4.本章小結(jié) 本章重點對本次數(shù)據(jù)挖掘所采用的算法決策樹、 logistic 回歸、系統(tǒng)聚類進行 重點介紹,對數(shù)據(jù)挖掘的原理進行了深層次的探討。在實際的數(shù)據(jù)挖掘工作中, 通常是幾種數(shù)據(jù)挖掘算法結(jié)合使用,比較常見的是聚類分析通常作為其他數(shù)據(jù) 挖掘工作的前奏,在進行數(shù)據(jù)挖掘工作之前,對變量進行聚類,避免多個效用 相似的變量對數(shù)據(jù)挖掘結(jié)果 的膨脹,虛開課題就是這方面的一個典型應(yīng)用。在 下一章,將對本次數(shù)據(jù)挖掘的工具 SAS 以及用 SAS 進行數(shù)據(jù)挖掘工作的流程進行 簡單介紹。 15 3SAS/ EM 數(shù)據(jù)挖掘方法論 3. SAS/ EM 數(shù)據(jù)挖掘方法論 目前在市場上最為流行的三大數(shù)據(jù)挖掘軟件 l 刪有 SAS 公司的Enterprise Miner、 IBM 公司的 Intelligent 在澳大利亞稅務(wù)局、堪薩斯州 稅務(wù)局等地方稅務(wù)數(shù)據(jù)方面的成功運用,及SAS 科學(xué)的數(shù)據(jù)挖掘方法論 SEMMA,本次數(shù)據(jù)挖掘選用 SAS 作為挖掘工具。下面 重點對 SAS 針對其它挖掘工具性能上的優(yōu)勢,以及科學(xué)的數(shù)據(jù)挖掘方法論對 SAS/ EM 進行介紹。 3. 1.主流挖掘工具性能比較 根據(jù) IDC2020 年的研究結(jié)果,前 3 甲的廠商占領(lǐng)了 50%的市場,其余的上 百家廠商分割了剩下的市場份額; SAS 當(dāng)之無愧的以 32%的市場占有率位居統(tǒng) 計分析和數(shù)據(jù)挖掘市場的領(lǐng)導(dǎo)者地【 47l。截止到 2020 年 SAS 的市場占有率更上升 至 36%。目前為止, SAS 的行業(yè)解決方案已在全球超過 40, 000 家的企業(yè)中使用, 其中包括全球財富 500 強 90%以上的企業(yè),客戶分布在金融服務(wù)業(yè)、保險業(yè)、 電信業(yè)、制造業(yè)、零售業(yè)、醫(yī)藥、能源、政府和教育等領(lǐng)域。 根據(jù)國內(nèi)的數(shù)據(jù)挖掘評估報告顯示,在數(shù)據(jù)存取、數(shù)據(jù)處理、模型算法、 自動建模、可視化以及其它系統(tǒng)要求等方面, SAS 的數(shù)據(jù)挖掘工具均領(lǐng)先于 IBM 公司的 Intelligent ~ f 所示。 ■了氖囂恐理?” y””。?” 7?一”’■ 圈 z 致話稃取??””― 177 一~ _一。―’ 1 潮一“曩鬈’ ^“.世’。, _4 一;:矧 l 簿參程蕊強麓粼翥 一■圈嗣誓 I。一 琦譬鞘疊 叫 s^S , SS h!訓(xùn) j】州白 I 椰 i 麓 Cl邶 li 膏 剛 SAS 蠅 S 垂 168。 n― f 由■ 功能年。特征 ;叫 I‘口晰 缸幻f.一 C螂; fI‘ l 幸矗宰圭化 端 IB ∞ lB 函 婦■ 嵫一 .嗣 蠡螺身段 5% 5 5 5 ∞ 鼙鋸蔓輯 1 啷 10 10 10 文車文件 瑞 ∞ ∞ I 據(jù) H 葺 1 魄 IO IO lO 。 ccEL 文件 1095 5 10 5 t 靄傳寰 1 啷 lO lO 10 毫遼缸甓毫 e 批 n1『 l t 疆曩碼 1 啷 10 0 10 疊£ l 罨段薯 端 柏 磚 ∞ 簟強融機采稃 瑞 15 ∞ 為 00eC/麒‘ 0 嘲端 加 2S 25 n 直持 1 蹺 15 15 16 甌鬣糊 巧 隧、 __ 93 l∞ ∞ 1∞% ∞ ∞ 1 饒 a 數(shù)據(jù)存取 16
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1