【正文】
但對(duì)于本課題而言,要面對(duì)海量的數(shù)據(jù),MySQL數(shù)據(jù)庫就顯得有些力不從心了。同時(shí)它是真正的多用戶多任務(wù)的數(shù)據(jù)庫系統(tǒng),它占用系統(tǒng)資源很少但功能卻很強(qiáng)大,可以作為大型數(shù)據(jù)庫系統(tǒng)使用,最重要的是其標(biāo)準(zhǔn)版是免費(fèi)的。在這點(diǎn)上,Progress數(shù)據(jù)庫可能很難有效靈活地做到這點(diǎn)。由于Progress數(shù)據(jù)庫的普及性并不高,在編程與連接數(shù)據(jù)庫時(shí)會(huì)要求一定的專業(yè)知識(shí),這可能會(huì)造成一定的潛在麻煩,并且Progress數(shù)據(jù)庫可能得不到其他主流數(shù)據(jù)分析工具的支持。這樣一來,對(duì)于分析存儲(chǔ)歷史數(shù)據(jù)時(shí),集成起來會(huì)相對(duì)容易些。 Progress 數(shù)據(jù)庫使用Progress的數(shù)據(jù)庫的優(yōu)勢(shì)非常顯而易見。第二章 解決方案比較與選定 數(shù)據(jù)庫的選擇由于已確定了使用OLAP和數(shù)據(jù)挖掘技術(shù)對(duì)QAD產(chǎn)品審計(jì)信息進(jìn)行分析與研究,但在具體實(shí)現(xiàn)上仍需要有對(duì)多個(gè)可行方案進(jìn)行比較選擇,最終選擇最為合適的解決方案,存儲(chǔ)歷史數(shù)據(jù)信息的數(shù)據(jù)庫的選擇就是其中之一。4. 進(jìn)行產(chǎn)品審計(jì)數(shù)據(jù)結(jié)果的訪問設(shè)計(jì),定義Excel報(bào)表模板用于顯示數(shù)據(jù)分析結(jié)果、查詢等。2. 對(duì)歷史數(shù)據(jù)進(jìn)行過濾、分析、提取并存入預(yù)先定義的數(shù)據(jù)庫表中。 針對(duì)以上的研究內(nèi)容,本課題將提出一種基于OLAP和數(shù)據(jù)挖掘技術(shù)的軟件使用信息數(shù)據(jù)的多維分析系統(tǒng)的設(shè)計(jì),研究使用基于SQL Server 2008 分析服務(wù)(SSAS)在用戶審計(jì)數(shù)據(jù)倉庫之上的OLAP多維數(shù)據(jù)分析和MDX多維數(shù)據(jù)查詢,并研究使用神經(jīng)網(wǎng)絡(luò)規(guī)則,決策樹等數(shù)據(jù)挖掘算法及改進(jìn)算法對(duì)模塊及程序使用情況進(jìn)行數(shù)據(jù)挖掘,得出有用的知識(shí),從而幫助指導(dǎo)客戶更好更高效的使用公司產(chǎn)品,也可使公司對(duì)現(xiàn)有產(chǎn)品有更好的了解與規(guī)劃。 論文研究內(nèi)容OLAP和數(shù)據(jù)挖掘各有所長,但是也各有缺陷,而若能將二者結(jié)合起來使用,發(fā)展一種建立在OLAP基礎(chǔ)上的,針對(duì)多維數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),則更能適合實(shí)際的需要。從技術(shù)角度講,他們需要使用數(shù)據(jù)挖掘算法發(fā)現(xiàn)Web頁面之間的關(guān)聯(lián)與結(jié)構(gòu)關(guān)系,更好的進(jìn)行網(wǎng)頁推送;從商務(wù)角度講,各大搜索引擎需要取得更多的廣告收入,需要對(duì)點(diǎn)擊流數(shù)據(jù)進(jìn)行分析,以實(shí)現(xiàn)最大的商業(yè)利潤。 比如,國內(nèi)好多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶聚類或者商品關(guān)聯(lián)推廣。 我國政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng),國稅總局對(duì)信息系統(tǒng)建設(shè)及數(shù)據(jù)分析應(yīng)用工作也越來越重視。除了通信業(yè),國內(nèi)的銀行、保險(xiǎn)、證券使用數(shù)據(jù)挖掘技術(shù)的意愿也比較強(qiáng)烈,這跟國際趨勢(shì)相吻合,未來幾年金融領(lǐng)域的數(shù)據(jù)分析應(yīng)用一定會(huì)從傳統(tǒng)的統(tǒng)計(jì)分析發(fā)展到大規(guī)模數(shù)據(jù)挖掘應(yīng)用。近些年隨著國內(nèi)企業(yè)信息系統(tǒng)的不斷完善與發(fā)展和數(shù)據(jù)的持續(xù)積累,各行各業(yè)已經(jīng)普遍關(guān)心數(shù)據(jù)挖掘技術(shù)的應(yīng)用。國內(nèi)對(duì)OLAP的研究起步較晚,主要是對(duì)數(shù)據(jù)立方計(jì)算、存儲(chǔ),多維數(shù)據(jù)查詢和物化視圖等關(guān)鍵技術(shù)的研究,以及基于國外OLAP服務(wù)器產(chǎn)品的OLAP應(yīng)用。 國內(nèi)外研究現(xiàn)狀 OLAP和數(shù)據(jù)挖掘技術(shù)是目前國際上數(shù)據(jù)庫、數(shù)據(jù)倉庫和信息決策系統(tǒng)領(lǐng)域最前沿的研究方向之一,引起了國內(nèi)外眾多領(lǐng)域科學(xué)家和工商界的廣泛關(guān)注。通過對(duì)產(chǎn)品審計(jì)信息數(shù)據(jù)庫進(jìn)行數(shù)據(jù)聯(lián)機(jī)分析,更可以方便的生成多種形式的報(bào)表,使軟件的開發(fā)商與使用商都能快速的了解軟件使用的各項(xiàng)統(tǒng)計(jì)信息。就是在這種背景下,使得OLAP(Online Analytical Processing)和數(shù)據(jù)挖掘(Data Mining,簡稱DM)為了迎合這種要求而產(chǎn)生并迅速發(fā)展起來。于是乎,人們想到了數(shù)據(jù)庫技術(shù),它能對(duì)現(xiàn)實(shí)世界存在的大量數(shù)據(jù)進(jìn)行有效的組織與管理。但隨之而來,是我們每天面對(duì)的信息量不斷增多擴(kuò)大?;谝陨蟽牲c(diǎn),同時(shí)考慮到歷史數(shù)據(jù)量的巨大性,因此公司特地建立了UCA(User Count Audit)for Master Bundle這個(gè)項(xiàng)目,并希望能通過此來較好的實(shí)現(xiàn)這些目標(biāo),并且盡可能的高效、簡單,便于操作。為了激發(fā)客戶的積極性使得能更好的配合審計(jì),公司認(rèn)為可以對(duì)這些產(chǎn)品使用數(shù)據(jù)進(jìn)行一定的分析,生成相應(yīng)的使用情況分析報(bào)表提供給客戶,讓他們明白自己在軟件的使用過程中,哪些模塊并未得到充分的利用等。為此,就十分有必要通過每年的產(chǎn)品審計(jì),發(fā)現(xiàn)那些有違反許可權(quán)使用情況的客戶,對(duì)他們進(jìn)行額外的補(bǔ)收費(fèi),以保證公司方面的利益。其產(chǎn)品審計(jì)的作用主要表現(xiàn)在以下兩方面:一方面,QAD的產(chǎn)品是通過軟件許可權(quán)(License)進(jìn)行收費(fèi)的,客戶根據(jù)自身需求可以選擇記名和并發(fā)兩種許可權(quán)方式,通過購買一定數(shù)量的許可權(quán),對(duì)軟件進(jìn)行使用。目前在全球范圍內(nèi),已有遍布90個(gè)國家的6000個(gè)制造商企業(yè)使用了QAD的產(chǎn)品。它不僅從企業(yè)管理的角度為公司決策層與銷售人員提供了更為智能的分析方法和途徑,還為審計(jì)分析人員提供了新的手段和視角,來挖掘出更多數(shù)據(jù)背后隱藏的有用的知識(shí)。相信可以利用該技術(shù)挖掘出更多對(duì)公司經(jīng)營決策有指導(dǎo)性意義的知識(shí)。本文所建立的挖掘模型為分析客戶選擇QAD公司不同產(chǎn)品類型組合的因素,意在發(fā)現(xiàn)一個(gè)行業(yè)領(lǐng)域內(nèi)使用QAD公司產(chǎn)品組合的最佳實(shí)踐,為不同的客戶在選擇公司產(chǎn)品組合時(shí)提供一定的建議。傳統(tǒng)的數(shù)據(jù)挖掘過程往往基于關(guān)系數(shù)據(jù)庫。為了方便客戶審閱,特別定義了十多個(gè)報(bào)表模板,可供客戶選擇,基本涵蓋了所有的審計(jì)結(jié)果,且客戶可以自主選擇想要查看的內(nèi)容,對(duì)數(shù)據(jù)進(jìn)行一定的鉆取等,十分方便。本文重點(diǎn)論述了審計(jì)信息數(shù)據(jù)的概念模型設(shè)計(jì)和邏輯模型設(shè)計(jì),包括度量、維度和粒度的設(shè)計(jì),事實(shí)表和維表的設(shè)計(jì),同時(shí)采用了雪花模型構(gòu)造了邏輯視圖,最終生成了審計(jì)信息的多維立方體,供最終生成審計(jì)結(jié)果報(bào)表和數(shù)據(jù)挖掘提供了多維數(shù)據(jù)源,完成了OLAP在QAD產(chǎn)品審計(jì)中的應(yīng)用。該數(shù)據(jù)庫將為后面的OLAP提供高效的數(shù)據(jù)源。解決了這一問題之后,便是要將分析出的數(shù)據(jù)存入數(shù)據(jù)庫中。為解決這一問題,就需要在程序之上再加上一層數(shù)據(jù)預(yù)處理的程序,即將不需要的歷史數(shù)據(jù)文件過濾,按照原有的目錄結(jié)構(gòu),只留下所需的那兩個(gè)文件。在實(shí)踐中,發(fā)現(xiàn)如果不對(duì)歷史數(shù)據(jù)進(jìn)行處理,直接運(yùn)行數(shù)據(jù)分析提取程序,則效率十分低下。其他諸如數(shù)據(jù)庫使用報(bào)告等日志文件目前對(duì)我們來說并沒有太大的意義。因此公司從客戶手上得到的審計(jì)數(shù)據(jù)結(jié)構(gòu)則是復(fù)雜繁多的,沒有一定的規(guī)律性可循,這對(duì)我們進(jìn)行歷史審計(jì)信息的提取造成了一定的困難與阻礙。在選定了數(shù)據(jù)庫和報(bào)表生成工具的解決方案之后,便要對(duì)歷史審計(jì)數(shù)據(jù)進(jìn)行一定的整理、分析以及數(shù)據(jù)提取和存儲(chǔ)工作。同樣,針對(duì)報(bào)表生成工具,也提出了以下幾種可行的解決方案:QAD公司自己實(shí)現(xiàn)的報(bào)表生成框架、微軟的Access工具和微軟的Excel工具。為此,針對(duì)數(shù)據(jù)庫的選擇提出了以下幾種可行的解決方案:Progress數(shù)據(jù)庫、MySQL數(shù)據(jù)庫、Access數(shù)據(jù)庫和SQL Server數(shù)據(jù)庫。本項(xiàng)目實(shí)現(xiàn)了基于SQL Server 2008分析服務(wù)(SSAS)在審計(jì)信息立方體之上的OLAP多維數(shù)據(jù)分析和MDX多維數(shù)據(jù)查詢,并利用決策樹、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法對(duì)審計(jì)信息數(shù)據(jù)進(jìn)行挖掘,得出有用的知識(shí)。為此,本文提出了一種基于聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘技術(shù)的審計(jì)信息分析的設(shè)計(jì)。對(duì)于公司而言,所有客戶的審計(jì)數(shù)據(jù)將是百萬級(jí)的。每一年,它都會(huì)對(duì)每個(gè)客戶使用公司軟件產(chǎn)品的情況進(jìn)行審計(jì)??梢哉f,企業(yè)每天都面臨著大量的商業(yè)信息,而如何利用、分析好這些數(shù)據(jù)從而為企業(yè)的發(fā)展提供指導(dǎo)就顯得尤其重要。OLAP和數(shù)據(jù)挖掘技術(shù)在QAD產(chǎn)品審計(jì)中的應(yīng)用與研究摘要隨著時(shí)代的發(fā)展,如今的企業(yè)已大多進(jìn)入了“無紙化”的辦公時(shí)代。原有的手工信息輸入與分析已無法適應(yīng)如今日益增多的信息數(shù)據(jù)。對(duì)于QAD公司而言,它是一家專門為制造業(yè)提供企業(yè)解決方案的軟件供應(yīng)商,它在全球范圍內(nèi)的九十多個(gè)國家擁有超過六千多個(gè)客戶。在每個(gè)客戶審計(jì)的過程中,自然會(huì)產(chǎn)生大量的數(shù)據(jù)。面對(duì)如此龐大的數(shù)據(jù),如何從這些數(shù)據(jù)中獲取公司所需的信息,分析出審計(jì)的結(jié)果,并得出一定的指導(dǎo)性結(jié)論就顯得尤其重要。OLAP和數(shù)據(jù)挖掘技術(shù)是近年來數(shù)據(jù)庫領(lǐng)域和人工智能領(lǐng)域研究的熱點(diǎn),它通過對(duì)大量數(shù)據(jù)進(jìn)行分析和處理,得到隱含在這些數(shù)據(jù)背后有用的信息和知識(shí)。為實(shí)現(xiàn)上述目標(biāo),首先需要決定存儲(chǔ)分析后的審計(jì)信息的數(shù)據(jù)庫版本與類型以及最終生成審計(jì)結(jié)果報(bào)表所需使用的報(bào)表生成工具。根據(jù)實(shí)際需求,分別比較了以上四種數(shù)據(jù)庫的優(yōu)缺點(diǎn),最終權(quán)衡之后選擇了SQL Server數(shù)據(jù)庫作為本項(xiàng)目的關(guān)系數(shù)據(jù)庫服務(wù)器。分析了以上幾種工具使用的便捷性以及代價(jià)考慮,最終選擇了大家比較常用且比較輕量型的Excel作為我們最終的報(bào)表生成工具。審計(jì)數(shù)據(jù)是由公司產(chǎn)品所提供的功能菜單運(yùn)行后自動(dòng)生成的,客戶在對(duì)這些多種多樣的報(bào)表整理時(shí),可能根據(jù)自身的習(xí)慣進(jìn)行不同的打包方式。經(jīng)過對(duì)歷史審計(jì)數(shù)據(jù)的詳細(xì)分析之后,找到了所需要的兩個(gè)審計(jì)文件:應(yīng)用使用詳細(xì)報(bào)告和許可權(quán)使用情況報(bào)告。因此我們的目標(biāo)只是在每個(gè)客戶的審計(jì)數(shù)據(jù)文件夾下找到這兩個(gè)文件,分析提取數(shù)據(jù),并存入數(shù)據(jù)庫中。究其原因是因?yàn)槌绦蛎看味夹枰闅v每個(gè)文件來確認(rèn)該文件是否為所需的那兩個(gè)報(bào)告文件,因此要花費(fèi)大量的時(shí)間。這樣,在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,程序運(yùn)行的效率將大大提高。根據(jù)歷史審計(jì)數(shù)據(jù)信息及相關(guān)的外部數(shù)據(jù)信息,按照需求,共設(shè)計(jì)了六張數(shù)據(jù)表。有了關(guān)系數(shù)據(jù)庫源,便可利用SSAS對(duì)審計(jì)數(shù)據(jù)進(jìn)行維度建模。在生成審計(jì)結(jié)果報(bào)表時(shí),使用Excel中的透視表,建立數(shù)據(jù)庫連接,選擇建立的多維數(shù)據(jù)源,便可讀取多維數(shù)據(jù)中的內(nèi)容。最后,便是使用數(shù)據(jù)挖掘技術(shù)對(duì)審計(jì)數(shù)據(jù)進(jìn)行一定的挖掘任務(wù)研究。本文探討了基于OLAP的數(shù)據(jù)挖掘技術(shù)在產(chǎn)品審計(jì)中的應(yīng)用,分別使用了決策樹算法和神經(jīng)網(wǎng)絡(luò)算法對(duì)同一個(gè)挖掘模型進(jìn)行了挖掘,并利用提升圖比較了兩個(gè)算法的挖掘準(zhǔn)確性。由于時(shí)間及精力的有限,只是粗略探索了數(shù)據(jù)挖掘在公司審計(jì)中應(yīng)用的可能性。本文的研究和結(jié)果表明,OLAP和數(shù)據(jù)挖掘技術(shù)在QAD公司產(chǎn)品審計(jì)中的應(yīng)用是可行的,而且是便捷高效的。關(guān)鍵詞:數(shù)據(jù)挖掘,OLAP,多維數(shù)據(jù)分析,SQL Server 2008分析服務(wù),產(chǎn)品審計(jì)THE APPLICATION AND RESEARCH OF OLAP AND DATA MINING TECHNOLOGY IN QAD PRODUCT AUDITABSTRACTWith the development of the society, science and technology, most of the enterprises have now entered the paperless office time. The original manual input and analysis couldn’t deal with the increasing information and data any more. Every day, enterprises are faced with lots of business information, and be aware of know how to use these data to analysis, to provide guidance for development of the enterprise is especially important. For QAD which is a software supplier pany who provides solutions to specialized manufacturing enterprises, has more than 6,000 multiple clients within 90 countries worldwide. Every year, all clients’ using software products conditions will be audited by the pany. In every customer audit process, large amounts of data will be produced. For QAD, the number of all customers’ audit data gathered together will be millions. Facing such large numbers of data, it is especially important to know how to get the information the pany need, to analysis the audit results, and some guidance conclusions from this huge and messy data.Therefore, this paper proposed a multidimensional analysis of QAD product auditing design based on OLAP and data mining technology. OLAP and data mining technology have being a research hot spot of database and the field of artificial intelligence during recent years. It through the large data analysis and processing, implicates useful information and knowledge behind these data. This project realized OLAP multidimensional data analysis and MDX multidimensional data query on the basis of SQL Server Analysis Service 2008 in the audit information cube, and achieved audit information data mining using decision trees and the neural