【正文】
前景展望 ............................................................................................45 下一步工作 ....................................................................................................45致 謝 .........................................................................................................................46參考文獻(xiàn) ...................................................................................................................476 / 491緒論 本課題的簡介數(shù)據(jù)采集自動化處理其實(shí)就是一個(gè)系統(tǒng),此系統(tǒng)主要任務(wù)就是自動化的采集數(shù)據(jù)。隨著基金產(chǎn)業(yè)的不斷發(fā)展,各種類型的基金進(jìn)入金融市場,作為一種理財(cái)產(chǎn)品,就是要為大眾服務(wù),幫助大家理財(cái),然而當(dāng)投資者面對大量的基金產(chǎn)品,不知應(yīng)該怎樣選擇,所以我們的目標(biāo)就是幫助普通的投資者和金融機(jī)構(gòu)做出判斷,指引他們選擇適合自己的基金。為了達(dá)到上面的目的,我們就需要大量的數(shù)據(jù)來做支撐,所以采集這些基金產(chǎn)品的數(shù)據(jù)是十分重要的,每天有來自世界各地的金融機(jī)構(gòu)為我們提供這些數(shù)據(jù),而我們的目的就是要采集這些數(shù)據(jù),保持?jǐn)?shù)據(jù)的完整性和正確性就是我們這套系統(tǒng)的主要功能。對各種基金數(shù)據(jù)進(jìn)行整理,分類,最后得到我們可以識別的標(biāo)準(zhǔn)格式的文件類型的數(shù)據(jù)文件。面對各類證券數(shù)量的迅速擴(kuò)張和投資風(fēng)險(xiǎn)的不斷加大,個(gè)人投資者對共同基金的倚賴性逐漸增加。而我們的這個(gè)題目的目的就是在于幫助分析人員提供大量的基金數(shù)據(jù),使分析人員不用關(guān)心數(shù)據(jù),我們會提供給他們正確和完整的數(shù)據(jù),而這些數(shù)據(jù)的來源就是世界上各個(gè)金融機(jī)構(gòu)提供給我們的文件中包括的數(shù)據(jù),我們采用自動化的數(shù)據(jù)采集,保證了快速和準(zhǔn)確的把數(shù)據(jù)收集起來,然而再美國境內(nèi),美國的機(jī)構(gòu)提供的都是格式統(tǒng)一的文件,這樣我們很容易把數(shù)據(jù)轉(zhuǎn)化為我們內(nèi)部可以識別的格式文件,在美國之外,也就是歐洲和亞洲等各個(gè)機(jī)構(gòu)提供的文件格式不同,比如 excel,pdf,txt 等各種各樣的格式,我們需要應(yīng)對各種的方式來處理文件,最終得到統(tǒng)一的格式,為金融分析人員提供第一手的數(shù)據(jù)。其他系統(tǒng)同 Web 服務(wù)交互以一種本身的描述中規(guī)定的方式,使用SOAP 消息,代表性在同 Web 相關(guān)的標(biāo)準(zhǔn)的聯(lián)結(jié)中使用一個(gè) XML 連續(xù),利用 HTTP 傳達(dá)( 消息) 。 Web 服務(wù)最終的目的可分為用戶、開發(fā)商和企業(yè)用戶。而在 Web服務(wù)中,你只需告訴計(jì)算機(jī):我要買束花就行了;因?yàn)槟愕暮芏鄶?shù)據(jù)已經(jīng)存在 Web 服務(wù)中。Web 服務(wù)的優(yōu)勢就像滾雪球那樣,滾到一定程度,效果就出來了。設(shè)計(jì)之初, XML 的目標(biāo)之一是取代 HTML 為新出現(xiàn)的復(fù)雜的 Web 應(yīng)用提供標(biāo)準(zhǔn)的 Inter 語言。比如開發(fā)者可以定義如下標(biāo)記bookname,任何滿足XML 命名規(guī)則的名稱都可以標(biāo)記,這就為不同的應(yīng)用程序打開了大門。XML 技術(shù)支持 XSLT(eXtensible Stylesheet Language Transformations,可擴(kuò)展樣式表語言轉(zhuǎn)換) 格式轉(zhuǎn)換,利用 XSLT 技術(shù)能將 XML 文件轉(zhuǎn)換為各種不同的格式,如格式不同的 XML 文件、HTML 文件、文本文件、無線標(biāo)記語言(WML) 和10 / 49SVG 文件等。XML 采用純文本表示,設(shè)計(jì)的初衷是為了存儲、傳送和交換數(shù)據(jù)的。對于數(shù)據(jù)表示層來說,可擴(kuò)展性是一個(gè)關(guān)鍵因素。數(shù)據(jù)格式:Web 服務(wù)需要一種方法定義 Web 服務(wù)消息中使用的數(shù)據(jù)類型。其特點(diǎn)是,應(yīng)用程序邏輯通常分布在客戶和服務(wù)器兩端,客戶端發(fā)出數(shù)據(jù)資源訪問請求,服務(wù)器端將結(jié)果返回客戶端。三層體系的應(yīng)用程序?qū)I(yè)務(wù)規(guī)則、數(shù)據(jù)訪問、合法性校驗(yàn)等工作放到了中間層進(jìn)行處理。在多層架構(gòu)下,應(yīng)用可以分布在不同的系統(tǒng)平臺上,通過分布式技術(shù)實(shí)現(xiàn)異構(gòu)平臺間對象的相互通信。在保證客戶端功能的前提下,為用戶提供一個(gè)簡潔的界面。 PHP 技術(shù):是早期動態(tài)網(wǎng)頁技術(shù)中的強(qiáng)手,但隨著 JSP 技術(shù)與 ASP 技術(shù)的不斷更新,使得 PHP 技術(shù)稍微比較落后。從開發(fā)人員的角度來看,.NET 是一個(gè)公共平臺的類庫 (FCL),包括一個(gè)公共語言運(yùn)行庫(CLR) 。 中的一部分。 .NET 中可以方便的實(shí)現(xiàn)組件的裝配,后臺代碼通過命名空間可以方便的使用自己定義的組件。IIS 支 持 與語言無關(guān)的腳本編寫和組件,通過 IIS,開發(fā)人員就可以開發(fā)新一代動態(tài)的,富有魅力的 Web 站點(diǎn)。IIS 支持 ISAPI,使用 ISAPI 可以擴(kuò)展服務(wù)器功能,而使用 ISAPI 過濾器可以預(yù)先處理和事后處理儲存在 IIS 上的數(shù)據(jù)。2.加強(qiáng)設(shè)計(jì)模式與最佳實(shí)踐在設(shè)計(jì) HWMPS 體系架構(gòu)時(shí),應(yīng)自底向上的設(shè)計(jì)每一步。通過建立一個(gè)強(qiáng)壯的體系結(jié)構(gòu),可以向開發(fā)者明確的描述如何去完成不同的任務(wù),可以提供標(biāo)準(zhǔn)化的代碼,用開發(fā)者用來處理緩存、調(diào)用上下文、數(shù)據(jù)訪問等。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的 Web 頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。例子:(1) 信用卡申請者,分類為低、中、高風(fēng)險(xiǎn) (2) 分配客戶到預(yù)先定義的客戶分片 注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的2. 估值(Estimation)估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。然后,根據(jù)閾值,將貸款級別分類。4. 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)17 / 49決定哪些事情將一起發(fā)生。例如,哪一種類的促銷對客戶響應(yīng)最好?,對于這一 類問題,首先對整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對每個(gè)不同的聚集,回答問題,可能效果更好。由于數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。3系統(tǒng)功能設(shè)計(jì) 概要說明系統(tǒng)主要由 3 部分組成,分別 Downloader,Parser,部分有不同的責(zé)任,而每兩個(gè)部分之間都是相互關(guān)聯(lián)的。19 / 49 模塊 主要處理流程R e a d d o w n l o a d t y p e a n d d e s t i n a t i o n f o l d e r f r o m A p p S e t t i n g s . c o n f i gF t p , S s h , L o c a l 2 . 1 I t e r a t e g e t t i n g d e l i v e r y s e t t i n g x m l G e t d e l i v e r y r e c o r d l i s t w i t h d o w n l o a d t y p eP r o v i d e r D e l i v e r yG e t c o n c r e t e c o n t r o l l e rC o n n e c t t h e s e r v e rD o w n l o a d r a w f i l e t o d e s t i n a t i o n f o l d e r A d d r a w f i l e r e c o r dP r o v i d e r R a w F i l eF i n d r a w f i l eD o w n l o a d T y p e ?E m a i lG e t m a i l s e r v e r l i s t M a i l B o x1 . 1 I t e r a t e t o d e a l w i t h e a c h m a i l s e r v e r C o n n e c t t o m a i l s e r v e rG e t m a i l i n f o l i s t 1 . 1 . 1 I t e r a t e d e a l i n g w i t h e a c h m a i lS e a r c h i n g m a t c h e d p r o v i d e r d e l i v e r y o f m a i lD o w n l o a d a t t a c h m e n t ( r a w f i l e ) t o d e s t i n a t i o n f o l d e r1 . 1 . 1 . 1 I t e r a t e d e a l i n g w i t h e a c h a t t a c h m e n t s i n m a i lA d d r a w f i l e r e c o r d1 . L o o p e v e r y X m i n u t e s .( X i s c o n f i g u r e d i n A p p S e t t i n g s . c o n f i g )2 . L o o p e v e r y X m i n u t e s .( X i s c o n f i g u r e d i n A p p S e t t i n g s . c o n f i g )圖 Downloader 主要數(shù)據(jù)流圖20 / 49 類圖M a i n P r o c e s s o rA t t a c h m e n tE m a i l+ M o v e ( )+ D o w n l o a d ( )+ C o n n e c t ( )+ C l o s e ( )E m a i l D o w n l o a d H e l p e r+ D o w n l o a d ( )+ C o n n e c t ( )+ C l o s e ( )I D o w n l o a d H e l p e r+ P r o c e s s ( )E m a i l D o w n l o a d e rF t p D o w n l o a d e r+ O p e n ( )+ C l o s e ( )+ D o w n l o a d ( )M o r n i n g s t a r . A l c o r i n g . F t p C l i e n t+ D o w n l o a d ( )+ C o n n e c t ( )+ C l o s e ( )F t p D o w n l o a d H e l p e r+ P r o c e s s ( ) : b o o l i n t e r f a c e I D o w n l o a d e r+ P r o c e s s ( ) C o n n e c t ( ) C h e c k M a t c h e d ( ) D o w n l o a d ( )F t p B a s e D o w n l o a d e rL o c a l D o w n l o a d e r S s h D o w n l o a d e r+ D o w n l o a d ( )+ C o n n e c t ( )+ C l o s e ( )S s h D o w n l o a d H e l p e r+ S e l e c t C l a u s e+ W h e r e C l a u s eW e b D a vT a m i r . S h a r p S s h . j s c h圖 Downloader 設(shè)計(jì)類圖21 / 49 功能實(shí)現(xiàn)此模塊采用的 XML schema 如圖 ,服務(wù)器根據(jù)此 schema 來下載文件圖 Downloader 的 XML schema此模塊完成的功能:1. 從 FTP 服務(wù)器上下載文件。22 / 49 模塊 主要處理文件流程U p d a t e f i l e s t a t u s l o c k f i l e f o r p a r s i n gG e t t h e f i l e f o r m a t a c c o r d i n g t o P r o v i d e r D e l i v e r y I d ( C a c h e l i s t )P e r f o r m a n c e F i l e St a t u sD e l i v e r y F i l e F o r m