【正文】
c e s s ( i n f i l e ) ( )A b s t r a c t P a r s e r+ P r o c e s s ( i n f i l e )+ C o n v e r t E x c e l T o C S V ( )+ G e n e r a t e I n v a l i d F i l e ( )+ G e n e r a t e V a l i d X m l F i l e ( )+ G e t P r o v i d e r R a w F i l e B y F i l e I d ( ) u t i l i t y F i l e U t i l i t y+ U p d a t e S t a t u s T a b l e ( )+ C o n v e r t E x c e l T o C S V ( ) d a t a t y p e I m p o r t X m l ( A l c o r i a n c l a s s )P a r s e r C l a s s D i a g r a m M a i n ( i n a r g s : s t r i n g [ ] ) R u n ( )P a r s e r M a i n s t a t u s n u m F a i l e d n u m S u c c e s s f u lP a r s e r R e s u l t+ G e t N e x t P a r s e F i l e ( )+ U p d a t e P a r s e F i l e S t a t u s ( )+ D e l i v e r y I d+ D o w n l o a d e d F i l e N a m e+ D o w n l o a d e d F i l e F o l d e r+ D o w n l o a d e d F i l e F u l l N a m e+ P a r s e d F i l e N a m e+ P a r s e d F i l e F o l d e r+ P a r s e d F i l e F u l l N a m eP e r f o r m a n c e F i l e ( A l c o r i a n c l a s s )+ G e t C u r r e n t F i l e F o r m a t B y D e l i v e r y I d ( )P r o v i d e r D e l i v e r y ( A l c o r i a n c l a s s )+ P r o c e s s ( ) i n t e r f a c e I F i l e P a r s e rT x t F i l e P a r s e r X l s F i l e P a r s e r I s H e a d L i n e ( ) I s E n d L i n e ( ) R e a d L i n e ( ) P a r s e L i n e ( )B a s e F i l e P a r s e r圖 Parser 設(shè)計(jì)類圖25 / 49 功能實(shí)現(xiàn)此模塊采用的 XML schema 圖 ,程序根據(jù)這個(gè) schema 來處理各種各樣的文件,這個(gè) xchema 在這個(gè)模塊里叫做 File Format .圖 Parser 的 schema 文件26 / 49File Format 分為三種,分別為 Matrix Format, XML Format, Special Format.Matrix Format: Delimiter 指的是文件中一行數(shù)據(jù)的分隔符。DataFormat 指的是數(shù)據(jù)點(diǎn)的格式,例如時(shí)間的格式。E x t e r n a l I d .G e t f r o m d a t a b a s e a c c o r d i n g t o P e r f o r m a n c e I dH a v e c a c h e d p r o v i d e r ’ s a l l m a p p i n g i n f o ?y e sC a c h e t i m e b e f o r e 3 0 m i n u t e sy e sR e f r e s h a l l n e v e r u s e d m a p p i n g i n f o i n c a c h e amp。2. 實(shí)現(xiàn)了將 Txt 文件轉(zhuǎn)換為 clean file。StartLineNo 指的是文件數(shù)據(jù)的起始行。171。最后 Importer 把文件分別放入到 Master Data , Orphan Data ,Failed Data 中。 2. 數(shù)據(jù)的存儲(chǔ)和管理 18 / 49數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。 例子:(1) 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病(2) 租 VCD 類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 0~1) 。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。構(gòu)建 HWMPS 的體系結(jié)構(gòu)和基礎(chǔ)框架也必須是可擴(kuò)展的,應(yīng)該支持功能的增加與擴(kuò)展而不影響原有的功能模塊。 IIS 支持 HTTP(HypertextTransferProtocol,超文本傳輸協(xié)議),F(xiàn)TP(Fe1eTransfer Protocol,文件傳輸協(xié)議) 以及 SMTP(Simple Mail Transfer Protocol, 簡(jiǎn)單郵件傳輸協(xié)議),通過使用 CGI 和 ISAPI,IIS 可以得到高度的擴(kuò)展。 .NET 可比喻是操作系統(tǒng)提供給開發(fā)人員的面向?qū)ο竦?API(應(yīng)用程序編程接口)。因此,本系統(tǒng)將選擇三層體系結(jié)構(gòu),圖 是系統(tǒng)高層邏輯體系結(jié)構(gòu)圖:圖 高層邏輯體系結(jié)構(gòu) 用 部署三層架構(gòu)就 B/S 模式的系統(tǒng)的開發(fā),具體技術(shù)又有多種選擇:JSP + J2EE, ASP+IIS, + Microsoft .NET Framework + IIS,PHP + Apache,就這幾門技術(shù),可以說各有其優(yōu)缺點(diǎn),分析如下: JSP 技術(shù):具有良好的跨平臺(tái)性,加上 J2EE 功能十分強(qiáng)大,但是 J2EE的布置使開發(fā)成本顯得略高,而且沒有良好的安裝界面。應(yīng)用系統(tǒng)只有向多層分布式轉(zhuǎn)變,才能最終解決 Client/Server 結(jié)構(gòu)存在的問題。11 / 49 系統(tǒng)的體系結(jié)構(gòu) 傳統(tǒng)的兩層結(jié)構(gòu)在過去應(yīng)用系統(tǒng)開發(fā)過程中,Client/Server 體系結(jié)構(gòu)得到了廣泛的應(yīng)用。另外,XML 文檔的結(jié)構(gòu)、內(nèi)容和外觀可以作為三個(gè)不同的部分進(jìn)行維護(hù),提供了更高的獨(dú)立性。)CML 技術(shù)支持 DOM(Document Object Model,文檔對(duì)象模型) 和 SAX( Simple Application for XMLXML 簡(jiǎn)單應(yīng)用程序)兩種編程接口技術(shù),還能使用 XPath 語言對(duì)數(shù)據(jù)內(nèi)容進(jìn)行查詢。像 HTML一樣,XML 是從所有標(biāo)志語言的元語一標(biāo)準(zhǔn)通用標(biāo)志語言 SGML(Standard Generalized Markup Language)那里派生出來的。但你需要去搜索賣花,搜索到的也許并不是你所最想要的;你還需要輸入信用卡號(hào)和地址,而且所有的數(shù)據(jù)也不能重復(fù)使用。它包含一個(gè)以機(jī)器可處理格式描述的接口(特指WSDL)。共同基金這種新興投資方式的出現(xiàn),是市場(chǎng)經(jīng)濟(jì)特別是證券高度發(fā)達(dá)的必然結(jié)果。隨著基金產(chǎn)業(yè)的不斷發(fā)展,各種類型的基金進(jìn)入金融市場(chǎng),作為一種理財(cái)產(chǎn)品,就是要為大眾服務(wù),幫助大家理財(cái),然而當(dāng)投資者面對(duì)大量的基金產(chǎn)品,不知應(yīng)該怎樣選擇,所以我們的目標(biāo)就是幫助普通的投資者和金融機(jī)構(gòu)做出判斷,指引他們選擇適合自己的基金。對(duì)各種基金數(shù)據(jù)進(jìn)行整理,分類,最后得到我們可以識(shí)別的標(biāo)準(zhǔn)格式的文件類型的數(shù)據(jù)文件。而我們的這個(gè)題目的目的就是在于幫助分析人員提供大量的基金數(shù)據(jù),使分析人員不用關(guān)心數(shù)據(jù),我們會(huì)提供給他們正確和完整的數(shù)據(jù),而這些數(shù)據(jù)的來源就是世界上各個(gè)金融機(jī)構(gòu)提供給我們的文件中包括的數(shù)據(jù),我們采用自動(dòng)化的數(shù)據(jù)采集,保證了快速和準(zhǔn)確的把數(shù)據(jù)收集起來,然而再美國(guó)境內(nèi),美國(guó)的機(jī)構(gòu)提供的都是格式統(tǒng)一的文件,這樣我們很容易把數(shù)據(jù)轉(zhuǎn)化為我們內(nèi)部可以識(shí)別的格式文件,在美國(guó)之外,也就是歐洲和亞洲等各個(gè)機(jī)構(gòu)提供的文件格式不同,比如 excel,pdf,txt 等各種各樣的格式,我們需要應(yīng)對(duì)各種的方式來處理文件,最終得到統(tǒng)一的格式,為金融分析人員提供第一手的數(shù)據(jù)。 Web 服務(wù)最終的目的可分為用戶、開發(fā)商和企業(yè)用戶。Web 服務(wù)的優(yōu)勢(shì)就像滾雪球那樣,滾到一定程度,效果就出來了。比如開發(fā)者可以定義如下標(biāo)記bookname,任何滿足XML 命名規(guī)則的名稱都可以標(biāo)記,這就為不同的應(yīng)用程序打開了大門。XML 采用純文本表示,設(shè)計(jì)的初衷是為了存儲(chǔ)、傳送和交換數(shù)據(jù)的。數(shù)據(jù)格式:Web 服務(wù)需要一種方法定義 Web 服務(wù)消息中使用的數(shù)據(jù)類型。三層體系的應(yīng)用程序?qū)I(yè)務(wù)規(guī)則、數(shù)據(jù)訪問、合法性校驗(yàn)等工作放到了中間層進(jìn)行處理。在保證客戶端功能的前提下,為用戶提供一個(gè)簡(jiǎn)潔的界面。從開發(fā)人員的角度來看,.NET 是一個(gè)公共平臺(tái)的類庫(kù) (FCL),包括一個(gè)公共語言運(yùn)行庫(kù)(CLR) 。 .NET 中可以方便的實(shí)現(xiàn)組件的裝配,后臺(tái)代碼通過命名空間可以方便的使用自己定義的組件。IIS 支持 ISAPI,使用 ISAPI 可以擴(kuò)展服務(wù)器功能,而使用 ISAPI 過濾器可以預(yù)先處理和事后處理儲(chǔ)存在 IIS 上的數(shù)據(jù)。通過建立一個(gè)強(qiáng)壯的體系結(jié)構(gòu),可以向開發(fā)者明確的描述如何去完成不同的任務(wù),可以提供標(biāo)準(zhǔn)化的代碼,用開發(fā)者用來處理緩存、調(diào)用上下文、數(shù)據(jù)訪問等。例子:(1) 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn) (2) 分配客戶到預(yù)先定義的客戶分片 注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的2. 估值(Estimation)估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。4. 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)17 / 49決定哪些事情將一起發(fā)生。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。3系統(tǒng)功能設(shè)計(jì) 概要說明系統(tǒng)主要由 3 部分組成,分別 Downloader,Parser,部分有不同的責(zé)任,而每?jī)蓚€(gè)部分之間都是相互關(guān)聯(lián)的。22 / 49 模塊 主要處理文件流程U p d a t e f i l e s t a t u s l o c k f i l e f o r p a r s i n gG e t t h e f i l e f o r m a t a c c o r d i n g t o P r o v i d e r D e l i v e r y I d ( C a c h e l i s t )P e r f o r m a n c e F i l e St a t u sD e l i v e r y F i l e F o r m a t Ma p p i n gS t a r tM a t r i x P a r s eS e t t h e f i l e s t a t u s , P a r s e D a t a D e t a i l a n d P a r s e R o w s R a t eF i l e f o r m a tm a t r i x f o r m a tX m l f o r m a tS p e c i a l f o r m a tG e t s p e c i a l p a r s e r a c c o r d i n g t o ‘ s p e c i a l n a m e ’G e n e r a t e d r e c o r d s r a t e ( i n v a l i d c o u n t /t o t a l c o u n t ) m i n g e n e r a t e d r e c o r d s r a t e N oS e t t h e f i l e s t a t u s , P a r s e D a t a D e t a i l a n d P a r s e R o w s R a t eY e sG e t t h e f i l e s e r v e r p a t h amp。ColumnRegex 指的是一行數(shù)據(jù)的正則表達(dá)式。XMLFormat: XSLTFilePath 指的是路徑。 C a c h e t i m eU p d a t e p r i o r i t y t a b l e a c t i v e f l a gb