【正文】
做到。微軟做 .NET 的目的是,希望在 PC 和 Inter 之后,為用戶提供更高層次的服務(wù)。8 / 492技術(shù)背景 服務(wù)的概念Definition: A Web service is a software system designed to support interoperable machinetomachine interaction over a work. It has an interface described in a machineprocessable format (specifically WSDL). Other systems interact with the Web service in a manner prescribed by its description using SOAP messages, typically conveyed using HTTP with an XML serialization in conjunction with other Webrelated standards.Web 服務(wù)是一個軟件系統(tǒng),是被開發(fā)用來支持可同時操作的,跨越網(wǎng)絡(luò)的機(jī)器對機(jī)器之間的交互。隨著我國經(jīng)濟(jì)商品化,貨幣化進(jìn)程的發(fā)展和我國社會市場經(jīng)濟(jì)體制的確立,逐步發(fā)展和完善的證券市場將在其中發(fā)揮越來越重要的作用。 本課題的目的和意義隨著社會不斷的進(jìn)步和發(fā)展,人們的生活變的越來越充裕,手中的錢也越來越多,因此人們選擇了理財產(chǎn)品,而不在是存在銀行中,但是眾多的金融衍生產(chǎn)品使投資者眼花繚亂。在本中也對本文中的創(chuàng)新點進(jìn)行闡述,同時展望了采集數(shù)據(jù)的自動化和數(shù)據(jù)挖掘的發(fā)展方向以及前景。HUNAN UNIVERSITY畢業(yè)設(shè)計(論文)設(shè)計(論文)題目: 數(shù)據(jù)采集自動化處理與數(shù)據(jù)挖掘 學(xué) 生 姓 名 : 武 祥 斌 學(xué) 生 學(xué) 號 : 20221610326 專 業(yè) 班 級 : 軟件工程 2022 級開發(fā) 2 班 指 導(dǎo) 老 師 : 李 瑋 系主任(院長) : 林 亞 平 II / 492022 年 5 月 26 日數(shù)據(jù)采集自動化處理與數(shù)據(jù)挖掘摘要目前,隨著社會經(jīng)濟(jì)的發(fā)展,金融市場變的異常龐大和復(fù)雜,而基金作為一種金融衍生產(chǎn)品,在金融市場中占有一席之地。我們采用程序的方式來實現(xiàn)這樣的數(shù)據(jù)采集,并且不需要人工干預(yù),本套系統(tǒng)采用了 c語言,以及三層結(jié)構(gòu)本身的一些設(shè)計上特點做了較為詳細(xì)的分析,以及大量采用了 XML 技術(shù), 三層架構(gòu)的設(shè)計實現(xiàn)了一套功能相對完備并具有良好用戶界面和可擴(kuò)展性的系統(tǒng)。圖 系統(tǒng)整體數(shù)據(jù)流圖7 / 49圖 11 是整個系統(tǒng)的結(jié)構(gòu)圖,通過結(jié)構(gòu)圖可以很清楚的看到整個系統(tǒng)的大致的結(jié)構(gòu)和所完成的一些功能有一個初步的了解。這是因為:共同基金將眾多小額的資金匯集起來,積少成多,能從規(guī)模經(jīng)濟(jì)中獲益。這個系統(tǒng)的意義還在與能夠減少人工的參與,大量減少人工的工作量,再最以前都是人工的讀文件取數(shù)據(jù)并且錄入數(shù)據(jù),采用現(xiàn)在的信息化處理數(shù)據(jù)能夠減少公司的開支并且得到最準(zhǔn)確和及時的數(shù)據(jù),這是金融分析最重要的一點。 WEB 服務(wù)的優(yōu)勢,.NET 是微軟為 Web 服務(wù)提供的一個平臺。從用戶看,Web服務(wù)將用戶的需求分成幾個部分,逐步完成。 從開發(fā)者角度看,Web 服務(wù)的目的是讓人們開發(fā)的程序都能相互結(jié)合起來,比如說,賣花與付款兩個服務(wù)模塊,在開發(fā)時并沒有任何協(xié)議,是獨立9 / 49開發(fā)的,但把它們放在一起,也能運行。足夠多的 Web 服務(wù)出現(xiàn)后,成長的速度會非???。然而,由于 XML 在可擴(kuò)展性、可移植性和結(jié)構(gòu)性等方面的突出優(yōu)點,它的應(yīng)用范圍早己突破了 HTML 所達(dá)到的范圍。HTML 是一種 預(yù)定義標(biāo)記語言,它只認(rèn)識諸如html等已經(jīng)定義的標(biāo)記,對于用戶自己定義的標(biāo)記是不認(rèn)識的。主要特點:;;;;。XML 是一種標(biāo)記語言,標(biāo)記在 XML 中不是預(yù)先確定的,而必須由使用者自己定義。為了支持可擴(kuò)展性,Web 服務(wù)需要一種機(jī)制以避免名字沖突,并允許一個程序只處理自己所關(guān)心的元素。 XML Schema 規(guī)范標(biāo)準(zhǔn)化了一個描述 XML 數(shù)據(jù)類型的符號集,還定義了一個內(nèi)置簡單數(shù)據(jù)類型的集合和在各 XML 文檔中建立元素類型的機(jī)制。但 Client/Server 結(jié)構(gòu)存在著很多體系結(jié)構(gòu)上的問題,比如:當(dāng)客戶端數(shù)目激增時,服務(wù)器端的性能會因為負(fù)載過重而大大衰減;一旦應(yīng)用的需求發(fā)生變化,客戶端和服務(wù)器端的應(yīng)用程序都需要進(jìn)行修改,給應(yīng)用維護(hù)和升級帶來了極大的不便;大量的數(shù)據(jù)傳輸增加了網(wǎng)絡(luò)的負(fù)載等等。通常情況下,客戶端不直接與數(shù)據(jù)庫進(jìn)行交互,而是通過COM/DCOM 通訊與中間層建立連接,再經(jīng)由中間層與數(shù)據(jù)庫進(jìn)行交互 [5]。將應(yīng)用系統(tǒng)集成于分布式系統(tǒng)之上,能極大地提高系統(tǒng)的可擴(kuò)展性。這意味著如果需要修改應(yīng)用程序12 / 49代碼,只需要對中間層應(yīng)用服務(wù)器進(jìn)行修改,而不用修改成千上萬的客戶端應(yīng)用程序。 ASP 技術(shù):類似于 PHP 技術(shù),開發(fā)簡便,快速,加上 IIS 的功能支持,是比較簡易快速的開發(fā)技術(shù)。 的公共運行規(guī)范(CLS 的語言都可以使用它提供的強(qiáng)大的類,并編譯為微軟的中間語言(MSIL) ,在其他的應(yīng)用中就可以當(dāng)作一個組件來調(diào)用。它除了是編譯執(zhí)行速度快外,最大的優(yōu)點是頁面和代碼分離的編寫方式,對慣使 RAD 工具的人來說是個福音。表示層放在 頁面中,數(shù)據(jù)庫操作和邏輯層用組件來實現(xiàn),這樣就很方便的實現(xiàn)了三層架構(gòu)。IIS 不需要開發(fā)人員學(xué)習(xí)新的腳本語言或者編譯應(yīng)用程序,IIS 完全支持 VBScript, JScript 開發(fā)軟件以及 Java,14 / 49它也支持以工和 WinCGI,以及 ISAPI 擴(kuò)展和過濾器。用于 32 位 Windows 應(yīng)用程序的 Inter 擴(kuò)展可以把 FTP,SMTP 和 HTTP 協(xié)議置于容易使用且任務(wù)集中的界面中,這些界面將 Inter 應(yīng)用程序的使用大大簡化,IIS 也支持MIME(MultipurposeInter Mail Extensions,多用于 Inter 郵件擴(kuò)展),它可以為 Inter 應(yīng)用程序的訪問提供一個簡單的注冊項。進(jìn)行底層的最佳模式設(shè)計。當(dāng)開發(fā)者圍繞該體系結(jié)構(gòu)執(zhí)行各種不同的任務(wù)時,就可以告訴他們?nèi)绾问褂?。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。例子: (1) 根據(jù)購買模式,估計一個家庭的孩子個數(shù) (2) 根據(jù)購買模式,估計一個家庭的收入 (3) 估計 real estate 的價值 一般來說,估值可以作為分類的前一步工作。3. 預(yù)言(Prediction ) 通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。 例子:(1) 超市中客戶在購買 A 的同時,經(jīng)常會購買 B,即 A = B(關(guān)聯(lián)規(guī)則) (2) 客戶在購買 A 后,隔一段時間,會購買 B (序列分析) 5. 聚集(Clustering) 聚集是對記錄分組,把相似的記錄在一個聚集里。6.描述和可視化(Des cription and Visualization) 是對數(shù)據(jù)挖掘結(jié)果的表示方式。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。 Downloader 負(fù)責(zé)把文件從不同的服務(wù)器上下在下來。2. 從 Email 服務(wù)器上下載文件。 p r i o r i t y f r o m A p p C o n f i gG e t a f i l e f r o m D B b y s t a t u sS t a t u s : W a i t i n g f o r p a r s e rD o e s l o a d f i l e s u c c e s s f u l ?R a w f i l e s e r v e rY e sU p l o a d x m l f i l e t o f i l e s e r v e r I m p o r t f i l e s e r v e rS t a t u s : p a r s e i n gU n l o c k t h e f i l eE n dG e n e r a t e v a l i d a r r a y a n d i n v a l i d a r r a yO u t p u t i m p o r t x m l f i l e ( f i l e I d . x m l ) f r o m v a l i d a r r a y t h r o u g h d a t a p o i n t o u t n o d e x p a t h ( c a n w e d o i t ? )S p e c i a l P a r s eX m l P a r s eNS t a t u s : P a r s e d D o n eS t a t u s : P a r s e d F a i l u r eL o a d d a t a p o i n t s s e t t i n g i n f o r m a t i o n D a t a P o i n t sO u t p u t f a i l u r e f i l e ( f i l e I d . t x t ) f r o m i n v a l i d a r r a y圖 Parser 主要數(shù)據(jù)流圖23 / 49F i l e f o r m a tE x t e n t i o n n a m eI n v o k e T x t P a r s e r I n v o k e X L S p a r s e rC a l l t h e m * p a r s e rI t e r a t e o p e r a t i n g t h e s h e e t n e e d t o t r a n s f o r mt r y t o O p e n t h e W o r k B o o k sM a t r i xx l sM S Tt x tG e n e r a t e v a l i d a r r a y a n d i n v a l i d a r r a yt r y t o O p e n t h e T e x t f i l eG e t t h e l i n e d a t a w i t h d e l i m i t e rM a t r i x p a r s e l i n eT h e o r i e n t a t i o n o f c o n t e n t ?P o r t r a i tI t e r a t e r e a d i n g r o w d a t aI t e r a t e r e a d i n g c o l u m n d a t aL a n d s c a p eT h e c o l u m n p a r s e p a t t e r n ?d e l i m i t e rC o l u m n R e g xI t e r a t e r e a d i n g r o w d a t aG e t t h e l i n e d a t a w i t h r e g xM a t r i x p a r s e l i n eM a t r i x p a r s e l i n eH e a d e r r o w ?E n d o f L i n e ?Y e sN oN oY e s圖 Parser 處理 Matrix 流程圖24 / 49 類圖+ P a r s e ( i n f i l e s )+ S e t F i l e F o r m a t ( i n x m l F o r m a t ) i n t e r f a c e I P a r s e rM a t r i x F o r m a t P a r s e r X m l F o r m a t P a r s e r S p e c i a l F o r m a t P a r s e r+ G e t P a r s e r ( )P a r s e r F a c t o r y171。171。MinPercentageOfParsed 指的是最低通過率。EndLine 指的是文件數(shù)據(jù)結(jié)束的最大空行算結(jié)束。SpecialFormat: Name 指的是特殊文件的名字。4. 實現(xiàn)了將各種 Special 文件轉(zhuǎn)換為 clean file