【正文】
能干的人,不在情緒上計(jì)較,只在做事上認(rèn)真;無(wú)能的人!不在做事上認(rèn)真,只在情緒上計(jì)較。什么是奮斗?奮斗就是每天很難,可一年一年卻越來(lái)越容易。 寧可累死在路上,也不能閑死在家里!寧可去碰壁,也不能面壁。 適宜時(shí)候,數(shù)據(jù)庫(kù)承建單位宜采用數(shù)據(jù)更新流程,一般數(shù)據(jù)更新應(yīng)訂立數(shù)據(jù)更新計(jì)劃,計(jì)劃內(nèi)容包括更新的頻率和周期,數(shù)據(jù)更新的內(nèi)容、范圍和總量等。 數(shù)據(jù)更新 數(shù)據(jù)更新是對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源進(jìn)行補(bǔ)充、修改和刪除的工作。 數(shù)據(jù)資源審核通過(guò)后方可正式對(duì)用戶提供服務(wù),未能通過(guò)審核的數(shù)據(jù)一般應(yīng)返回到必要的流程進(jìn)行修正或重新加工。審核指標(biāo)的設(shè)置應(yīng)在符合實(shí)際的前提下盡可能不應(yīng)與當(dāng)前國(guó)際領(lǐng)先水平有太大差距。 數(shù)據(jù)庫(kù)主要承建單位應(yīng)明確審核所參照的評(píng)估模型和方法以及技術(shù)要求等。 數(shù)據(jù)審核可以由數(shù)據(jù)采集加工人員自檢,也可由數(shù)據(jù)庫(kù)主要承建單位專門進(jìn)行。 數(shù)據(jù)審核的目標(biāo)是確保數(shù)據(jù)內(nèi)容與被描述對(duì)象相一致,并且質(zhì)量符合數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)要求。這種評(píng)價(jià)是以審核準(zhǔn)則為依據(jù),以審核證據(jù)為前提,做出客觀的評(píng)價(jià)。 ? 修復(fù):根據(jù)已有殘缺或局部數(shù)據(jù)進(jìn)行修復(fù),或生成全貌完整數(shù)據(jù)。 ? 匯總(迭加匯總、超級(jí)匯總):由原始數(shù)據(jù)匯總生成綜合數(shù)據(jù)。 ? 校對(duì):對(duì)數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)內(nèi)容全面性、數(shù)據(jù)著錄規(guī)范性等進(jìn)行校對(duì)。 ? 標(biāo)引:分類標(biāo)引和主題標(biāo)引。 z 采集的數(shù)據(jù)進(jìn)行加工制作,包括查重、著錄、標(biāo)引、錄入、校對(duì)、審核、入庫(kù)等,并 終形成各種專題數(shù)據(jù)庫(kù)。 z 4 級(jí)數(shù)據(jù):為了特殊的用途,并非數(shù)據(jù)中心日常業(yè)務(wù)范圍之內(nèi),而專門為之整理、加工和生產(chǎn)的科學(xué)數(shù)據(jù)產(chǎn)品。 z 3 級(jí)數(shù)據(jù):在 2 級(jí)數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步深加工而形成的科學(xué)數(shù)據(jù)產(chǎn)品。這是原始數(shù)據(jù)記錄生產(chǎn)地向上級(jí)主管部門報(bào)送的數(shù)據(jù),這對(duì)于原始數(shù)值生產(chǎn)地而言是“數(shù)據(jù)成品”;而對(duì)于接受單位,特別是承擔(dān)數(shù)據(jù)歸檔、服務(wù)的數(shù)據(jù)中心而言則是“原始數(shù)據(jù)”。各部門、系統(tǒng)紛紛制定了數(shù)據(jù)標(biāo)準(zhǔn)和統(tǒng)一格式,科學(xué)數(shù)據(jù)從產(chǎn)生那刻起,就是標(biāo)準(zhǔn)的、他人可讀的了。 數(shù)據(jù)加工的級(jí)別 z 0 級(jí)數(shù)據(jù):未作任何處理的原始記錄,其記錄格式、符號(hào)、代碼等大多由作業(yè)者本人或其服務(wù)的單位自行設(shè)置,外單位人員,即使是同行,也是無(wú)法理解這些數(shù)字的含義的。 這一過(guò)程,可以是計(jì)算機(jī)自動(dòng)處理、手工操作,或者是計(jì)算機(jī)與人工相結(jié)合方式進(jìn)行。數(shù)據(jù)按要求,開(kāi)發(fā)處理系統(tǒng),進(jìn)行加工處理,產(chǎn)生需要的數(shù)據(jù)、報(bào)表等。專題數(shù)據(jù)產(chǎn)品突出反映一種或幾種主要要素或現(xiàn)象。 屬性數(shù)據(jù)加工模型的核心是對(duì)屬性數(shù)據(jù)進(jìn)行規(guī)范化處理,包括賦予屬性數(shù)據(jù)以空間特征,以及基于數(shù)學(xué)模型對(duì)屬性數(shù)據(jù)進(jìn)行均一化處理等。例如,針對(duì)屬性數(shù)據(jù)加工的要求,建立屬性數(shù)據(jù)加工模型和算法;針對(duì)柵格數(shù)據(jù)加工的要求,建立柵格數(shù)據(jù)加工模型和算法;針對(duì)矢量數(shù)據(jù)加工的要求,建立矢量數(shù)據(jù)加工模型和算法。通常使用屬性子集選擇方法。 數(shù)據(jù)立方體聚集 聚集操作用于數(shù)據(jù)立方體中的數(shù)據(jù)。 屬性構(gòu)造 由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。 數(shù)據(jù)概化 使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。這種技術(shù)包括分箱、聚類和回歸。 數(shù)據(jù)變換 將數(shù)據(jù)轉(zhuǎn)換成適合使用的形式。 主要方法包括: 模式匹配 利用數(shù)據(jù)庫(kù)的元數(shù)據(jù)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行映射轉(zhuǎn)換,形成模式匹配。 數(shù)據(jù)集成 數(shù)據(jù)集成用于將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲(chǔ)。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。常用的數(shù)據(jù)清理方法包括: 空缺值的清理 z 忽略元組 z 人工填寫空缺值 z 使用一個(gè)全局常量填充空缺值 z 使用屬性的平均值填充空缺值 z 使用與給定元組屬同一類的所有樣本的平均值 z 使用 有可能的值填充空缺值 噪聲數(shù)據(jù) z 分箱 z 聚類 z 計(jì)算機(jī)和人工檢查結(jié)合 z 回歸 不一致數(shù)據(jù) 對(duì)于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。 一般的原始數(shù)據(jù)預(yù)處理方法包括數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約等。 z 提高數(shù)據(jù)的系列性,尤其是在時(shí)間和空間序列上的連續(xù)性。 數(shù)據(jù)處理的主要目的在于 z 減少誤差。 數(shù)據(jù)來(lái)源篩選的原則可以包括但不限于以下方面: z 數(shù)據(jù)生產(chǎn)者和提供者的口碑; z 數(shù)據(jù)來(lái)源的時(shí)間、空間、學(xué)科范圍符合本數(shù)據(jù)庫(kù)的使用預(yù)期; z 數(shù)據(jù)來(lái)源的數(shù)據(jù)規(guī)模滿足需求; z 數(shù)據(jù)來(lái)源使用的數(shù)據(jù)格式符合需求; z 數(shù)據(jù)來(lái)源遵循某一國(guó)際或國(guó)內(nèi)知名的數(shù)據(jù)標(biāo)準(zhǔn)建立; z 數(shù)據(jù)來(lái)源的技術(shù)指標(biāo),如準(zhǔn)確度,精確度水平等; z 數(shù)據(jù)來(lái)源的主要內(nèi)容; z 數(shù)據(jù)來(lái)源是否具有完整的元數(shù)據(jù)或相關(guān)資料描述。 數(shù)據(jù)來(lái)源可以是其它數(shù)據(jù)庫(kù)資