【正文】
數(shù)據(jù)更新的目標通常是為了維持所承建數(shù)據(jù)資源的現(xiàn)勢性或使其具有連續(xù)性。 ? 計算:按各種數(shù)學(xué)模型和算法對數(shù)據(jù)進行計算; ? 分析:對數(shù)據(jù)進行合理性、準確性、相關(guān)性、趨勢性等各種統(tǒng)計分析,如對比分析、構(gòu)成分析、相關(guān)分析、時間序列分析等,并生成相應(yīng)的圖形圖表。 z 人們對數(shù)據(jù)規(guī)范標準認識不斷提高的今天,0 級數(shù)據(jù)正在逐漸消失。 數(shù)據(jù)歸約 對數(shù)據(jù)處理的技術(shù),如數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約和離散化都可以用來得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失 小。 數(shù)據(jù)清理 數(shù)據(jù)清理用于填充空缺值、識別孤立點、消除噪聲、糾正數(shù)據(jù)不一致。 數(shù)據(jù)采集工作流程 z 從數(shù)據(jù)來源查詢獲取數(shù)據(jù),并按照一定的規(guī)則整理收集; z 在數(shù)據(jù)記錄中采取注明實驗條件和實驗誤差的方法給用戶提供參考; z 相關(guān)專家考察、審核相關(guān)數(shù)據(jù); z 數(shù)據(jù)由工作人員填寫原始記錄表格或原始記錄入庫; z 如果存在計量單位不一致的情況,則先進行換算單位,應(yīng)注明單位換算的情況。 對數(shù)據(jù)資源采集加工流程的約定由數(shù)據(jù)庫主要承建單位負責(zé)協(xié)商形成,并敦促各承建單位遵照實施。 數(shù)據(jù)采集和加工承擔(dān)人員應(yīng)具備以下條件:具有一定的政治素質(zhì),愛崗敬業(yè),工作認真負責(zé),細致嚴謹,熟練掌握數(shù)據(jù)采集和加工過程所需的學(xué)科領(lǐng)域知識和計算機技術(shù)。 科學(xué)數(shù)據(jù)資源加工總體要求 數(shù)據(jù)資源采集加工過程中,數(shù)據(jù)庫承建單位應(yīng)采用數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項目發(fā)布的有關(guān)標準規(guī)范,以及相關(guān)的國家標準、國際標準、學(xué)科領(lǐng)域標準規(guī)范或其應(yīng)用方案,完成對采集加工工作的組織管理、制訂數(shù)據(jù)約,規(guī)劃數(shù)據(jù)資源加工流程,并嚴格貫徹實施,保質(zhì)保量完成數(shù)據(jù)采集加工任務(wù)。 本規(guī)范是對中國科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境建設(shè)與服務(wù)項目中數(shù)據(jù)采集加工過程的指導(dǎo)性規(guī)范,適用于項目內(nèi)各類數(shù)據(jù)資源的采集、加工或更新,各數(shù)據(jù)庫主要承擔(dān)建設(shè)單位應(yīng)參照本規(guī)范建立本數(shù)據(jù)庫的實施細則。該數(shù)據(jù)集的生產(chǎn)過程和數(shù)據(jù)質(zhì)量控制措施可以被人工或計算機詳細描述、記錄,可被其他人或計算機重復(fù)操作。 延續(xù)性 對于連續(xù)采集數(shù)據(jù),數(shù)據(jù)采集加工的內(nèi)容應(yīng)在一定時間范圍內(nèi)具有較好的延續(xù)性,使數(shù)據(jù)資源建設(shè)的內(nèi)容相對保持穩(wěn)定,增加數(shù)據(jù)的時間可比性,數(shù)據(jù)資源采集加工的內(nèi)容確定應(yīng)相對慎重,不斷地增刪數(shù)據(jù)內(nèi)容對數(shù)據(jù)資源積累形成信息造成很大的負面影響。數(shù)據(jù)庫承建單位應(yīng)對數(shù)據(jù)資源采集加工過程進行策劃,以需求為導(dǎo)向,對數(shù)據(jù)采集加工工作的過程方法進行設(shè)計,確定有效和高效實現(xiàn)數(shù)據(jù)加工目標所必須的過程,以及每個過程應(yīng)該遵循的技術(shù)與規(guī)范,以及為達成數(shù)據(jù)采集加工目標所必須的過程輸入輸出規(guī)格要求。 z 如涉及圖像拍攝,一般拍攝對象的正面及側(cè)面圖像,必要時還應(yīng)拍攝細部、標題等部位的圖像。 z 提高數(shù)據(jù)的系列性,尤其是在時間和空間序列上的連續(xù)性。 數(shù)據(jù)概化 使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。 這一過程,可以是計算機自動處理、手工操作,或者是計算機與人工相結(jié)合方式進行。 ? 校對:對數(shù)據(jù)準確性、數(shù)據(jù)內(nèi)容全面性、數(shù)據(jù)著錄規(guī)范性等進行校對。 數(shù)據(jù)資源審核通過后方可正式對用戶提供服務(wù),未能通過審核的數(shù)據(jù)一般應(yīng)返回到必要的流程進行修正或重新加工。 寧可累死在路上,也不能閑死在家里!寧可去碰壁,也不能面壁。這種評價是以審核準則為依據(jù),以審核證據(jù)為前提,做出客觀的評價。這是原始數(shù)據(jù)記錄生產(chǎn)地向上級主管部門報送的數(shù)據(jù),這對于原始數(shù)值生產(chǎn)地而言是“數(shù)據(jù)成品”;而對于接受單位,特別是承擔(dān)數(shù)據(jù)歸檔、服務(wù)的數(shù)據(jù)中心而言則是“原始數(shù)據(jù)”。通常使用屬性子集選擇方法。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。 數(shù)據(jù)采集錄入的方法 z 文本數(shù)據(jù)手工填報; z 文本數(shù)據(jù)計算機手工錄入; z 二維圖像信息拍攝或計算機自動掃描; z 三維音像信息多媒體攝像制作; z 原有數(shù)據(jù)的格式轉(zhuǎn)換。本規(guī)范對下列流程的執(zhí)行順序沒有要求,但數(shù)據(jù)庫建設(shè)單位在數(shù)據(jù)資源采集整理工作指南中應(yīng)指出其采集加工過程方法的執(zhí)行順序。 z 數(shù)據(jù)采集加工的過程要求,為保證數(shù)據(jù)資源采集加工工作正常完成所必須執(zhí)行的工作過程,每個過程的目標,執(zhí)行人,設(shè)備要求,必要步驟和過程產(chǎn)出結(jié)果的要求等。作為數(shù)據(jù)產(chǎn)品,必須是經(jīng)過實質(zhì)性加工、具有智力投入的成果。但是,鼓勵根據(jù)本規(guī)范達成協(xié)議的各方,研究是否可使用這些文件的 新版本。數(shù)據(jù)集的大小在理論上是不確定的,一個簡單的數(shù)據(jù)表可以成為一個數(shù)據(jù)庫集,幾個相同類型的表也可以被成為一個數(shù)據(jù)集。數(shù)據(jù)資源建設(shè)工作應(yīng)當切實以用戶需求為導(dǎo)向,以應(yīng)用為目標,做真正用戶需要的數(shù)據(jù),而不是盲目地擴大數(shù)據(jù)內(nèi)容范圍和提升技術(shù)指標。 ? 時間范圍約定:數(shù)據(jù)集描述