【正文】
應(yīng)特別注重其規(guī)范性,相關(guān)的規(guī)范包括項目規(guī)范、任何可能存在的國家標(biāo)準(zhǔn)、國際標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn)等。 適用時,數(shù)據(jù)資源采集整理工作指南應(yīng)包括以下內(nèi)容: z 數(shù)據(jù)來源說明,如資料列表,數(shù)據(jù)準(zhǔn)入原則等 z 數(shù)據(jù)約定,對擬建數(shù)據(jù)庫規(guī)格的約定,包括數(shù)據(jù)采集的文件格式,數(shù)據(jù)庫模型,指標(biāo)設(shè)置,各項指標(biāo)的定義、公式、測量方法、精度要求,以及數(shù)據(jù)采集所使用的樣表等。數(shù)據(jù)資源建設(shè)工作應(yīng)當(dāng)切實以用戶需求為導(dǎo)向,以應(yīng)用為目標(biāo),做真正用戶需要的數(shù)據(jù),而不是盲目地擴大數(shù)據(jù)內(nèi)容范圍和提升技術(shù)指標(biāo)。 數(shù)據(jù)資源加工內(nèi)涵 數(shù)據(jù)產(chǎn)品具有增值的普遍特征。數(shù)據(jù)集的大小在理論上是不確定的,一個簡單的數(shù)據(jù)表可以成為一個數(shù)據(jù)庫集,幾個相同類型的表也可以被成為一個數(shù)據(jù)集。凡是注日期的引用文件,其隨后所有的修改(不包括勘誤的內(nèi)容)或修訂版均不適用于本規(guī)范。但是,鼓勵根據(jù)本規(guī)范達(dá)成協(xié)議的各方,研究是否可使用這些文件的 新版本。 數(shù)據(jù)項 屬性數(shù)據(jù)中不可再分的 小的單元。作為數(shù)據(jù)產(chǎn)品,必須是經(jīng)過實質(zhì)性加工、具有智力投入的成果。 前瞻性、科學(xué)性 資源采集加工的內(nèi)容不但要滿足現(xiàn)階段科學(xué)數(shù)據(jù)資源的使用需求,更應(yīng)該考慮將來一定時間內(nèi)由于科技快速發(fā)展等原因可能產(chǎn)生的數(shù)據(jù)資源應(yīng)用需求,這樣建立的數(shù)據(jù)資源才會更有生命力。 z 數(shù)據(jù)采集加工的過程要求,為保證數(shù)據(jù)資源采集加工工作正常完成所必須執(zhí)行的工作過程,每個過程的目標(biāo),執(zhí)行人,設(shè)備要求,必要步驟和過程產(chǎn)出結(jié)果的要求等。其中應(yīng)特別注重涉及唯一標(biāo)示符的內(nèi)容設(shè)計應(yīng)參照《TRREC017 唯一標(biāo)識符規(guī)范》要求;涉及分類編碼的內(nèi)容設(shè)計應(yīng)參照《TRREC018 科學(xué)數(shù)據(jù)分類規(guī)范與分類詞表》的要求。本規(guī)范對下列流程的執(zhí)行順序沒有要求,但數(shù)據(jù)庫建設(shè)單位在數(shù)據(jù)資源采集整理工作指南中應(yīng)指出其采集加工過程方法的執(zhí)行順序。 數(shù)據(jù)采集錄入的技術(shù)要求 z 數(shù)據(jù)采集的內(nèi)容和各項指標(biāo)的采集方法根據(jù)事先擬定的規(guī)則進(jìn)行,力爭做到不缺不漏,其中核心指標(biāo)項必須填寫著錄。 數(shù)據(jù)采集錄入的方法 z 文本數(shù)據(jù)手工填報; z 文本數(shù)據(jù)計算機手工錄入; z 二維圖像信息拍攝或計算機自動掃描; z 三維音像信息多媒體攝像制作; z 原有數(shù)據(jù)的格式轉(zhuǎn)換。 數(shù)據(jù)處理的主要目的在于 z 減少誤差。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。這種技術(shù)包括分箱、聚類和回歸。通常使用屬性子集選擇方法。數(shù)據(jù)按要求,開發(fā)處理系統(tǒng),進(jìn)行加工處理,產(chǎn)生需要的數(shù)據(jù)、報表等。這是原始數(shù)據(jù)記錄生產(chǎn)地向上級主管部門報送的數(shù)據(jù),這對于原始數(shù)值生產(chǎn)地而言是“數(shù)據(jù)成品”;而對于接受單位,特別是承擔(dān)數(shù)據(jù)歸檔、服務(wù)的數(shù)據(jù)中心而言則是“原始數(shù)據(jù)”。 ? 標(biāo)引:分類標(biāo)引和主題標(biāo)引。這種評價是以審核準(zhǔn)則為依據(jù),以審核證據(jù)為前提,做出客觀的評價。審核指標(biāo)的設(shè)置應(yīng)在符合實際的前提下盡可能不應(yīng)與當(dāng)前國際領(lǐng)先水平有太大差距。 寧可累死在路上,也不能閑死在家里!寧可去碰壁,也不能面壁。什么是奮斗?奮斗就是每天很難,可一年一年卻越來越容易。 數(shù)據(jù)資源審核通過后方可正式對用戶提供服務(wù),未能通過審核的數(shù)據(jù)一般應(yīng)返回到必要的流程進(jìn)行修正或重新加工。 數(shù)據(jù)審核的目標(biāo)是確保數(shù)據(jù)內(nèi)容與被描述對象相一致,并且質(zhì)量符合數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)要求。 ? 校對:對數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)內(nèi)容全面性、數(shù)據(jù)著錄規(guī)范性等進(jìn)行校對。 z 3 級數(shù)據(jù):在 2 級數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步深加工而形成的科學(xué)數(shù)據(jù)產(chǎn)品。 這一過程,可以是計算機自動處理、手工操作,或者是計算機與人工相結(jié)合方式進(jìn)行。例如,針對屬性數(shù)據(jù)加工的要求,建立屬性數(shù)據(jù)加工模型和算法;針對柵格數(shù)據(jù)加工的要求,建立柵格數(shù)據(jù)加工模型和算法;針對矢量數(shù)據(jù)加工的要求,建立矢量數(shù)據(jù)加工模型和算法。 數(shù)據(jù)概化 使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。 數(shù)據(jù)集成 數(shù)據(jù)集成用于將來自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲。 z 提高數(shù)據(jù)的系列性,尤其是在時間和空間序列上的連續(xù)性。 如有必要,數(shù)據(jù)上交時應(yīng)附帶原始記錄及相關(guān)數(shù)據(jù)。 z 如涉及圖像拍攝,一般拍攝對象的正面及側(cè)面圖像,必要時還應(yīng)拍攝細(xì)部、標(biāo)題等部位的圖像。策劃結(jié)果應(yīng)該能支持?jǐn)?shù)據(jù)采集加工工作有效和高效的實現(xiàn)。數(shù)據(jù)庫承建單位應(yīng)對數(shù)據(jù)資源采集加工過程進(jìn)行策劃,以需求為導(dǎo)向,對數(shù)據(jù)采集加工工作的過程方法進(jìn)行設(shè)計,確定有效和高效實現(xiàn)數(shù)據(jù)加工目標(biāo)所必須的過程,以及每個過程應(yīng)該遵循的技術(shù)與規(guī)范,以及為達(dá)成數(shù)據(jù)采集加工目標(biāo)所必須的過程輸入輸出規(guī)格要求。關(guān)于數(shù)據(jù)庫核心元數(shù)據(jù)的更加詳細(xì)規(guī)定參照《TRREC014 科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn)》要求執(zhí)行。 延續(xù)性 對于連續(xù)采集