【正文】
是狼就要練好牙,是羊就要練好腿。審核指標(biāo)可以包括但不限于準(zhǔn)確性,真實性誤差等技術(shù)參數(shù),特色數(shù)據(jù)和重點數(shù)據(jù)宜適當(dāng)提高指標(biāo)。數(shù)據(jù)審核就是對數(shù)據(jù)的有效性進行合核實。 ? 錄入:按數(shù)據(jù)庫要求的格式錄入標(biāo)引后的數(shù)據(jù)。 z 2 級數(shù)據(jù):在數(shù)據(jù)中心對數(shù)據(jù)作進一步加工處理,主要是兩個方面的工作:其一是標(biāo)準(zhǔn)規(guī)范化處理,其二是數(shù)據(jù)質(zhì)量檢查與訂正,使數(shù)據(jù)真正成為可以被利用的數(shù)據(jù)。圖形、多媒體數(shù)據(jù)按照業(yè)務(wù)要求進行加工,可以和相應(yīng)的制作、轉(zhuǎn)換工作相結(jié)合。 數(shù)據(jù)加工模型和算法 數(shù)據(jù)庫承建單位應(yīng)根據(jù)基礎(chǔ)數(shù)據(jù)的類型,建立相應(yīng)的數(shù)據(jù)加工模型和算法。 聚集 對數(shù)據(jù)進行匯總和聚集。例如,知道屬性的函數(shù)依賴,可以查找違反函數(shù)依賴的值。消除數(shù)據(jù)中的一些明顯錯誤、粗差或系統(tǒng)誤差。 原始數(shù)據(jù)的保存 必要時,數(shù)據(jù)庫承建單位應(yīng)設(shè)定原始數(shù)據(jù)保存時間要求,并對數(shù)據(jù)采集得到的原始數(shù)據(jù)加以妥善保存,以備需要時復(fù)查使用。文字表達應(yīng)當(dāng)規(guī)范、簡明、正確、嚴(yán)謹(jǐn),含義清楚。 在正式展開工作之前,數(shù)據(jù)庫承建單位應(yīng)對數(shù)據(jù)資源采集加工過程進行策劃,以需求為導(dǎo)向,對數(shù)據(jù)采集加工工作的過程方法進行設(shè)計,確定為達成數(shù)據(jù)采集加工目標(biāo)所必須的過程輸入輸出規(guī)格要求。 數(shù)據(jù)資源加工流程 過程策劃 規(guī)范的采集加工業(yè)務(wù)流程是保障科學(xué)數(shù)據(jù)資源質(zhì)量 重要和關(guān)鍵的環(huán)節(jié)。 z 適用時,采集加工過程的執(zhí)行情況記錄應(yīng)包括以下內(nèi)容: z 工作時間 z 人員 z 相關(guān)的環(huán)境因素 z 設(shè)備運行情況 z 執(zhí)行情況 z 異常和處理 數(shù)據(jù)資源采集加工過程的相關(guān)信息應(yīng)填入所承建數(shù)據(jù)庫的元數(shù)據(jù)對應(yīng)元素當(dāng)中。確定數(shù)據(jù)資源采集范圍時,可以積極采用國內(nèi)和國外先進標(biāo)準(zhǔn)。有的數(shù)據(jù)雖然表達形式變化了,但由于沒有進行實質(zhì)性加工和智力投入,并未有效提高數(shù)據(jù)資源的信息量,也不能稱之為數(shù)據(jù)資源加工。 數(shù)據(jù)產(chǎn)品 數(shù)據(jù)產(chǎn)品是遵從統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,對基礎(chǔ)數(shù)據(jù)進行集成、加工、處理后生成的新的數(shù)據(jù)集。凡是不注日期的引用文件,其新版本適用于本規(guī)范。 規(guī)范性引用文件 下列規(guī)范性引用文件通過本部分的引用而成為本規(guī)范的條款。 數(shù)據(jù)集 由相關(guān)數(shù)據(jù)組成的可標(biāo)識集合。 對科學(xué)數(shù)據(jù)資源采集加工工作的要求包括多個方面,它規(guī)范人員操作,設(shè)備要求,數(shù)據(jù)采集、錄入、篩選清理、預(yù)處理、處理加工、審核與更新等流程,是科學(xué)數(shù)據(jù)資源高質(zhì)量建設(shè)的有效保障。 需求導(dǎo)向、務(wù)求實效 確定資源采集的內(nèi)容和范圍時,既要考慮數(shù)據(jù)資源單位的數(shù)據(jù)資源特點以及工作的復(fù)雜、難易程度,不能選取太多,過于復(fù)雜不便實際使用;又要充分滿足工程建設(shè)以及用戶的查詢、使用數(shù)據(jù)的需要,不能過于簡單。 文件要求 為保證所承建數(shù)據(jù)庫數(shù)據(jù)資源采集加工過程規(guī)范健壯,降低人為因素的影響,使標(biāo)準(zhǔn)的技術(shù)方法長期延續(xù)并加深項目主管單位和用戶對數(shù)據(jù)資源的了解,數(shù)據(jù)庫承建單位應(yīng)將所所承建數(shù)據(jù)庫在采集加工過程中所采取的政策措施,標(biāo)準(zhǔn)的流程、技術(shù)和方法等形成數(shù)據(jù)資源采集整理工作指南,并發(fā)布實施,同時,還應(yīng)對數(shù)據(jù)資源采集加工過程的執(zhí)行情況建立加以記錄。 數(shù)據(jù)約定是數(shù)據(jù)采集加工工作策劃的重要輸入項,數(shù)據(jù)約定的內(nèi)容中至少應(yīng)包括以下方面: z 范圍約定 根據(jù)學(xué)科領(lǐng)域和應(yīng)用特點確定數(shù)據(jù)選取范圍,保證數(shù)據(jù)完整性、準(zhǔn)確性和連貫。所擬定的各項技術(shù)與規(guī)范都應(yīng)寫入數(shù)據(jù)資源采集整理工作指南。采集的數(shù)據(jù)必須根據(jù)規(guī)定的要求,采集到所需要的全部數(shù)據(jù),并且保證數(shù)據(jù)準(zhǔn)確真實。 數(shù)據(jù)錄入 涉及數(shù)據(jù)錄入時,數(shù)據(jù)庫承建單位應(yīng)對錄入設(shè)備,錄入人以及必要的質(zhì)量控制措施等等相關(guān)信息加以記錄。 數(shù)據(jù)來源篩選的原則可以包括但不限于以下方面: z 數(shù)據(jù)生產(chǎn)者和提供者的口碑; z 數(shù)據(jù)來源的時間、空間、學(xué)科范圍符合本數(shù)據(jù)庫的使用預(yù)期; z 數(shù)據(jù)來源的數(shù)據(jù)規(guī)模滿足需求; z 數(shù)據(jù)來源使用的數(shù)據(jù)格式符合需求; z 數(shù)據(jù)來源遵循某一國際或國內(nèi)知名的數(shù)據(jù)標(biāo)準(zhǔn)建立; z 數(shù)據(jù)來源的技術(shù)指標(biāo),如準(zhǔn)確度,精確度水平等; z 數(shù)據(jù)來源的主要內(nèi)容; z 數(shù)據(jù)來源是否具有完整的元數(shù)據(jù)或相關(guān)資料描述。常用的數(shù)據(jù)清理方法包括: 空缺值的清理 z 忽略元組 z 人工填寫空缺值 z 使用一個全局常量填充空缺值 z 使用屬性的平均值填充空缺值 z 使用與給定元組屬同一類的所有樣本的平均值 z 使用 有可能的值填充空缺值 噪聲數(shù)據(jù) z 分箱 z 聚類 z 計算機和人工檢查結(jié)合 z 回歸 不一致數(shù)據(jù) 對于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。 數(shù)據(jù)變換 將數(shù)據(jù)轉(zhuǎn)換成適合使用的形式。 數(shù)據(jù)立方體聚集 聚集操作用于數(shù)據(jù)立方體中的數(shù)據(jù)。專題數(shù)據(jù)產(chǎn)品突