【文章內(nèi)容簡介】
NEDLIB 提出了基于仿真的長期保存方法,其中主要的組成部件是仿真器說明( emulator specifications)、仿真說明解釋程序( emulator specification interpreter program)和仿真虛擬機(jī)( emulation virtual machine)。 NEDLIB 在保存機(jī)構(gòu)需求與 OAIS 間建立映射,然后將 OAIS 模型細(xì)化為DSEP, 這樣 DSEP 可以執(zhí)行 OAIS 標(biāo)準(zhǔn)。 NEDLIB 將從數(shù)字資源的選擇到最終用戶訪問的工作流分為 13 個步驟,并將這 13 個步驟映射為 OAIS 功能實體集合。 ( 3) eDepot 的 DIAS 系統(tǒng) eDepot 系統(tǒng)是一個完全自動化的、專注于長期存儲和大規(guī)模存檔的自動化系統(tǒng),是荷蘭國家圖書館針對長期保存和持久存取荷蘭電子出版物的需要而提出。 2020年 12 月 12日, 由 IBM開發(fā)的 eDepot 的核心數(shù)字信息存檔系統(tǒng) (Digital Information and Archiving System, DIAS)完成開發(fā)。 eDepot 提出需要將長期保存功能從出版物的生產(chǎn)者中分離出來,構(gòu)建大型受控存檔環(huán)境的設(shè)想,并且這一受控存檔環(huán)境還必須符合 OAIS 參考模型。在 edepot中,這一存取和維護(hù)數(shù)字對象的大型受控存檔環(huán)境就是 IBM 所開發(fā)的 DIAS 系統(tǒng)。Edepot 采用了將仿真和遷移相結(jié)合來實現(xiàn)對特定數(shù)字對象的保存,提出了統(tǒng)一虛擬計算機(jī) (UVC)的方法和在 保存系統(tǒng)中管理媒體移植的方法。 ( 4)目前國內(nèi)尚沒有一整套的完全基于 OAIS 參考模型而開發(fā)的 數(shù)字檔案管理系統(tǒng) 系統(tǒng)。 14 三、 省電力培訓(xùn) 檔案 管理 系統(tǒng)功能設(shè)計 方案 整個系統(tǒng)將由三大中心及一個門戶構(gòu)成,即:“接收中心”、“管理中心”、“利用中心”及“門戶”;以完成從信息的采集、管理、保存、利用的全過程管理。如下圖所示: 系統(tǒng) 功能模型圖 管理中心 管理中心主要是完成對已收集進(jìn)行的數(shù)據(jù)進(jìn)行各種管理操作,如生成存儲信息包( AIP),進(jìn) 行信息的整理歸類、進(jìn)行檔案數(shù)據(jù)的長期保存規(guī)劃、包括與接收中心、利用中心通過工作流管理進(jìn)行信息的審批交互等工作。 工作流管理 工作流的管理是有別于傳統(tǒng)檔案軟件的核心標(biāo)志之一,它將流程的審批工作貫穿于整個數(shù)字檔案檔案館系統(tǒng)中,在接收下屬單位數(shù)據(jù)、進(jìn)行檔案數(shù)據(jù)的鑒定、存15 儲、檔案查詢的臨時賦權(quán)、預(yù)約檔案查詢及排位管理時均需要使用此功能。它的實現(xiàn),將有助于將檔案管理從靜態(tài)管理向動態(tài)的管理發(fā)展。 長期保存規(guī)劃 通過分析國外相關(guān)的項目和實踐,并參考專家學(xué)者的研究成果,將數(shù)字資源長期保存的方 法歸納如下: ( 1)多重備份與適時遷移功能 多重備份的基本思想類似于數(shù)據(jù)庫管理中的數(shù)據(jù)備份,盡量避免因不可避免的因素而造成的數(shù)據(jù)損失。目前,各類數(shù)字資源保存系統(tǒng)多采用 Cache 技術(shù),采用分布式架構(gòu),在位于異地的多臺機(jī)器上分別緩存資源,一旦一方數(shù)據(jù)發(fā)生損失,可以迅速從其他緩存點恢復(fù)數(shù)據(jù)。 適時遷移是根據(jù)軟件、硬件的發(fā)展將數(shù)字資源遷移到不同的軟件或硬件環(huán)境下,從而保證數(shù)字資源可以在發(fā)展的環(huán)境中被識別、使用和檢索。根據(jù)遷移條件的不同,遷移可以分為 硬件遷移 、 軟件遷移 、載體遷移、格式遷移、版本遷移和訪問點遷移。 硬件 遷移主要是由于硬件更新而引起的,是將數(shù)字資源存儲到新的硬件環(huán)境下。硬件遷移往往適用于數(shù)字保存單位硬件條件升級或提高的情況。 軟件遷移 主要是由于使用的軟件發(fā)生變化而引起的,是將數(shù)字資源轉(zhuǎn)移到新的軟件環(huán)境下,以保證數(shù)字資源在新的軟件環(huán)境下的可用性。載體遷移主要是由于數(shù)字資源存儲載體的變化而引起的,是將數(shù)字資源轉(zhuǎn)移到新的載體環(huán)境下。如將以光盤為載體的數(shù)字資源保存到硬盤中。版本 遷移 主要是由于軟件更新或升級而引起的,是將數(shù)字資源轉(zhuǎn)移到新的軟件版本環(huán)境下,以保證數(shù)字資源在新的版本環(huán)境下的可用性。如將 Word6環(huán)境下的文檔 轉(zhuǎn)移到 Word2020 環(huán)境下。格式遷移是將數(shù)字資源從一種格式轉(zhuǎn)換成另外一種格式,以適應(yīng)新的環(huán)境下對數(shù)字格式的要求。如將 HTML 格式轉(zhuǎn)換成 XML格式。 訪問點遷移 是指訪問入口點的改變。如從客戶端方式改為從 WEB 瀏覽器方式。 ( 2)開放描述功能、建立元數(shù)據(jù)標(biāo)準(zhǔn) 開放描述是目前流行的一種數(shù)字資源長期保存中數(shù)據(jù)可讀性與互操作性的解決方案。所謂開放描述指信息系統(tǒng)通過計算機(jī)可識別的開放語言和規(guī)范方式來描述自己系統(tǒng)各個層次內(nèi)容。尤其是自己的數(shù)據(jù)格式、組織體系和管理機(jī)制。所形成的16 描述文件及其定義語言置于本系統(tǒng)公知位置、或遞交 公共登記系統(tǒng),第二方系統(tǒng)可以對這些描述文件進(jìn)行搜尋,按照開放語言規(guī)則進(jìn)行解析,從而使第三方系統(tǒng)能識別、理解本系統(tǒng)的格式和規(guī)則,并在此基礎(chǔ)上實現(xiàn)系統(tǒng)間的互操作。數(shù)字資源的開放描述可以將數(shù)字資源的存儲、描述、組織、傳遞方式以第三方可以獲取的形式描述,從而實現(xiàn)第三方或未來對該類資源的使用。開放描述與登記機(jī)制包括文件格式登記 、 描述登記和服務(wù)登記。 文件格式登記一般實現(xiàn)文件格式登記、格式識別、格式有效性檢查、格式轉(zhuǎn)換等功能。描述登記是對數(shù)字資源描述的一種開放性描述與注冊方式,通過該種方式第三方可以了解數(shù)字資源的具體描 述方式、方法、解析方法等內(nèi)容,從而方便地使用該資源。目前流行的描述登記有元數(shù)據(jù)登記、持久標(biāo)識符登記等。服務(wù)登記的目的是以一種開放的描述方法描述服務(wù),第三方可以通過服務(wù)注冊中心發(fā)現(xiàn)需要的服務(wù),并通過服務(wù)請求調(diào)用等方式完成服務(wù)調(diào)用,從而實現(xiàn)需要的服務(wù)。目前流行的Web 服務(wù)就是采用的這種方式,其中 UDDI 是該技術(shù)方法的統(tǒng)一描述、發(fā)現(xiàn)和集成中心,它可以完成服務(wù)的注冊、服務(wù)發(fā)現(xiàn)與服務(wù)綁定。 ( 3)模擬環(huán)境與環(huán)境封裝功能 模擬環(huán)境是在新的環(huán)境下模擬原有的數(shù)字資源保存、運行環(huán)境,實現(xiàn)在新的環(huán)境下的資源的利用,如在 Windows 環(huán)境下模擬 DOS 環(huán)境運行 DOS 程序。 環(huán)境封裝是在對數(shù)字資源進(jìn)行包裝過程中,將該數(shù)字資源所需的運行環(huán)境,如動態(tài)鏈接庫、運行環(huán)境等一起打包,從而實現(xiàn)在其它環(huán)境下運行該程序包,如在 JAVA程序中加入 J2SDK,從而保證在新的環(huán)境下的 JAVA 環(huán)境要求。 可以創(chuàng)建在原始硬件環(huán)境下運行原始數(shù)據(jù)所需軟件的軟件模擬器來完成在未來的環(huán)境中運行原始數(shù)據(jù)的工作。這種模擬原始環(huán)境的方法可以有效地解決在 數(shù)字檔案管理系統(tǒng) 中原始資源的長期保存問題。 環(huán)境封裝包括 在 XML 中 包含原始文件 、 在描述文件中包含指向軟件的鏈接 、 包含軟 件本身 三種情況。 包含軟件本身 往往是保存與數(shù)字資源有關(guān)的所有內(nèi)容,如文件本身、文件的上下文信息、文件運行的軟件、硬件環(huán)境等。 ( 4)數(shù)據(jù)恢復(fù)與數(shù)據(jù)考古 數(shù)據(jù)恢復(fù)與數(shù)據(jù)考古是從原始的字節(jié)流中恢復(fù)數(shù)字資源的原貌,并保證數(shù)字資源的 可讀性和可用性 。數(shù)據(jù)恢復(fù)包括數(shù)據(jù)災(zāi)難恢復(fù)、數(shù)據(jù)格式恢復(fù)等。數(shù)據(jù)恢復(fù)是具有技術(shù)挑戰(zhàn)性的技術(shù)方法,值得注意的是,如果已經(jīng)無法獲取數(shù)字資源的原貌,17 就無法評估數(shù)據(jù)恢復(fù)的成果。因此在正常的圖書館數(shù)字資源保存過程中,不贊成使用這種方法作為長期保存的技術(shù)方法,而應(yīng)該采用更為實際的運作方法。該方法僅在其他 長期保存方法無法發(fā)揮作用時使用。 ( 5)技術(shù)框架與整體解決方案 技術(shù)解決是數(shù)字資源長期保存的根本性方法,但單純地采用技術(shù)方法并不能解決數(shù)字資源長期保存的全部問題,因此,許多研究項目試圖從數(shù)據(jù)資源保存、管理、檢索等宏觀角度考慮數(shù)字資源的保存問題,長期保存技術(shù)方法的選擇已不局限于某一種技術(shù)方法的使用,而是從國家宏觀戰(zhàn)略角度考慮資源的長期保存問題,技術(shù)方法的選擇更加趨向綜合,并根據(jù)資源類型的不同采用不同的整體解決方案。技術(shù)與框架研究成為目前數(shù)字資源保存方法研究中的重要組成部分。 18 檔案存儲管理 對各種途徑采集到的數(shù)字檔案信息必須進(jìn)行安全有序的存儲,保證用戶隨時對數(shù)字檔案信息的有效利用,這是 數(shù)字檔案管理系統(tǒng) 建設(shè)的一個關(guān)鍵環(huán)節(jié)。 數(shù)字檔案管理系統(tǒng) 的核心是建立以檔案資料目錄數(shù)據(jù)庫為基礎(chǔ),包含其所對應(yīng)的各種類型的檔案原文數(shù)據(jù)、電子文件元數(shù)據(jù)的數(shù)據(jù)庫集合以及與之關(guān)聯(lián)的索引集合等。 各類數(shù)據(jù)庫的建立與維護(hù)管理: (1) 建立目錄數(shù)據(jù)庫。一方面要按照國家相關(guān)標(biāo)準(zhǔn)、規(guī)范和本單位制定的規(guī)定、規(guī)范建立文書檔案、科技檔案、聲像和照片檔案、實物檔案、資料等信息的目錄數(shù)據(jù)庫并進(jìn)行主題詞和分類標(biāo)引 (可自動進(jìn)行);另一方面,要建立與本單位工作和日常檔案利用工作相關(guān)的專題數(shù)據(jù)庫,如著名人物、重點工程項目檔案數(shù)據(jù)庫。 (2) 建立原文數(shù)據(jù)庫。以目錄數(shù)據(jù)庫為基礎(chǔ)和出發(fā)點,通過掃描、聲像數(shù)字化、網(wǎng)絡(luò)接收、網(wǎng)絡(luò)自動采集等多種手段建立與目錄對應(yīng)的包括靜態(tài)圖像、動態(tài)圖像、文本以及其他格式文件的多種類型的原文數(shù)據(jù)庫。 (3) 建立元數(shù)據(jù)庫。依照國家相關(guān)標(biāo)準(zhǔn)和本單位自身工作特點,建立與原文數(shù)據(jù)庫中數(shù)字化信息相對應(yīng)的元數(shù)據(jù)信息數(shù)據(jù)庫。包括數(shù)字化加工的技術(shù)背景信息、電子文件產(chǎn)生的背景信息、授權(quán)及數(shù)字簽名信息和相關(guān)軟件(分為 編輯軟件和查看軟件兩類)等。 (4) 建立索引。 數(shù)字檔案管理系統(tǒng) 所需要的信息索引分為兩類。一類是用于檔案館自身數(shù)據(jù)庫管理和查詢的正序索引,一般由計算機(jī)系統(tǒng)自動完成;另一類是根據(jù)網(wǎng)絡(luò)用戶利用信息的需要,如全文檢索、主題關(guān)聯(lián)檢索、分類關(guān)聯(lián)檢索等,而建立的倒序索引或復(fù)合索引,一般可通過人為干預(yù)隨時建立。 在本模塊中,主要實現(xiàn)以下幾大功能:數(shù)據(jù)接收功能、存儲層次管理功能、媒體替換功能、錯誤檢測功能、災(zāi)難恢復(fù)功能、提供數(shù)據(jù)功能。如下圖所示: 基于 OAIS參考模型,檔案信息的存儲管理流程及其輔助功能模型如下圖所示;具體 功能及其實現(xiàn)過程描述如下: 19 (1) Receive data(數(shù)據(jù)接收功能):數(shù)據(jù)接收功能從獲取功能接收一個存儲請求及一個 AIP 信息包并且將 AIP 信息包移至檔案中長久保存。為存儲 AIP 選擇適當(dāng)?shù)拇鎯υO(shè)備或媒體介質(zhì),傳輸請求可能需要指出由 AIP 組成的數(shù)據(jù)對象的預(yù)期利用頻率。這個功能將選擇媒體類型,準(zhǔn)備設(shè)備或卷,并且執(zhí)行物理移動至檔案存儲卷。在完成傳輸后,這個功能向 INGEST 發(fā)送存儲確認(rèn)信息。 (2) Manage Storage hierarchy(存儲層次管理 ):存儲層次管理的位置,通過命令(指令)、基于存儲管理策略的適當(dāng)?shù)拿襟w介質(zhì)上的 AIPs 的內(nèi)容、操作統(tǒng)計、或者是從 Ingest 向數(shù)據(jù)接收發(fā)送存儲請求的方向。它將遵循任何特殊級別的 AIP 必需的服務(wù),或者遵循任何特殊的安全測量,并且確保 AIP 的適當(dāng)保護(hù)級別。這些包括在線的、離線的或接近在線的存儲,必需的吞吐率、最大限度允許的 BIT 錯誤率、或者是特殊處理,或者是備份程序。它監(jiān)控錯誤日志以確保 AIP 在傳輸過程中不被破壞。這個功能采用統(tǒng)計學(xué)原理,為管理功能統(tǒng)計媒體的總?cè)萘俊?統(tǒng)計在不同存儲層次上的有效存儲容量。 (3) Replace Media(媒體替換):媒體替換功能提供對過時 AIPS 信息包的再生能力。在媒體替換功能內(nèi)部,內(nèi)容信息與保存描述信息不能被修改。然而,組成信息包的數(shù)據(jù)可能發(fā)生改變,但只要它繼續(xù)執(zhí)行相同的功能并且一直向前的執(zhí)行,那么就不會導(dǎo)致信息的丟失。移動策略必須選擇一種存儲介質(zhì),必須重視各種媒體介質(zhì)的錯誤發(fā)生率,它們的性能及價格。如果由媒體決定的屬性(例如:錄音帶的INGESTADMINISTRATIONM a n a g es t o r a g eh i e r a r c h y存 儲 管 理 層 次R e p l a c em e d i a替 換 媒 體R e c e i v eD a t a接 收 數(shù) 據(jù)P r o v i d eD a t a提 供 數(shù) 據(jù)E r r o rc h e c k i n g錯 誤 校 驗D i s a s t e rR e c o v e r y災(zāi) 難 恢 復(fù)M e d i a ( 媒 體 )B a c k u p m e d i a備 份 媒 體ACCESSS t o r a g e r e q u e s tA I PS t o r a g ec o n f i r m a t i o nA I PA I PR e q u e s tE r r o r l o g sS t o r a g em g m tp o l i c i e sA I P A I PC o m m a n d sD i s a s t e rR e c o v e r yp o l i c i e sO p e r a t i o n a ls t a t i s t i c s操 作 統(tǒng) 計A I PP o t e n t i a l e r r o rn o t i f i c a t i o nN o t i c e o fd a t at r a n s f e r存 儲 策 略潛 在 錯 誤 通