freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

古籍?dāng)?shù)字化技術(shù)(2)(已修改)

2025-01-30 17:27 本頁面
 

【正文】 第六章 古籍?dāng)?shù)字化技術(shù) 古籍?dāng)?shù)字化實踐 ? 合理目標定位 – 古籍?dāng)?shù)字化能否成功,合理的目標定位至關(guān)重要。 – 對于以文字為主的中國古籍來說,它的數(shù)字化絕不是紙張載體版本的翻版。掃描是必要的,但掃描在很多情況下只是數(shù)字化的預(yù)處理。 – 把古籍的內(nèi)容數(shù)字化并使之與多種有效的檢索、處理工具完美結(jié)合,奉獻給讀者知識寶庫和卓有成效的研究手段,使學(xué)者多出成果,快出成果,這才是古籍?dāng)?shù)字化的目標。 – 還有一點不可忽視的是,古籍?dāng)?shù)字化后的文字,差錯率應(yīng)達到出版界規(guī)定。 古籍?dāng)?shù)字化處理流程與體系結(jié)構(gòu) 古籍?dāng)?shù)字化處理流程與體系結(jié)構(gòu) 體系結(jié)構(gòu): 一個基本的古籍?dāng)?shù)字化系統(tǒng)至少包括兩個子系統(tǒng):數(shù)字化子系統(tǒng)和檢索瀏覽子系統(tǒng)。 數(shù)字化工具 ? ( 1)國際標準 ISO/IEC 10646( GB 13000/Unicode)是古籍?dāng)?shù)字化的適用文字平臺 – 國際標準 ISO/IEC 10646的全稱是:信息技術(shù) 通用多八位編碼字符集( Information technologyUniversal MultipleOctet Coded Character Set)。在 IT界另一通俗稱呼為 Unicode。 – 目前已商品化字符集: ISO/IEC 10646 1:2022/Unicode 。 – 其中 包括漢字 27484個 。用戶區(qū)( EUDC)漢字 5000余個,共計32022余漢字,已成功用于 《 四庫全書 》 、 《 四部叢刊 》 等古籍?dāng)?shù)字化,但不包括小學(xué)類字書用字。 – 2022年 11月正式頒布: ISO/IEC 106462:2022( E) /Unicode ,收入漢字七萬余個,除甲骨文、篆文外,可滿足世界各地漢字使用需要。 數(shù)字化工具 ? ( 2)采用 OCR技術(shù),實現(xiàn)圖文數(shù)碼轉(zhuǎn)換 ? 所以選用 OCR技術(shù)實現(xiàn)古籍文字的數(shù)碼轉(zhuǎn)換,其原因是: – 對古籍漢字中簡繁、異體字的輸入, OCR較之人工錄入有優(yōu)勢(十選識別率可以達到 99%,其中的 90%可以正確識別,另外的 9%可以通過點擊而不是鍵盤輸入解決)。因此數(shù)據(jù)加工人員不需再做大量的古籍文字手工錄入工作,重點轉(zhuǎn)向文字校對工作。 – 通過 OCR可以建立圖 文之間形影不離的一一對應(yīng)關(guān)系,便于實現(xiàn)高效率高質(zhì)量的電腦輔助校對。 – 有成規(guī)模的加工批量。即使初期在 OCR前后處理的軟件研發(fā)中要有一定投入,但效率與質(zhì)量總的效果比人工錄入好。 數(shù)字化工具 ? ( 3) 用軟件工具輔助人工校對 ? 校對作業(yè)一般是在網(wǎng)絡(luò)環(huán)境下在屏幕上進行的。 – 提供的是將古籍原稿的電子圖像與數(shù)碼化的文字對照比較,使校對工作無紙化。其中有頁(原稿圖像)對頁(數(shù)碼)、列 /行(原稿圖像)對列/行(數(shù)碼)、字(取自不同頁的原稿圖像)對字(取自不同數(shù)碼頁)的形影不離的校對方式,并輔以聯(lián)機異體字字典,有效地減少了校對者的視覺轉(zhuǎn)移,便利于版面與文字查錯,提高工作效率,減少疏漏。同時還提供橫向的聚類校對,即把不同頁處的同一圖像文字取出,看其轉(zhuǎn)換的代碼文字是否正確。 ? 為了給總校人員提供有效校對工具,還用數(shù)理統(tǒng)計的方法,根據(jù)文字識別可信度的統(tǒng)計結(jié)果,將易產(chǎn)生差錯的字重點提示,將不易產(chǎn)生差錯的字隱蔽淡化,使總校工作突出了重點,不僅提高了工作效率,而且使差錯率達到低于國家出版行業(yè)萬分之一的指標。 數(shù)字化工具 ? ( 4)采用 XML作為文獻內(nèi)容的標識語言 ? XML( Extensible Markup Language)即可擴展標記語言,
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1