【正文】
[35]Vaknin S. Interview with Michael Hart. 20020527 [EB/OL]. , last updated 20021018 [36] Vaknin S. Project Gutenberg’Anabasis [EB/OL]. ,posted 20040324 [32]Hein K K. Introduction to Information Technology [EB/OL]. h ttp://~heink/7301fs2004/ebooks/, acc essed 20040912 [33]Joyce M. Afternoon, a Story. Hypertext edition ed[M]. Cambridg e(MA): Eastgate Systems Inc., 1987 [26] Bush V. As We May Think[A]. The Atlantic Monthly. July 1945: 101108 ?。?7] Zachary G P. The Endless Frontier, a Biography of Vannevar Bush [EB/OL].,accessed 20040912 [22]Garfield E. Chemical Information as a Commercial Marketplace[A] . In:Collier, H R., ed. Proceedings of the Montreux 1989 Internationa l Chemical Information Conference[C]. Montreux(Switzerland): Infonor tics Ltd., 1989. 111 ?。?3] Luhn, H P. A Business Intelligence System[J]. IBM Journal of Research and Development, 1958, 2( 2):159165 [19]Williams R V. Chronology of Information Science and Technology[ EB/OL]. Revised Spring, 2002., accessed 20040912 公益性的文化出版事業(yè)依靠和推廣這種工作模式,將使人類一切有價值的文化知識遺產(chǎn)永遠得以流傳,為世世代代的讀者共享,再也不會因出版商無利可圖而絕版導(dǎo)致最后湮滅。哈特在網(wǎng)絡(luò)環(huán)境下創(chuàng)造了一種全新的知識產(chǎn)品傳播模式:把編輯、出版、發(fā)行機構(gòu)和圖書館融為一體,全球的志愿者都可以參與它的工作,它的數(shù)字化知識產(chǎn)品全部免費向世界各國讀者提供,這是電子書籍編輯、出版、發(fā)行一體化和全球化的新模式,向國際出版界提供了一個從 “有限發(fā)行”(limited distribution)轉(zhuǎn)向“無限發(fā)行”(unlimited distri bution)的范例。像《四庫全書》電子版只用一張DVD光盤就能全部容納,如果以人民幣10元的成本價無限量發(fā)行,便可真正進入尋常百姓家。這種圖書館是可以隨身攜帶的,1萬種電子書錄載在標準的可錄寫DVD光盤上,重量不到1盎司,新出的DVD盤片1公斤可容納電子書100萬種。作為補償,受贈人或受贈單位可向基金會捐贈接納處(:// .)捐點錢,1—5000美元的小額捐款對谷登堡計劃都是至關(guān)重要的。該處由志愿者在家中刻錄好用普通包裹按所指定的地址寄去。訪問谷登堡計劃DVD下載網(wǎng)站(DVD download directory on .)可把萬種PG電子書下載于1張D VD。紐比(Gregory Newby)2003年12月10日在舊金山金門俱樂部舉行招待會報告工作,向各個與會者贈送了載有精選PG電子書近3500種的 CD和載有PG電子書近萬種的DVD光盤各一張。據(jù)說PG總部直接監(jiān)控的一個鏡像站點每月被下載的電子書高達100萬種次。多處存放比集中存放好,一處文件被損毀或消失,從他處仍可以得到。(5)發(fā)行 PG的使命可簡單概括為一句話:“鼓勵創(chuàng)制和發(fā)行電子書”。有些舊文件升級為HTML文件后重新編號發(fā)布,舊文件仍保存,可以查閱。PG索引編制者可在這個基礎(chǔ)上增加一些可供檢索的項目,如作者生卒時間、美國國會圖書館分類號等。宣告新書發(fā)布的手段是以電子郵件把新書目錄增添進PG總書目索引《》,PG志愿者、讀者和提供鏈接PG電子書服務(wù)的其他網(wǎng)站通過這個總書目索引可以了解新書發(fā)布情況,從上述兩個服務(wù)器下載所需文件。校正差錯是永遠說不完的故事,PG的目標是通過不斷修正再版,在不久的將來使差錯趨于零。據(jù)稱,PG電子書的大多數(shù)的質(zhì)量高于全世界商業(yè)性出版企業(yè)出的電子書。繁體中文除用Big5碼外,還用中國內(nèi)地和港澳臺WIN2000用戶都能讀取的Unicode UTF8碼,編碼在逐步升級?!墩撜Z》中英對照本于2001年11月25日首發(fā),編號為[Et ext 4094],2003年5月出第10版,最近一次更新日期為2004年8月27日??_爾的《愛麗絲漫游奇境記》在1991年1月1日首發(fā),現(xiàn)在已出至第30版,最近一次更新日期為2004年1月10日。 PG電子書在正式出版前一個月先出試用本,征求意見,以便改正差錯,編得更好。其他單位轉(zhuǎn)載時也要求加上這樣的識別標志。發(fā)布組收到送來發(fā)布的電子書三四天內(nèi)給予答復(fù):已發(fā),或提出修改意見。完全齊清定、各個方面都無問題的電子書通過標準檢查程序至少需要15分鐘,存在少量問題須幫助解決的需要費幾個小時,平均1個小時?!癵utcheck”檢查通用校對軟件不檢查的問題,主要檢查體例規(guī)格是否符合PG的規(guī)定。發(fā)布組檢查的范圍從簡單的拼寫是否正確到所用的XML格式是否有效等等,凡是容易出錯的環(huán)節(jié)無所不包。其任務(wù)是檢查版權(quán)問題是否已經(jīng)解決,文字質(zhì)量和技術(shù)規(guī)格是否符合要求,格式是否需要轉(zhuǎn)換和增加,然后給文本編號,送入FTP(文本傳輸協(xié)議)服務(wù)器供發(fā)行。 (4)發(fā)布 發(fā)布(posting,也譯“發(fā)貼”)是電子書生產(chǎn)過程的最后階段。 后處理檢查(PPV)是后處理的第二道工序,由熟練的后處理者負責,檢查經(jīng)過后處理的電子文本可能存在的大大小小的差錯,提出修正意見。 后處理工作可以由項目經(jīng)理自己做,也可以由別的志愿者做。 (3) 后處理 每種書完成二校后進入后處理(postprocessing)階段,全書校樣被制成壓縮文件,下載到后處理頁。 校對網(wǎng)站設(shè)項目經(jīng)理,一種書立項后被列入項目經(jīng)理的網(wǎng)頁。據(jù)2004年11月25日公布的數(shù)字,校對分配網(wǎng)用戶總數(shù)為28534人。一本中等篇幅的書初校幾個小時,二校要5—30小時,以10—15小時為常見。經(jīng)過初校的校樣存儲在PG數(shù)據(jù)庫隨即安排二校。做完一頁存入自己的文檔,并通過同一網(wǎng)頁發(fā)回網(wǎng)站,或者要求再校一頁或者當天到此為止。通常的做法是一個志愿者一次校一頁。網(wǎng)站任務(wù)在名義上是分配校對工作,實際上要做大量的編輯加工工作,只是在工作程序上先校對,使電子文本內(nèi)容符合原著,在這個基礎(chǔ)再進行編輯加工,或邊校對邊加工,校和編往往是合一的。志愿者查看網(wǎng)站的“工作進度表”(In Progress List),根據(jù)自己的愛好和專長選擇一種電子書試校幾頁(2004年11 月25日等待初校的英文書有885種、非英文書176種),熟悉工作程序,看自己是否有興趣繼續(xù)進行下去。此外,在2004年1月還成立了“ 歐洲校對分配網(wǎng)”(),該網(wǎng)站有能力處理多字節(jié)的Unic ode UTF8碼,也校對英文書,但工作重點是西歐和東歐其他文字的電子書。原著包含大量加符字母而去掉附加符號會降低質(zhì)量時,要求制作者至少提供一種能保存原著全部內(nèi)容的電子稿(比如用IS O8859系列的國際標準或Unicode統(tǒng)一碼制作的文本文件),最好再加一種去掉字母附加符號的純ASCII文件。制作者也可以自己進行初步的校對和加工,然后再發(fā)去。選定的書逐頁以圖像格式掃描進計算機,轉(zhuǎn)換成一幅幅位圖圖像,再用OCR(光學字符識別)軟件對該位圖進行分析,將字符形狀加以區(qū)分和識別,轉(zhuǎn)換成可以在字處理器中進加工的文本文件,再用人工進行查錯和更正。如果原著字跡已模糊不清,必須打字錄入;一般的書也是打字錄入的效果最好,但速度較慢。在版權(quán)保護期限內(nèi)的書籍如果得到版權(quán)持有人授權(quán)也接受出版,這類書籍只占一小部分。志愿者要得到核準(表示OK)的正式答復(fù)后,方可開始制作。據(jù)說PG依據(jù)的底本99%以上都有差錯,因此過去出版的書凡是有多種版本的都要參考利用,不以一種為準。報刊在1923年以前發(fā)表的文章也可選,但不能太短,短文可編成專題文選。PG總部沒有入選圖書總目可供志愿者選擇,由志愿者根據(jù)個人的愛好和判斷選擇有傳世價值的書出電子版。 ?。?)選書和制作電子文本 任何人愿意為谷登堡計劃做工作便是志愿者,無須辦理申請登記和審批手續(xù)。西方的拼音文字總的說來字符數(shù)少,使用一個字節(jié)存儲一個字符的單字節(jié)字符集;中文的字符數(shù)量多,則要使用多字節(jié)字符集。法文、德文、西班牙文、荷蘭文等使用加符拉丁字母,適用ISO 8859 1(又稱Latin1)。如果文本有加符拉丁字母或希臘字母等,則須用8位的擴展字符集,如ISO 8859系列的國際標準之一種。這些字符一般英文鍵盤以及世界上幾乎任何類型計算機的鍵盤上都有,用 ASCII字符寫成的純文本任何電郵都能全部傳送,計算機屏幕和網(wǎng)頁都能清楚地顯示,不會出現(xiàn)亂碼。這套標準碼是國際通用的,共有128個字符,包括大小寫拉丁字母、阿拉伯數(shù)字、一些標點符號和#、amp。 谷登堡計劃的電子書使用多種格式,以純7位ASCII文本(txt files)及其壓縮文本 (zip files)為首選的和最基本的格式,目的是使所出的電子書能為最廣大的計算機用戶完整地讀取。新出的中文本書名加帶聲調(diào)符號的漢語拼音。出版較早的有《孫子兵法》英譯本(譯者為大英博物館漢學家Lionel Giles,1910年初版),有長篇序言和評注,1994年5月1日上網(wǎng),編號為[Etext 132];中文版于2004年5月 22日首發(fā),編號為[Ebook 12407],用Big5碼。 PG所出電子書以英語的為主,其他語種的逐漸增多。薩姆出第一個5000種用了30年,出第二個5000種不到30個月,從1994年到2003年10年間出版種數(shù)增長約10倍。 芬奇筆記》英文本。2002年每月200種。2000年每月36種。1994年每月8種,1995年每月16種,1996年和1997年每月32種,1997年底出到第1000種,為但丁《神曲》意文本。1992年每月2種。隨著實施計劃的組織系統(tǒng)的建立和發(fā)展,信息技術(shù)的進步(如可以用掃描軟件掃描代替打字把文件錄入計算機,80年代使用個人計算機可以在家里工作),編校規(guī)章制度的完善,出版進度逐步加速。在80 年代與志愿者合作用掃描代替打字把整部《國王詹姆斯欽定本〈圣經(jīng)〉》錄入計算機,于1989年8月1日推出,用了近20年時間才出10種,起初有人以為難以為繼。繼《獨立宣言》之后是《人權(quán)法案》和《美國憲法》等,第9種為1979年12月1日發(fā)布的《阿伯拉罕哈特是谷登堡計劃執(zhí)行主任,負責整個計劃執(zhí)行的協(xié)調(diào)工作。谷登堡計劃是依靠志愿者支持和讀者捐贈維持的,谷登堡計劃文獻典藏基金會(PGLAF)已作為慈善組織在聯(lián)邦政府注冊登記,可以接受捐贈,包括硬件、軟件和捐款。本尼迪克坦學院現(xiàn)為本尼迪克坦大學(Benedictine Un iversity)??藢帲⊿am Vaknin)采訪時表示:“1500—1550年用谷登堡印刷術(shù)印行的書籍超過以前歷史上出的書籍的總和,我希望電子書也能這樣”[35]。哈特以歐洲活字印刷術(shù)發(fā)明人谷登堡的名字為他的傳播人類精神財富的計劃命名,稱為“谷登堡計劃”(Proj ect Gutenberg,簡稱PG,也可以譯“谷登堡工程”)。他開始考慮如何把世界各國已進入公共領(lǐng)域(即無版權(quán)或版權(quán)超過保護期)的古典作品及其他有重要歷史意義的文獻由印刷本變成電子文本在網(wǎng)上傳播,把傳統(tǒng)的圖書館搬到網(wǎng)上,使世界任何地方的終端用戶都可以自由讀取或下載。哈特(Michael Hart )因為幫助學校計算機中心設(shè)在資料研究實驗室的施樂Sigma V主機的操作員作了許多工作,成為他們的好朋友,被贈與上機時間價值一億美元的賬號,可以用來做任何事情。 谷登堡計劃:電子書籍編輯出版發(fā)行全球化和一體化的新模式 通過計算機網(wǎng)絡(luò)向公眾免費提供電子書籍的計劃是1971年從美國伊利諾伊大學開始的。它們免費推出和隨后不斷升級的電子書閱讀軟件和版權(quán)保護軟件各有所長。目前多數(shù)讀者仍然是通過個人計算機來瀏覽電子書。第一步工作成果是制定《開放性電子書出版結(jié)構(gòu)》(Open Ebook Publication Structure),對數(shù)字化圖書格式如何兼容和標準化作出規(guī)定,;,增添了數(shù)字化作品版權(quán)保護的內(nèi)容。電子期刊出版業(yè)早已聯(lián)合開發(fā)出共同的標準。迪特利亞的統(tǒng)計,專用電子書閱讀器到2000年夏季已達2萬種左右[34]。為了顯示特色和保護版權(quán),不同廠商開發(fā)的電子書采用自己設(shè)計的格式和自己獨有加密方式,各種閱讀器因內(nèi)碼不統(tǒng)一而不能兼容(如采用“軟書”格式的電子文本,不能下載于“火箭電子書” 閱讀器)。正如縮微讀物閱讀器不是縮微讀物一樣,僅僅是電子書閱讀器,如果不含有可供讀取的內(nèi)容,是不能稱為電子書的。 人們