“為什么檔案工作者不數字化所有的文件記錄呢?”作為檔案工作者,我們很樂于回答這些疑問。因為這類問題既向我們展現了人們對檔案記錄的渴求,同時,也表明人們已經意識到并不是所有的文件記錄都被數字化了。
實際上,檔案工作者和圖書館管理員是互聯網上已有的大量原始文獻的幕后加工者。從珍貴典籍到官方文件,從日記到音頻記錄,這些數字化后的原始文獻在向公眾訴說:過去將會告知我們現在和未來的故事。與此同時,非營利性組織和商業性組織均將文件資料的數字化作為工作主要任務,這種舉措提高了社會大眾獲取歷史文獻資源的期望值。
我們希望和公眾分享有關珍貴文獻資料數字化工作的幕后情況,提高社會公眾對檔案數字化共享的了解和認識。首先,要了解檔案工作者為什么要開展文件數字化工作。
如果當該份文件即將面臨無法使用的危險時,比如,一份紙質地圖變成碎片,一份信件褪色到模糊不清,又或者一盤磁帶變脆或無法播放。在這種情況下,數字化工作將生成這些文件記錄的電子圖像,并保存從文件記錄中所收集到的信息。但這并不是說將克隆出原始文件,而是會產生一個數字化的原件“代替品”,僅從某個角度上說,可將其視為原始文件。
檔案工作者常說,大規模的數字化工作各種成本高昂。人們也會對此感到質疑,畢竟,給你高中時期的年鑒拍張照片并分享到微博上,或者對一些舊的明信片進行掃描并上傳至博客是很容易的。
在從事文件檔案數字化工作時我們主要關注兩類檔案文件記錄:紙質文件和照片。面對的挑戰主要為:涉及材料本身的復雜性以及數字化過程本身。所有這些表明,機構內部大規模數字化工作不同于普通家庭的簡單掃描操作。另外,諸如老式音頻記錄、電影膠片等模擬媒體的數字化工作所面臨的挑戰更加緊迫(無法找到播放設備等原因)。
檔案館保存有大量檔案資源。即使是一個中等規模的檔案機構,在衡量其檔案庫存時也是以公里為單位。檔案架上的每個盒子可以容納700到1800張紙不等,甚至可容納更多照片、底片和幻燈片。即使是一個很小的檔案全宗的數字化工作也是一項不輕松的任務。
大部分檔案案卷并不易被快速的掃描。掃描一疊紙的最快方式是使用自動進紙器,但是自動進紙器只能處理大小尺寸一樣的紙張。這種快速處理方式可能有卡紙的風險。
對于獨一無二的檔案文件而言,手工掃描是最負責任的選擇。針對每一件要掃描的檔案,從去除訂書針到定位需數字化的內容,再到圖像處理、錄入元數據,有很多步驟。有時掃描每個檔案盒上的記錄可能都需要花上幾天時間。
這個存有相互關聯的政府文件記錄的獨立卷宗中包含了各種大小、形狀和格式的文件記錄。這種多樣性使文件的數字化變得更具挑戰性。
針對不同尺寸和規格的檔案案卷,不斷調整掃描參數會增加更多數字化工作的時間。如果需要數字化的檔案幅面十分大,可能還需要將單獨掃描的部分拼接在一起。
有時,檔案館會選擇用拍攝照片代替掃描,這樣就需要一個專業的照相設備,包括外部閃光燈、不同鏡頭等。另外,那些已經損壞、褶皺、粗糙或反光的檔案也需要熟練的處理。
掃描并不會生成一份檔案的精確副本,而只是復原該份檔案的某些內容。數字化過程還會產生元數據。為使計算機系統能夠理解和檢索文件集,對其進行描述性工作是必要的。沒有此項工作,數字化工作產生的文件不過是成千上萬份未分類的無用文件。
因為數字化工作牽扯大量時間和資源的投入,我們必須確保所做的選擇是正確的,這也意味著我們要將數字化處理的過程納入質量控制檢查之中。
數字化工作的成果受到掃描分辨率、攝影技巧、錄入準確性等一系列因素影響。作為檔案工作者,我們有責任確保人們獲得可靠、真實的文件記錄。
人們誤以為,信息一旦以數字形式被捕獲,將會自動地被長期保存下來。而事實上并非如此。因此,這意味著檔案工作者還要對數字化產生的文件進行定期維護。
數字文件被認為具有非實體性、不受腐蝕的特點。然而,數字文件也具有實體狀態,同時與自身所模擬的對象一樣,將經歷劣化和失真的過程。數字化數據的實質是數以百萬計的磁荷或電荷。亞原子水平的微小偏移足以引發一連串的錯誤。即使是不在驅動器上使用的數據也會隨著時間的推移而隨機劣化。
除了數據劣化的問題,檔案工作者還必須思考當前文件格式在未來的可讀取性問題。如果在軟硬件設施過時的情況下,沒人能順利打開文件,那么進行大規模的數字化工作將變得沒有意義。
因此,檔案工作者站在數字持久性的前端。他們正在研制通用的文件格式標準,并對數字化數據定期更新、遷移、備份。順便說一句,實際上硬盤或閃存驅動器的平均使用壽命無法與存儲在最佳環境下的紙張壽命相提并論。
數字化工作的開展依賴于大量技術設備和人力的投入。一些大型檔案館保留了由專業人員組成的數字化團隊。較小機構的文件數字化工作往往是在合作伙伴的資助下分散進行的。
檔案工作者在將一組檔案完成數字化后,如實現在互聯網上共享,需要參照一個規范的流程。
首先,檔案工作者必須確保擁有第一時間自由分享這些檔案文件的權限。如一些檔案文件的捐贈者并不希望某些內容在特定時間內被公眾獲??;健在公民的敏感性信息可能會隱藏于個人檔案中;檔案文件中涉及一些知識產權也可能被禁止廣泛分享。
毫無疑問的是,在開展數字化工作之前,我們通常會對檔案案卷進行評估,以確定其是否為合格的檔案數字化和共享的“候選者”。這個評估的過程本身也需要時間,這導致數字化工作在時間和資源上的投資變得更大了。
希望通過上述介紹,大家能了解到檔案工作者正有條不紊地開展數字化項目的實際情況,以及為什么我們永遠不能將所有檔案文件都數字化。數字化工作本身就是一個不斷發展的過程,實現檔案的訪問與獲取,傳播檔案知識和信息才是數字化的最重要的目的。
作者:澳大利亞皮爾地區檔案館
李子林 王 存 孔祥盛 陳 潔 編譯
原載于《中國檔案報》2017年7月17日 總第3093期 第三版