书城社科档案信息检索
8362000000044

第44章 档案馆计算机检索工作建设

一、档案馆计算机检索建设现状

(一)国外档案馆计算机检索介绍

1.美国

美国国家档案馆(THENATIONALARCHIVESANDRECORDSADMINISTRATION,简称NARA)主页包括内部体系、馆藏特色、服务功能、历史沿革及使用导向,网络用户可以通过互联网充分利用存放在美国国家档案馆里的5000多万份历史记录。为了方便用户的检索,NARA开发了一系列基于网络的数据库,有检索NARA电子文件的档案数据库检索系统(ACCESSTO ARCHIVALDATABASES,简称AAD)、检索 NARA 非电子文件的档案研究目录系统(ARCHIVALRESEACH CATALOG,简称 ARC)、检索缩微资料的缩微出版物检索系统(MICROFILM PUBLICATIONSSEARCH)、肯尼迪总统暗杀记录收藏参考系统(THEPRESIDENTJOHN F-KENNEDYASSASSINATIONRECORDSCOLLECTIONREFERENCESYSTEM)和国家档案馆图书馆目录(NARA LIBRARYCATALOG)等。

美国国家档案馆档案数据库(AAD)是为了实现NARA的任务,即为公众提供对重要证据的便捷获取而开发的,是在美国“电子文件档案馆项目”(ELECTRONICRECORDSARCHIVESPROGRAM)的支持下发展起来的第一个公开的可利用的应用系统,旨在解决以电子形式日益增长的政府文件的保管问题。AAD主要用于检索NARA所保管的电子文件,它对档案实体采用现代数字技术进行具体描述(动感摄影、三维图片处理),并辅以影像背景、语言文字和音乐等方式对其进行抽象呈现,为需要这些资源的用户提供基于网络的直接访问或调用。用户在浏览器地址输入 AAD的网址后,即可进入 AAD的检索页面。利用AAD,用户可以在线检索经过选择的20多个美国联邦机构所产生的近5000万份涵盖多个主题范围的历史上的电子文件,检索用户所需要的含有特殊信息的文件。AAD帮助用户更好地理解文件的重要背景信息,包括代码列表、NARA的档案工作者所提供的说明性注释,以及一些类别和文件的相关文献。

美国国家档案馆的档案检索系统———ARC,于2002年10月正式推出。ARC的前身是“美国国家档案馆信息检索系统”,其全称为“NARAARCHIVAL LNFORMATIONLOCATOR”。与NARA相比,ARC检索系统不仅增强了原有的关键词检索功能,而且还在系统中新增了档案专名索引,从而大大增强了系统的检索功能。

所谓专名索引,在这里注意要区分的是,它不是指计算机数据库内部所建的索引,专名索引是指一种能够显示于计算机界面,将档案材料中的专有名词(如机构名、人名和地名)作为索引的检索词,按字母顺序排列,为用户提供从专名途径浏览检索档案的一种索引。其基本原理和基本形式与传统手工检索工具中的档案索引相同,但是计算机中的专名索引的功能却远比手工检索工具中的专名索引强大得多。美国国家档案馆ARC检索系统的专名索引主要分为机构名索引和人名索引两类。例如,“ABC电视广播公司”还有两个名称分别是款目“ABC电视台”和款目“ABC—TV”,虽然在索引中都将这三个名称作为索引款目词列出,但两个款目的索引款目词通过参照指向了“ABC电视广播公司”这一规范词,从而使关于“ABC电视台”、“ABC—TV”的档案材料都被集中在了“ABC电视广播公司”这个规范词下,使用户不但免去了分散多头查找的麻烦,而且无论用这三个机构名中的哪一个都可以快速准确地检索到关于该机构的所有档案材料。

2.加拿大

加拿大在1996年的“档案信息高速公路”圆桌会议上提出了建立“加拿大档案信息网络”(CAIN)计划,以其原有的3个省级档案信息网络为基础,通过创建自动化联机检索工具对国家档案馆所建立的数据库及自动化系统中的大量信息进行检索,并与国内现存的所有分散性档案信息网站联网,实现全国范围内的档案信息资源共享。加拿大国家档案馆的网站栏目有在线研究工具、公众服务、政府服务、出版物、展览、加拿大国家图书馆等。借助于“档案网”,用户可以从加拿大国家档案馆的各种数据库及自动系统中查找各类档案信息;借助于“公众服务”栏目可以了解档案咨询、复制、借阅等方面的规定与限制信息,并进行家谱研究、军事档案、其他历史题材档案等的发掘。加拿大已基本上实现了国内所有档案信息资源的网络共享。

3.英国

英国公共档案馆是国际档案界较早启动电子计算机档案检索系统的国家档案馆之一,也是较早开展电子文件管理研究和在国际互联网上开通自己主页的档案馆之一。1996年开始启动的“AD2001”工程,其主要任务就是在研究接收进馆电子文件保管、检索等技术方法的基础上,力争至2001年将所有馆藏档案的目录等检索工具全部输入计算机并与因特网相连,实现档案的远程在线检索,政府各部门以及远至天涯海角的研究人员不必走进档案馆即可查找需要借阅的档案。为了实现这一宏伟目标,他们给自己制定了一个三阶段实施计划:第一步主要提供查找工具,第二步开发远程预约调卷查档功能,第三步最终实现档案以数字图像形式直接上网。

4.欧盟

欧盟档案界也积极开展跨国协作,并将其作为专业发展的新方法,共同为欧盟档案共享网络(简称EUAN)的建立而努力。欧盟的EUAN计划采取联机目录方式进行档案信息一体化网络的组织与实现,即国家档案馆作为全国档案联机目录中心,根据标准的著录规则和数据交换格式,对入网档案馆和文献信息机构提供的档案信息进行统一编目,通过网络将档案目录数据进行实时传送和交换,形成逻辑上的目录库,并按地区、类型或载体对这些目录进行组织,供网上所有用户查询使用。目前已有多名成员加入了该网络,包括瑞典国家档案馆网络、苏格兰国家档案馆网络、意大利国家档案馆网络、世界社会历史学会网络等,其中,瑞典国家档案馆网站为总网管。可以预计,随着欧盟档案信息资源共享趋势的不断加强,参与该网络的成员还将进一步增多。

二、我国档案馆计算机检索发展状况

从20世纪70年代末开始,我国档案界开始了应用计算机辅助档案管理的尝试,档案馆通过计算机辅助档案检索工作主要体现在:

(一)档案自动编目

档案自动编目是最早出现和最常见的应用类型。档案自动编目是指利用计算机的检索、排序及打印功能,档案机读目录处理所实现的定期或定任务自动编辑档案目录。

(二)档案自动标引

档案自动标引,是指由计算机自动地对档案文件(或案卷)的题名、摘要,甚至全文进行扫描处理,抽取反映主题内容的关键词,进而规范成主题词或分类号等标识。我国目前实现的档案自动标引大多是自动抽词标引,抽词范围则是以档案题名为主。其技术要点是汉字词语的自动切分和抽取反映主题内容的关键词。

(三)档案自动检索

档案自动检索则是利用计算机及其网络和配套设备(如光盘系统),根据档案利用者的具体要求,按照一定的方法、步骤,从经过整理并储存在计算机内的档案机读目录或已输入计算机外存上的档案信息中获得信息的过程。其方法多种多样:按检索项目分类,有单项检索、多项检索;按查找部位分类,有完全一致检索、模糊检索、指定位置检索;按查找关系分类则有逻辑比较检索、包含检索等。

为适应国家信息化建设的客观需求,国家档案局在2000年底召开全国档案工作会议并通过《全国档案事业发展“十五”计划》,开始了档案工作信息化建设的尝试。档案工作信息化建设的重点主要在于:加快现有馆藏档案目录数据库的建设,对容易受损的、利用频率较高的重要档案进行数字化,对在推进电子政务过程中产生的电子形式的文件档案采取科学的管理方法等三个方面。在档案信息化建设过程中,各级档案馆开展档案信息计算机检索工作有了较大的发展

1.基础设施建设有了长足的进展

据2003年全国档案事业统计年报显示,34个省级及省级以上国家综合档案馆已有27个建立局域网,配有服务器91个,站点2261个,微机2585台。地县级国家综合档案馆配有服务器500个,站点4046个,微机10140台。在软件方面,除了自动标引软件,还有全文检索软件等。国家档案局推广的QWA档案管理系统以其智能型关键词自动标引和标引技术而独树一帜。目前已建立了十几种中英文检索软件,其中比较著名的有易宝北信的TRS、北大方正的MIRS、中国百科术语数据库和海文QUICK等。

2.档案信息数据库的建设有突破性的发展

据对15个省级国家综合档案馆目录数据输入统计,到2002年底,目录数据已达130000万条,其中:北京市各级国家综合档案馆输入案卷级目录225万条,文件级目录742万条;上海市各级国家综合档案馆输入案卷级目录677万条,文件级目录640万条;浙江省各级国家综合档案馆输入案卷级目录135万条,文件级目录1858万条;江苏省各级国家综合档案馆输入案卷级目录191万条,文件级目录2607万条。在抓紧馆藏档案信息化的同时,不少地区已开始重视年度电子目录接收和移交进馆工作,并开始推行年度立卷归档报送电子目录和移交进馆必须同时报送电子目录的制度,充分发挥基层档案室在档案信息数据库建设中的积极作用,初步形成“馆、室”联动的良性局面。另外,档案信息数据库已开始向全文数据库和多媒体数据库发展。以上海市为例,上海市档案馆多媒体数据库管理项目验收于2000年2月通过,至2004年底已完成了480多万幅档案扫描。黄浦区从1997年开始全文扫描,至今已完成50万幅。闸北、浦东、卢湾等区亦已开始了全文存储工作。随着目录数据库建设的积极开展和数据库管理系统的升级,区县档案部门已开始着手全文数据库和多媒体数据库的建设。

3.区域性档案目录中心建设初见成效

《全国档案事业发展“十五”计划》提出:“加强档案目录中心建设,组织各级国家档案馆建立区域性档案资料目录中心、实现档案信息资源共享。”区域性档案资料目录信息服务中心以历史档案资料目录中心的信息源作为基础,采集馆藏档案、未进馆档案、专业档案、特色档案、电子档案、现行文件和图书资料的各种信息,结合现行文件的提供利用,以求在更大范围内开发档案信息资源,满足社会各界对档案信息的不同需求,提高人们从档案馆藏获取信息的效率,为社会各界提供更好的服务。

北京市档案馆经过几年的努力,已形成225万条案卷级和742万条文件级的目录数据库。天津市于2001年下发了《天津市区县目录信息中心设置管理办法》,目前该市各区县档案目录中心有专、兼职工作人员38人,到2002年底已收集档案案卷级条目47万多条,文件级条目291.2万条。深圳市档案馆于2000年4月建立文档资料服务中心,为社会各界提供馆藏档案目录42.1万条,民国档案目录L。78万条,特色档案7.3万条。陕西省档案资料目录中心已经建立了包含案卷级目录13.68万条、文件级目录17.17万条的目录数据库。湖北省全省至2001年底,输入计算机的各种档案案卷级条目122万条,文件级目录804万条。部分地方还开拓思路,与时俱进,创新服务机制,以开辟现行文件阅览室、接收未进馆档案目录数据、接收电子文件数据、依托因特网和政府公务网建设自身网站等方式为社会提供多种形式的服务。江苏省常熟市档案馆开辟了专门为社会公众提供常熟人文历史、档案资料、现行文件的信息窗口———“常熟之窗”网站。该网站与常熟市档案馆馆藏主体、常熟市现行文件阅览中心构成三位一体的“常熟市档案信息资源服务中心”。

4.利用互联网传递档案信息发展迅猛

利用互联网传递档案信息可以通过两种方式:其一是利用点到点传递的电子邮件,实现的是类似传统的函调服务;其二是档案部门建立全开放式的档案网站。通过接入互联网进行远程档案信息发布,使档案计算机检索在时间、空间上都有了更好的扩展,在数据传输数量和质量上也有了更好的保证,从而为加快档案信息的交流、传递及档案信息的利用,创造了有利条件。据统计,到2003年底已有20个省级和10个副省级档案网站开通。国家档案局也于2002年12月16日开通国家档案局网站,这是建设全国档案信息网迈出的重要一步。网站与全国各级档案网站实现链接,成为全国档案信息的“龙头”网站。浙江省各级档案部门依托“数字浙江”的平台,全省96个档案局馆有93个在互联网上建立了网站。其中48个与当地党委政府联网。档案网站的建设不仅是宣传档案工作的“窗口”,还成为公布档案,为社会各界提供档案信息服务的重要基地。

5.数字档案馆建设试点工作取得实质性成果

我国第一个数字档案馆———青岛市数字馆建设项目已于2003年8月20日通过了国家档案局组织的专家鉴定。青岛数字档案馆已有文件级目录510万条,其中上互联网的有20万条,上政府网的有30万条,还有70万份档案全文、2万张照片及5万分钟的多媒体档案。青岛市数字档案馆工程建设主要包括三方面的内容。一是配备数字档案馆建设所必需的设备体系。二是实施档案数字化和数据库建设。首先,构建档案目录数据库,馆藏近40万卷档案全部实现文件级检索,同时加快各区(市)档案馆数据采集工作,12个区(市)已完成馆藏文件级目录的录入工作。其次,抓纸质档案资料数字化,同时实施照片档案数字化和构建多媒体档案信息数据库。三是研制开发一套数字档案信息管理系统。与此同时,青岛档案信息网已于2002年8月1日正式开通,共设有15个一级栏目,16个二级栏目。

除青岛市数字档案馆外,深圳数字档案馆建设也已经取得了阶段性成果,基础设施已基本到位,应用系统的研制开发已经基本成型,档案数字化加工生产线已经建成,档案信息数据库已经有了一定规模,数字档案馆正在进行网络布点、布线,运作机构市编办已正式下文予以定编,标准规范体系建设正在积极开展。

虽然在各级档案行政管理部门的努力下,我国各级档案馆信息计算机检索工作有了明显的进步,但是仍然存在不少问题。

1.基础设施建设发展不平衡

我国是一个经济文化发展很不平衡的发展中国家,区域间的发展水平差别很大,这种不平衡性必然在档案馆信息化基础设施建设方面明显地体现出来。据统计到2003年底,全国31个省(不包括台湾)、自治区、直辖市各级国家综合档案馆在局域网建设中,共配备服务器578个,站点6156个,微机12275台。然而其中仅北京、上海、天津、江苏、浙江、山东、广东7个省、直辖市的各级国家综合档案馆就配备服务器373个,站点3939个,微机5504台,分别占全国省、自治区、直辖市各级国家综合档案馆总数的64.5%、64%和44.8%;而山西、内蒙古、广西、贵州、西藏、甘肃、青海、宁夏8个边远省区的各级国家综合档案馆共配备服务器37台,站点395个,微机1402台,分别占31个省、自治区、直辖市各级国家综合档案馆总数的6.4%、6.42%和11.4%。在已建立省级综合档案馆网站中,中西部仅占10%。中西部地区市、县级综合档案馆建立网站数只相当于经济发达地区的15%。在有些省、区县级档案馆微机普及率不到50%。

2.档案信息数据库建设有待发展

(1)档案数据库建设缺乏有效的统筹规划

我国国家档案数据库建设,除了明清、民国、革命历史档案资料三个目录中心已经启动外,尚未有国家级档案数据库的规划安排,各地档案馆在实际建立档案数据库时基本上是各自为政,在档案数据标准体系尚不完善的情况下,这种局面将会导致数据共享困难。虽然我国就档案数据库的建设也提出过总体指导意见,比如《全国档案信息化纲要》中多次提出“加强档案目录数据库建设”、“进一步加强档案目录中心建设”、“积极推进档案全文数据库和多媒体数据库建设”等,但这些意见缺乏可操作性。另外,如何将电子文件以及数字化档案的信息纳入档案数据库中进行管理,也需要在宏观层面上进行有效的统筹规划。

(2)档案数据库定位不明确

数据库定位将直接影响到数据库的建设成本、规模、效能等,明确建库的需求和目的,确定数据库定位才能有的放矢。对数据库定位应该明确以下几个问题:①是建立存储档案著录信息为主的目录数据库,还是建立存储档案全文的全文数据库;②是根据馆藏的特点建立具有特色的数据库,还是基于馆藏图片、音像等资料建立综合性多媒体数据库;③是建立档案信息管理系统、文档一体化系统还是电子文档管理系统;④是独立建库还是若干机构建立联合目录中心,或者是为未来的数字档案馆做数据准备等等。这些问题都需要提前论证,做好决策。而我们目前的档案数据库建设,在定位方面做的工作还不充分,许多数据库千篇一律,缺乏特色;又或者数据库建设带有随意性和盲目性,脱离档案馆实际情况,结果设计出来的数据库质量不高或者因为定位不准确带来使用上的不方便,或者因为重复建设造成资源浪费。

(3)数据库功能有待完善

许多档案馆在进行数据库建设时,没有经过充分的论证和准备,大多数档案馆仅仅是买一套档案管理软件或者由自己的工作人员开发一套软件,就进行数据库的建设。这样的结果,必然导致数据库的功能不完善。如数据库引擎的选择,有的单位选择的一些桌面型的数据库产品,如ACCESS或FOXPRO等,基于这样的数据库引擎建立的数据库系统,在数据量较大时,就无法满足查询要求,索引文件也易被破坏;另外,有的档案馆的数据库系统采取了集中式或C/S式的系统结构,这样的结构虽能满足馆内工作人员的查询需求,但对于INTERNET越来越普及的今天,却无法满足用户的异地异构查询,使数据库的功能发挥受到很大的限制;有的单位的数据库在设计时没有考虑到将来的发展,没有数据导入导出功能,更不能支持XML(即可扩展标记语言),一旦系统升级,原有的数据将无法使用;有的单位的数据库没有严格的安全保密管理措施,没有严格的权限管理,没有将开放档案和不开放档案分开而是混合放在一个数据库中。这些有安全隐患的计算机也只能在本单位内部使用,根本无法对外提供服务。

(4)重视软、硬件投入,忽视数据库产品建设

档案馆在进行数据库建设时,普遍存在着重视软硬件网络环境的投入,忽视数据库产品建设的现象。数据库建设应该分为两个方面,一是数据库系统建设,二是数据库产品建设。前一项是基础,后一项是目的,建立一套数据库系统,仅仅完成了数据库建设的一半,后一项内容,就是将档案信息录入到档案数据库系统中,形成一个可供人们查询的资源库,这才是数据库系统建立的真正目的。如果做不到后者,那么前者的一切开发和投入都是无效的。

(5)数据库逻辑结构缺乏统一标准

根据浙江省综合档案馆信息数据库建设调查报告的调查结果,在浙江省通用的6种档案软件中,有的用个字段来表示档号,有的定义成数字形式,有的定义为字符型,甚至同一个档案馆在不同时期录入的数据,表示形式也不统一。这将对日后数据库迁移目录中心数据合并等工作带来极大的困难。

(6)数据库数据质量缺乏保证

在档案数据库建设过程中,存在盲目追求数据量,忽视数据质量的现象。数据库作用的发挥是以数据的丰富程度为基础的,但在充实数据的同时,对录入到数据库中的每条记录都要认真核对,力求做到准确、完整。盲目追求输入的条目数量,不看质量,不重效果,将会使得整个数据库的质量下降,无法达到原有的建库目的。

3.利用因特网、多媒体平台提供档案信息检索的能力有待提高

各级综合档案馆的档案网站大多数信息单薄,即使是提供馆藏档案信息检索服务,也因受各种因素的制约,在馆藏档案信息总量中仅占很小一部分。至于提供的全文信息和声像档案信息则更加有限。档案网站提供的档案信息检索内容应包括档案目录、全文信息、知识信息等。档案目录即建立档案实体目录数据库,有全宗级、案卷级、文件级目录数据库,它揭示了档案馆保管的档案全貌,能为用户提供便捷和有效的查询路径。全文信息是档案信息数据库的核心内容,也是档案馆信息化建设的发展方向。档案知识信息,是指适应社会的需求,对原始档案素材经过加工、提炼的系统信息。从目前综合档案网站能提供服务社会的档案信息来看,绝大多数还处在提供目录信息阶段,这就必然影响档案馆提供档案信息检索的能力,从而影响档案馆为社会发展服务。

4.数字档案馆建设任重道远

尽管青岛市已建成我国第一个数字档案馆,深圳、上海市、北京市、杭州市等档案馆在数字档案馆建设方面取得了一些成绩,但从全国范围讲,数字档案馆的建设还只是处在试点阶段。我国数字档案馆的建设与数字图书馆相比,在发展目标、保障措施、服务水平和建设速度等方面均存在明显的差距。但是,从2000年开始,国内已有几十家图书馆建成了资源共享平台,并且完成了与互联网的联通,真正做到了文献资源共建共享。在信息化建设进程中,数字档案馆建设进程仍是相对滞后的。各级档案行政管理部门和档案馆应该借鉴数字图书馆等其他行业信息化建设情况,不懈努力,跟上和融入社会信息化建设的进程。

三、档案馆计算机检索项目建设的目标与任务

(一)档案馆计算机检索项目建设的目标

1.完善档案馆计算机检索工作基础设施

包括加强档案馆的硬件基础设施建设、网络环境建设、档案馆检索数据库建设等方面。

2.实现档案信息资源社会共享

它包括电子文件的收集、馆藏档案资料的数字化和档案信息资源共享体系建设等方面。为实现档案信息资源共享的目标,一方面,各级各类档案馆必须加紧研究电子文件的接收、保管、利用的技术手段和管理方法,制定电子文件接收标准和管理制度。依托公务网,构建电子档案的网上接收平台,对电子文件目录和电子文件全文进行接收。另一方面,各级各类档案馆对馆藏纸质档案目录信息和全文信息进行数字化转换,有条件的档案馆,还可以逐步建立起多媒体全文数据库。在此基础上,各级各类档案馆在网络环境下,相互连接,各种档案信息资源“虚拟整合”,从而实现更宽广范围内资源的社会共享。

3.统筹各档案馆应用系统

各级各类档案馆按照“加强统筹规划,促进综合利用,避免盲目发展”的指导思想和“统一、通用、科学、标准、共享”的原则要求,实现档案计算机检索体系与档案计算机管理、办公自动化管理等系统的统一和无缝衔接。

4.构建档案馆信息检索保障体系

各级各类档案馆围绕电子文件接收、档案目录中心建设、档案信息全文数字化管理等核心问题,应制订相应的档案信息化标准,并组织实施;与此同时,应突出档案信息安全的重要性,制定完善的信息安全应急预案,加强数据库、计算机软硬件管理,做好档案信息的密级划分,加强网上利用的身份认证和密钥管理等,确保档案馆信息化建设顺利开展。

(二)档案馆计算机检索项目建设的任务

1.实现馆藏档案信息数字化

我国各级各类档案馆承担着保存社会记忆的历史重任,经过几十年的建设,不仅将各种档案信息组织化和有序化,而且形成了丰富而独特的档案文献信息资源。传统档案馆收藏的大量经过整理、分类的档案文献资源,除极少部分在其形成过程和前期运动阶段中就采用了数字化记录形式以外,绝大部分是纸质档案。针对这一现状,现阶段和今后一段时间,对纸质档案信息进行数字化转换,便成为馆藏档案数字化的中心任务。档案馆馆藏档案信息数字化就是利用多媒体、数据库、数据压缩、高速扫描、光盘存储等技术手段,将纸质、声像、缩微胶片等传统介质档案转化为计算机可识别和处理,具有有序结构的数字档案信息资源库的工作。

从数字化的程度来看,馆藏档案信息数字化的内容有两个不同层次:一是档案目录的数字化,其目标是建立档案目录数据库,其关键就是规范档案的著录标引,并科学选定档案目录数据库结构;二是档案全文的数字化,可以采用扫描录入方式,将档案全文按原貌逐页存储为图像文件,并为其编制目录索引,或是经OCR(光学字符技术)识别后采用文本格式存储档案内容,辅之以全文检索数据库两种不同方式。在档案数字化过程中,可以根据档案的自身特点和档案部门的实际情况将这两种方式结合使用。

(1)馆藏档案数字化的基本原则

档案信息数字化建设是一项系统工程,涉及面很广。为了保证档案信息数字化工作的质量,在进行档案信息数字化建设时,应坚持以下几个基本原则,即可行性原则、规范性原则、效益性原则、安全性原则和阶段性原则。

———可行性原则。档案信息的数字化工作面广量大,耗时耗财,应对列入数字化范围的馆藏档案信息资源进行规划,突出重点,并进行数字化前的筛选鉴定,对具备数字化处理条件的档案开展数字化工作。

———规范性原则。档案信息数字化必须制定相应的标准、规范和法规。按照统一的规范标准,使电子文件的归档,传统介质档案数字化,数字化档案的保管、传递、利用等工作都实现有序化、标准化和规范化,避免各自为政、互不兼容、重复建设等现象发生。

———效益性原则。在对馆藏档案资源、档案数据前处理工作量、数字化基础设施等做充分调研的基础上,选择最优的档案信息数字化方案,包括选择最优的工作流程、最合理的技术手段和最适宜的数字化加工设施等。

———安全性原则。在档案信息数字化过程中,要做到三个确保:确保通过录入或扫描方式得到数字化档案信息的档案原件的安全;确保在处理和存储数字化档案信息时档案信息的内容与档案原件相吻合;确保档案信息内容不泄密。———阶段性原则。档案馆保存的档案为数众多,不同档案信息的价值不同、开放利用时限不同、保密程度不同,档案馆在进行馆藏档案信息数字化时,必须有一定的策略,决定哪些档案信息资源可以数字化、哪些档案信息资源目前不需要或暂缓数字化以及哪些档案信息资源应优先数字化,制订档案数字化处理的阶段性计划,结合馆藏具体情况和社会利用发展趋势作出判断和选择。可以采用以下五种方式。

一是将全部原始馆藏数字化。采用这种方式建设起来的数字档案馆完全继承了传统档案馆的信息资源。原来的档案信息数字化以后,档案馆通过联机公共目录查询可以为用户提供高效的档案信息查询服务,而且用户足不出户就能获得所需要档案的全文。这是理论上最彻底的数字化方案,对利用者来说也许是最理想的。但由于档案密级问题的障碍,使得它无法进行。而且从降低成本效益的角度来说,也不符合经济实际。因为原始馆藏中存在许多用户利用率低和内容陈旧的信息资源,将这些信息资源数字化是没有多大用处的,反而会增加数字档案馆的管理和维护的负担。所以从保密和经济的角度考虑将传统档案馆全部的馆藏档案信息数字化是不切实际的。

二是重点选择特色档案信息数字化。传统档案馆在过去长期的社会分工实践和档案馆馆际分工协调的基础上,已经形成了自己的馆藏特色,有自己的特藏,这些特藏应该成为数字化的首选对象。例如四川省档案馆收藏的清代巴县档案真实地记载了清代巴县社会丰富多彩的政治、经济、军事、司法、文化等情况,其年代之长久,数量之众多,内容之丰富,在全国所存的一个县的清代档案中首屈一指,成为了解清代地方史的第一手材料。该馆在进行馆藏档案数字化时,将其列入首批数字化范围。

三是珍贵档案数字化。这里评价档案是否为“珍贵档案”的标准是:档案信息是否存在潜在的长远使用价值,是否存在证据价值和情报价值,或是否具有历史价值或文物价值。一般地说,那些高龄档案,涉及某一地区重要机构、重大事件和重要人物的档案,在同类档案文献中较为珍稀的档案等等,均可以列为珍贵档案。实践中这部分档案利用率往往是较高的。

四是选择使用频率高的档案信息数字化。采用这种方式对于一个具体的档案馆来说,可以在某种程度上起到降低成本、提高效益的作用,但具体实施起来比较困难。因为不同类型的用户所需要的档案信息,在范围和重点方面有不同的特点,而且对不同类型的档案信息的使用频率也不同。采用这种方式还存在一个严重问题,就是从全国数字档案馆的信息资源建设来说很容易产生重复建设现象。如在综合性档案馆,一般用户对有关党和国家方针政策的档案文件,常常有较高的使用频率,而在不同地区综合性档案馆所收藏的这类档案大部分内容相同,如果依据使用频率来选择数字化的档案信息,则会造成这类档案信息的重复建设。另外,一部分高利用率档案往往具有时效性。因此,档案馆利用部门提供一份较长时间段的利用反馈报告,可能会有助于对馆藏高利用率档案的合理选择。

五是即时利用数字化。这种方式是指当用户需要某种或某类档案而该档案未数字化时,才将其数字化。这种方式有点“亡羊补牢”、“临时抱佛脚”的功利味道,这样做可以完全满足用户的各种需要,同时可以将用户不需要的档案信息资源排除在数字化的范围之外。但它存在的问题是用户的需求具有很大的偶然性,对于用户在偶然的、极少的情况下才会使用到的档案信息,如果也将其数字化,无疑会提高档案馆的成本,增加档案馆的负担。

(2)馆藏档案数字化的基本步骤

第一,做好馆藏档案信息数字化的前期基础工作。需要对哪些档案进行数字化、采取什么加工方式来开展、数字化加工需要购买哪些设备、除此之外还需要做哪些准备工作,以及如何做等,都是馆藏数字化的前期基础性准备工作。

第二,确定数字化加工的协作模式。档案内容数字化工作包括数字化预加工和深加工两步,预加工能够将纸质档案、照片档案、缩微胶片等转变为电子图像文件,不能将纸质档案上的文字信息进行完全处理,深加工则是利用技术含量较高的OCR和语音识别等处理技术获取载体档案中的文字信息,以利于提供全文检索。馆藏档案数字化工作量大,涉及扫描加工、图像处理、数字信息存储与管理、OCR自动识别等技术,仅依靠档案馆的力量难以完成。档案馆可以与经验丰富、操作熟练的数字化加工专业服务机构、开展数字化加工的专业IT公司一起协作,共同完成数字化加工。

第三,保障数字化档案信息的真实性。在馆藏档案信息数字化过程中,档案实体的扫描加工和档案目录的数字化必须以保证档案信息的真实性、完整性为前提。

第四,加强数字化档案信息的整合与集成。一些档案馆在开展数字化之前就使用了档案管理信息系统来管理档案的目录信息,并在馆内提供档案目录信息的检索服务,也有一些档案馆在开展数字化的同时也建立起电子文件归档系统,收集电子文件并整理其目录信息,还有些是将馆藏档案数字化作为档案信息化的启动工程。但无论是哪种情况,都需要处理好当前档案馆面临的电子文件归档、馆藏档案数字化和对传统载体档案管理的业务关系,将这三项主要工作形成的数字化档案目录信息和档案内容对象实行同步管理,对于电子档案有纸质备份的或纸质档案有数字化拷贝的,都需要做关联处理,做到同一档案内容的一致性管理。

第五,保障数字化档案信息安全。数字化档案信息的安全管理是档案信息化应用的前提条件。对于数字化档案的网络化存储系统,一方面要求使用带自动备份功能的专用服务器和数据库管理系统,能够配置备份作业计划并安全执行,对备份信息能够实现数据的迁移和方便的恢复。同时也应使用安全介质备份,定期刻录(复制)备份信息,实行异地保管。另一方面采用严格的授权管理解决方案。从密级区分、用户区分、内外区分、系统区分等方面保障档案信息安全。

第六,提供数字化档案信息的方便利用。馆藏档案数字化的一个根本目的是方便利用,只有真正将档案的数字信息放在网络环境中,提供网络化的高效服务,才能确保投资有收益。

2.数字档案的收集

接收进馆范围内的各立档单位归档的电子文件,以及各立档单位经过数字化处理后的传统档案,是档案馆数字档案信息的重要来源,也是进行档案信息计算机检索的主要对象。档案馆应该收集的数字档案包括:

(1)接收电子文件

可以预测,电子文件将逐步成为档案馆的主要管理对象和社会服务资源。档案馆必须履行起对具有永久保存价值的电子文件的收集管理职能。

档案馆收集电子文件一般采取介质接收和网络接收两种方式。一是介质接收,即用存储体传递的电子文件(如软磁盘、光盘),进行卸载式离线报盘接收,一般按规定进行登记、签署,对于更改处,要填写更改单、按更改审批手续进行,并存有备份件,防止出现差错。二是网络接收,即在电子计算机网络系统上进行在线接收,系统应设计自动记录功能,记载电子文件的产生、修改、删除、责任者、入数据库时间等,并在进入数据库之前,通过对记有档案标识的内容进行鉴定、归档和接收进馆。立档单位可以实时或定期向档案馆移交电子文件。一般来讲,网络移交尽可能实时进行,以免发生失控,也可定期进行。介质移交可借鉴纸质文件归档的经验,遵照有关规定定期完成。

电子文件的特性不同于纸质文件,因此其收集的方法和要求也不同于纸质文件,例如草稿文件,由于不具备正式文件的功能,所以一般情况下可以不保留。但是,如果对正式的纸质文件有进行全文信息自动检索要求时,或者从保留电子文件的重要修改过程考虑,则应对其进行收集。对于起辅助作用或正式作用的电子文件,则应及时收集与整理,并与其相应的纸质文件之间建立标识关系。尤其是对“无纸化”系统生成的电子文件,应当有更严格的措施。保证电子文件不被非正常改动。必要时,应在收集过程中,制作成硬拷贝或制成缩微品,以免系统发生意外情况时电子文件信息丢失。不同信息类型的电子文件,由于其技术特性不同,存储载体和记录信息的标准、压缩方法也不同,所以应分别采取措施保证其原始性、真实性、完整性。与纸质文件不同,电子文件的读取、还原等离不开其生成的软硬件环境和元数据等,所以电子文件收集还必须包括这些内容。另外,对于计算机系统运行和信息处理等过程中涉及的与电子文件处理有关的参数、管理数据等,也应与电子文件一同收集。

档案馆接收归档电子文件的要求,一是齐全完整。凡是需移交的电子文件,与其有关的所有归档范围内信息,如文件背景、结构信息均应向档案馆移交。二是真实有效。文本文件应是最后定稿,图形文件如经更改,应将最新版本及更改记录予以移交,各种文件的草稿、定稿根据需要决定是否移交。有条件的机构应采用电子文件签署技术,以便确认电子文件的有效性。三是格式规范。对于电子文件应有格式方面的要求,这是保证电子文件长期可读性的一个极为重要的问题。可以使电子文件脱离原来生成文件时的软硬件环境,将文件转换成一种标准格式保管。四是编辑整理。移交档案馆保管的电子文件需经过一定的整理和编辑。立档单位根据电子文件的种类、数量进行整理,利用文件的著录信息,形成机读目录。还应对电子文件的载体简单整理,在载体或其包装盒表面贴上标签,注明编号、名称、密级、保管期限、软硬件环境等。

为方便下一步的计算机检索,档案馆收集电子文件时还有一个主要任务就是要整合管理多个立档单位的电子文件。因为各个电子文件来源单位所采用的应用系统之间存在异构问题。电子文件来源单位应用系统的异构性会导致多种情况出现,如电子文件的读写方式不同、电子文件的格式表示不同、电子文件管理标志和记载项不同、电子文件内容的结构化程度不同等等。这些差异都不利于计算机检索,因此必须通过转换标准等方式来解决。

(2)收集经过数字化处理后的传统档案

这项工作应注意两个问题:一是按照统一的规范标准进行档案信息的转移,保证经过数字化处理后的档案信息在内容的原始性、真实性以及档案性质上与传统纸质档案信息保持一致;二是数字化处理后的档案应与原纸质档案建立互联,并一同移交。

3.开展档案信息数据库建设

数据库(DATABASE,简称DB)就是存放数据的仓库。可以简单定义为:以一定的组织方式存储在一起的相关数据的集合。这些数据具有一定的结构,是高独立性和少冗余度的,能够最大限度地满足多用户的需要,为数据库系统的所有用户共享。数据库应包括硬件(HARDWARE),即存储数据库和运行数据库管理系统DBMS(包括操作系统)的硬件资源和数据库管理系统(DATABASE MANAGEMENTSYSTEM,简称DBMS),DBMS是在操作系统控制下对数据库进行管理的一组软件。DBMS能够接受、分析并解释用户的命令请求,然后转到相应的处理程序中,去操作数据库的数据。它还提供了一套数据描述语言和数据操纵语言以实现对数据库系统的各种控制。可以说,DBMS是构成整个数据库系统运行的核心。数据库管理系统通常应具备以下几方面的基本功能:第一,描述数据库。包括对数据库三级模式(用户模式、逻辑模式、存储模式)的描述及建库。第二,管理数据库。包括:控制整个数据库系统的运行;控制用户的并发性访问;数据存取及更新处理;执行对数据的使用与操作,如检索、排序、统计等。第三,维护数据库。包括:确保数据库系统中数据的完整性、安全性和保密性;数据库恢复和性能监视等。第四,数据通信。一个数据库系统是一个实际可行的,按照数据库方式存储、维护和向应用程序提供数据或信息支持的系统。它是存储介质、处理对象和管理系统的集合体。对于档案数据库来说,还应当包括档案信息数据。

档案数据库建设是档案馆计算机检索项目建设的核心和基石,是档案信息化建设取得实效的关键。加强档案信息数据库的建设与应用,加快推进档案信息资源的整合与共享,是摆在各级档案馆面前一项至关重要而又十分迫切的任务。从国家层面上,明清、民国、革命历史档案资料三个目录中心已经启动,2001年以来,中国第一历史档案开始构想并着手有计划地建设最具规模的具有全文检索功能的“全文数字化清代档案文献数据库”。在地方上,很多综合档案馆档案信息数据库总量突飞猛进,档案目录数字化管理形成了规模。计算机检索的利用率、查准率、查全率大大提高。除按全宗录入档案文件目录外,各档案馆还根据用户实际需要,建立了许多专题目录数据库,种类丰富,利用率高,实用性强。档案信息数据库中的各类档案信息数据,应包含馆藏各类档案信息,包括纸质文献、照片和音视频资料等,以及政府公开信息,从而使档案信息资源库通过计算机通信网络连接成为关乎国计民生的超大规模的战略性知识库群。

(1)档案信息数据库的类型

目前比较受档案界关注的档案信息数据库类型有:

①档案文件级目录数据库

这是档案馆信息化建设向深度发展的一种标志。档案文件级目录数据库一般包含重要文件级目录数据库和案卷文件组合级目录数据库。档案文件级目录数据库建设至少具有两项优点:其一,有利于用户对有关档案文献作更深度的检索和查阅,使查找更具有专指性;其二,有利于与档案全文信息数字化开展相配套。由于文件级目录建设耗时耗力,一般以馆藏重点全宗档案为对象。

②档案案卷(盒)级目录数据库

案卷(盒)级目录是档案资源建设最基础的数据。在档案馆信息化建设中,档案案卷级目录数据库应涵盖档案馆全部馆藏,已作为必须达到的要求,其内容包括馆藏各个时期和各种载体档案的目录。

③档案全宗级目录数据库

与案卷级目录和文件级目录建设相比,这是档案资源建设中易被忽视的项目。档案全宗级目录包括开放档案全宗目录和馆藏全部档案全宗目录两种。前者主要供利用者查阅;后者主要备档案馆内部管理、各项业务开展之需。全宗级目录建设的关键是信息数据的完整性和及时性。

④专题档案目录数据库

专题档案目录是当今最热门的电子档案检索工具之一,它以利用者需求为导向,深入了解馆藏,有针对性地把馆藏档案中反映同一专题却分散在不同全宗的、和群众利益息息相关的、利用率比较高的档案挖掘出来,进行资源整合。是真正以提供利用为目的、方便利用者的查阅性检索工具。专题的内涵包括档案内容、档案文种或档案载体等。专题档案目录建设的关键是对有关专题的选择和确定,须兼顾馆藏特色和社会利用需求。

⑤照片档案目录数据库

照片档案目录数据库就是将馆藏照片数字化后,以数据库形式加以管理,并在因特网上为用户提供远程利用服务的基于 WEB的网络数据库。建设照片档案数据库,能充分发挥照片档案的价值,完善照片档案的管理,促进照片档案信息利用。照片档案目录数据库的特点有三:其一,著录项目多,与普通纸质文件相比,照片档案的著录项目更为齐全,因而其揭示的信息特征更多;其二,分类标准独特,与普通纸质档案比,照片档案的分类往往更切合馆藏的实际;其三,照片目录与数字化后的图片文件数据相关联使用。照片档案目录数据库建设的关键是每条目录数据著录项目的完备性。

⑥档案全文信息数据库

档案全文信息数据库将是最实用也是最受社会各方面利用者欢迎的数据库。只有将档案全文信息公布于网上,才能真正发挥档案信息网络的现实功能,构建现代意义上的数字档案馆,使档案用户在足不出户的情况下借助网络查阅档案,获取档案信息。建立全文信息数据库最关键的是档案文献数字化的前处理工作。档案全文信息数据库所管理的对象,不仅应包括数字化的传统档案,而且应包括本身就以数字化形式生成的电子文件。后一类文件的数据类型和数据格式是多样化的,如各类文本、表格、图形、图像、数据库、网页、计算机程序、音频、视频格式文件等。应用环境不同,系统软件不一,生成的文件格式也不同。对档案全文信息数据库来说,必须具有对各种常见格式文件的组织管理功能,对有关格式进行转换和规范的功能。

目前,我国的档案全文数据库仍处在研究开发阶段。原有的档案全文信息管理系统从功能上说,都还不很完善。一般而言,档案全文数据库应实现以下基本功能:第一,具有对不同类型、格式的多媒体档案信息强大的获取、存储能力。能够以便于计算机存取传输的形式获取多种来源、不同形式的档案信息,并经转换、压缩等技术处理后存储。第二,独立于内容的数据管理功能。能够按照确定的知识结构有效组织大量分布式的、不同类型、不同数据结构的数字化档案信息库,并为之建立有效的检索系统。第三,快速跨库访问和查询功能。集成多种查询技术,包括数据库检索技术、全文检索技术、图像内容查询技术以及数字化音频和视频信息的查询技术等。第四,权限管理功能。提供一系列全面的权限管理工具,对数字档案信息的访问和使用进行许可、控制和监督。具有使用暗码、加密、嵌入水印、计费、结账等功能。第五,网上发布功能。能够在网络系统上发送信息,发布的信息可在任何具有图形化用户界面的计算机系统上阅读。

(2)我国档案信息数据库建设发展思路

①加强领导和统筹规划

档案事业管理部门应当对档案信息数据库建设提出宏观的指导方针,统筹规划,合理布局,提供国家、地区、行业数据库建设的蓝图,并会同有关部门对数据库规划的可行性进行论证,提出档案数据库建设的具体意见。地方档案部门包括各级档案馆则根据宏观规划的要求进行详细设计,以实现全局共享为基础,突出特色数据。基于这样的总体思路,建立大范围内协调一致的数据结构,数据库框架设计、数据内容都能得到很高的共享度,将会改善目前档案数据库建设自行一套、质量参差不齐的总体状况。

②开展数据库应用规模定位研究

档案信息数据库建设,是一项长期而持久的工作,档案馆在进行数据库建设时,要对将建数据库合理定位和规划。在调查研究明确用户需求、本馆保存的档案状况、投入效益等的基础上,确定要进行哪些数据库建设,是先建设文件级目录数据库还是建设全文数据库,前期投入多少人员和时间进行数据的加工和录入,以后投入多少人员进行维护等等。如果只有前期数据库系统“仓库”建设,没有后期的材料储备,那么这个“仓库”毫无价值。

③进一步完善数据库技术功能

档案数据库建设是一个很复杂的过程,数据库建设的技术层面涉及数据库管理系统的设计、系统结构的选择、数据接口的选择等一系列工作,信息加工层面涉及档案的著录、标引、档案元数据标准的制定,文件格式的转换等内容。一旦建成,想要对数据库系统进行更换就要付出很大的代价。因此,档案部门在进行数据库建设时,需要多方论证,既考虑到当前的需要,又考虑未来的发展,尽可能完善数据库系统的功能。每个档案馆还应培养一批既懂得计算机、网络、数据库发展的最新技术,又熟悉档案管理各个环节的专业技术人员,让他们参与到数据库的开发建设工作中,这样建立的数据库系统才是功能完善的数据库系统。

④加强数据库标准规范的建设

档案信息资源描述标准体系是建设档案数据库的重要保障,加强相关标准规范的建设有助于各级各类档案数据库保持必要的协调,共同为社会提供高效、优质的档案信息服务。档案标准规范的制定要本着“确保数字档案资源格式统一、数据规范、长期可读、便于共享”的原则进行。在实施过程中,应当积极采用国际标准和国外先进标准;一般性的信息处理标准如《文献保密等级代码》、《全国行政区划代码》等优先采用国家标准;对档案领域内特有的资源制定行业标准,如《寿险业务档案管理标准》。此外为了保证国家文献系统标准之间的一致性,档案工作标准应尽量与图书、情报的国际、国内标准相一致。针对档案信息数据库逻辑结构缺乏统一标准的问题,可以考虑建立起以著录标准化为依托的元数据库。此处的元数据就是数据库中各数据字段以著录标准为基础,建立起来的标准信息,并以此为基础构成元数据字典。该字典提供数据项目的结构化信息,包括数据字段的名称、数据类型、长度、默认格式等规范,并说明字段之间的联系。随着档案信息化的深入,元数据字典的建设还应当包括全文和电子文件的元数据项目,为电子文件管理系统的设计提供相应的元数据,实现电子文档的前端控制,从而在根本上解决电子文档接口规范问题。

⑤建立健全数据库质量控制体系

档案部门在进行数据库建设时,要狠抓质量,把好质量关。加强对档案数据库的设计、建设、管理活动中主要环节的控制,并制定数据库质量考核指标体系。该体系通过项目文档能够审查数据库设计过程是否科学、合理;能够对数据库建设过程中的人、财、物进行审计;对数据收集、录入、备份等各环节提供质检措施,保证数据准确、完整;能够通过质量指标体系对数据库容量、响应时间、查全率、查准率、错误率等进行核查。依照质量控制体系进行管理,能够优化数据库管理活动,加强数据库建设人员的责任感。

4.档案网站建设

档案网站建设是档案部门综合运用信息技术,借助公共信息网络,以通用的主页、数据库检索等方式向社会公众提供档案行政服务与档案信息服务,面向更广泛的社会领域宣传与展示档案工作,以及与社会公众进行信息交流。档案网站的建立改变了档案馆传统的档案提供利用方式,开创了新的服务社会方式,档案馆信息化的成果通过档案网站得以直接体现。通过档案网站,使档案用户可以实现快速方便的档案信息查询,完成档案信息的传输服务;促进社会各界对档案机构、档案工作和档案的认知,进而促进社会各界对档案的妥善保管和共享利用的重视;通过档案网站,还使得档案部门和利用者之间凭借虚拟空间进行接触和交流,形成“服务—反馈—再服务”的良性互动成为现实,如电子邮箱、公告栏等等。

从目前情况看,我国档案网站建设还有很多不足之处。比如从我国总体情况看,档案网站内容策划、页面设计和维护更新等诸多方面仍有不小的欠缺;档案和政府公开信息的网上检索功能薄弱,提供的档案全文信息和声像档案信息非常有限等等。因此,不断完善和充实档案网站功能,加快推进档案网站建设是档案馆亟待解决的问题。

5.数字档案馆建设

数字档案馆是一种技术模式,是一个数字化的信息系统,是以文件和档案信息为特定对象的有序的信息空间和开放的信息环境。它可以将分散于不同载体、不同地理位置的信息资源通过网络相互连接,向用户提供方便快捷的在线服务。以“有序的信息空间和开放的信息环境”为特征的完整意义上的数字档案馆,应该依托于现有实体档案馆的馆藏数字化以及不同数字化馆藏节点的连接,即以数字档案馆为基础,逐步突破各种界限,发展为由分布式文件、档案数字资源构成的具有强大服务功能的跨机构、跨地域的信息系统。根据目前的认识,数字档案馆应具有以下三个方面的基本功能。

(1)数字档案馆首先应该是文件、档案信息资源的资源库。内容丰富的文件、档案信息资源是数字档案馆的基石。为此,必须通过各种途径搜集、捕获有价值的信息资源。如直接接收机构、组织和个人的具有档案价值的电子文件及其元数据;将现有纸质、照片和声像等档案进行数字化;通过与其他信息网的无缝链接实现与其他有关机构数字化信息的交换等等。

(2)数字档案馆是一个“有序的信息空间”。为此,必须对进入数字档案馆的各类信息进行合理整序。如通过专用软件实现对信息的分类排序、价值鉴定、数据校验、目录生成、数据统计、打印输出、自动标引、信息组织等。此外,数字档案馆还能够以文件、档案形成者的职能和业务活动为依据进行自动鉴定,并存储所捕获的电子文件,在此过程中,必须确保信息资源的真实、完整、可读、安全。

(3)数字档案馆具有多种查询途径、强大的检索能力、友好的用户界面以及完善的借阅管理和调用控制功能。检索的内容包括目录检索、元数据检索、全文信息检索、图文声像一体化检索等。在检索查询的具体功能上,数字档案馆能提供多途径、多条件的信息检索,并能对常用检索途径进行优化,满足用户对查全率、查准率的要求;能对查询结果进行显示、排序、转存、打印输出等技术处理;能通过数据调度和数据集成等方式建立检索机制,使利用者可以通过网络对各种信息资源进行远程查阅和调用,包括目录、索引和全文。

在建设数字档案馆时,其主要任务包括:基础设施建设、信息资源建设、应用系统建设和标准规范建设。

———基础设施建设。包括网络环境建设、硬件环境建设和系统软件建设等。

———信息资源建设。包括对传统档案馆收藏的大量纸质、声像、缩微等传统介质的档案资源进行处理转换;各立档单位电子文件、电子档案及其电子目录移交;专题档案信息(通常是全文信息和目录信息两种)数据报送;政府公开信息移送等。

———应用系统建设。数字档案馆应用系统功能通常包括档案的数字化加工,档案信息收集、录入、检索、利用、编研和统计等数字管理全过程,具有可扩展和实用特性。

———标准规范建设。包括管理性标准规范、业务性标准规范和技术性标准规范。