(1)档案信息的采集。档案信息的采集是指对将要著录的档案收集其手工著录卡片、案卷目录或文件目录、档案原件等相关的原始材料,为档案信息著录做好准备。
(2)档案目录数据库的建立和项目设置。具体包括:建立档案目录数据库、设置档案著录项目、定义项目类型和长度等。目前,很多文档管理软件已经设置好了文书档案数据库著录项目格式,向用户提供其他种类档案如会计档案等)数据库的建立、著录项目的增、删、改功能。档案部门应按照《档案著录规则》和《中国档案机读目录标准》的要求,并结合本单位档案工作的具体情况设置著录项目、定义项目类型和长度。
(3)数据输入与保存。数据输人是指将手工著录卡片、案卷目录、文件目录、档案原件等按照数据库设置的项目格式输入计算机的过程。
档案计算机著录项目必须按照《档案著录规则》(DA/T 18-1999)和(中国档案机读目录格式》(GB/T 20163-2006)的要求来设置。例如,在文件级档案目录著录中,必须著录的项目包括:档案馆代码、全宗号、年度、件号(馆编)、正题名、并列题名、责任者、文件形成时间,选择著录项目有:件号(室编)、组织机构、问题、附件、稿本、密级、保管期限、文件编号、分类号、关键词(主题词)、载体类型、数量和规格、附注等。
档案自动标引,是指采用计算机技术自动对档案文件(案卷)的题名、摘要或正文进行扫描和词频统计,直接抽取关键词或对照机内主题词表和分类表将抽取的关键词规范成主题词或分类号的过程。从标引的深度来看,档案自动标引有全文主题标引和题名主题标引;从标引技术的应用来看,包括抽词标引和赋词标引;从选用的标引词来看,包括关键词标引和主题词标引。由于受到汉字输入、存储容量及软件技术的限制,目前档案部门大多采用提名关键词自动标引,有的单位已经开始了全文主题自动标引和全文自动标引系统的研制工作。