为使馆藏扫描文件更易于利用,荷兰国家档案馆采用Transkribus软件自动转录手写文本并将其转换为数字文本文件,目前已成功转录了超300万页文件。
荷兰国家档案馆拥有极为丰富的馆藏资源,排架长度超过140公里,但其中大部分为纸质文件,利用较为困难且耗时。按照其制定的数字化战略,其计划在15年内扫描10%的馆藏档案,平均每年需扫描1000万页以上。档案数字化工作产生了大量数字扫描文件,为便于对手写文本扫描文件的访问和使用,荷兰国家档案馆启用了手写文本识别软件Transkribus进行识别和转录。
荷兰国家档案馆数字化团队利用该软件创建了自定义的人工智能模型,并通过数据训练不断提升模型准确度。团队原本预估的目标字符错误率为20%,但在创建了6000页训练数据后,实际字符错误率仅为7%,文本识别效果大大超出了团队预期。
Transkribus的使用有效降低了转录工作的难度。目前,该团队已利用智能手写文本识别技术转录了来自17世纪和18世纪荷兰东印度公司档案以及19世纪公证人档案,数字扫描文件超300万页,并为其创建了一个临时网站,供研究人员和公众进行访问和检索。此外,团队还为网站添加了命名实体识别功能,采用人工智能标记个人姓名、地点和时间,以丰富转录内容。现阶段荷兰国家档案馆的数字化战略仍在推进,未来将有更多手写纸质档案实现数字化、文本化、数据化,满足社会公众的多元利用需求。
原载于《中国档案报》总第3919期 第三版
|