随着数字化进程的不断深入,数字资源长期保存的问题已经受到越来越多的关注和重视。在图书、档案领域国内外有很多研究项目,提出了多种解决方案,其中美国斯坦福大学的LOCKSS(Lots Of Copies Keep Stuff Safe,大量拷贝确保数据安全)项目以其 Peer-to-Peer的分布式保存策略在全球引起了广泛关注。
01
LOCKSS项目介绍
LOCKSS项目源于2000-2002年Sun公司与斯坦福大学之间的一项合作,主要致力于解决电子期刊的永久保存与利用问题。它通过建立出版商与图书馆、图书馆与图书馆之间的协作平台,提出了从电子资源出版、发布到永久性保存与利用等一整套解决方案。出版商通过发布LOCKSS权限声明和资源清单对允许保存的内容进行限定;图书馆在本地部署LOCKSS BOX,根据出版商的权限声明和资源清单获取和存储出版的内容,并将本地LOCKSS BOX注册加入到LOCKSS分布式保存网络;用户在出版商内容因故(网络拥塞、退订、自然灾害、战争等)不能访问时通过本地LOCKSS BOX获取内容。一旦数据摄入完成,LOCKSS BOX中的内容将不再依赖出版商数据库,通过不断与分布式保存网络中其他 LOCKSS BOX节点中的相同内容进行对比及同步,LOCKSS BOX确保本地保存的内容始终是正确的。
各图书馆分布式节点
2004年初,LOCKSS项目组发布了LOCKSS系统正式版。基于Java技术的LOCKSS系统是一个开源的分布式系统,它无需中心级管理就能运行在一些廉价的PC机上。一个完整的LOCKSS系统包括三部分内容:顶层的出版商数据库、中间层的图书馆 Caches点(一个 Caches就是本地图书馆内的一台存储电子出版物的计算机,一个图书馆可以拥有多个Caches)、底层的用户群。Caches与出版商数据库之间实现初始电子资源的采集,即图书馆根据授权从出版商数据库摄入电子资源。中间层Caches既包括同一图书馆内部的多个 Caches,也包括不同图书馆间的Caches,各个Caches之间彼此互连,呈网状结构分布,这种结构实现了Caches之间互相备份支持的目标。底层是用户,每个Caches都提供本地服务,也可以将多个Caches集成后为特定的用户群提供服务。
为了从机制上确保电子资源安全,LOCKSS系统对于每一份电子资源都至少保存6个备份,即保存在6个分布式LOCKSS BOX节点的Caches中并保持相互之间的数据同步。由于不同的图书馆位于不同的物理位置,统一接入LOCKSS分布式网络,成为其中的一个节点。这样,即使某一个节点由于黑客入侵、误操作、设备物理损坏、灾难等意外情况出现数据损坏的情况,也不会对整个网络的电子资源安全构成威胁。只要当该节点修复之后再次接入网络,又可以从其他节点中恢复数据。
02
项目启示
不得不说,在20年前就能设计出这么先进的分布式存储架构,LOCKSS系统的设计者还是非常有前瞻性的,这和现在流行的基于区块链技术的分布式架构如出一辙!虽然区块链网络中的数据不一定存在本地数据库或者缓存中,也可以存在链上,但对于大容量的数据存储而言,考虑到系统性能,目前常见的做法也只是将数据的哈希值上链保存,数据本身还是存储在分布式节点的本地数据库或者文件系统中。
那么LOCKSS项目给当前的档案数字资源长期保存工作有什么启示呢?首先,我们必须得认识到,不管是LOCKSS项目的分布式存储网络还是基于区块链的分布式网络并不适用于档案数字资源的长期保存,因为档案数字资源具有较强的敏感性和保密属性,在绝大多数情况下,档案保管机构之间的网络是不通的,甚至很多情况下,重要档案数字资源需要离线保存。档案机构之间的联网很多情况下不是为了档案数据安全存储,而是为了开放档案的共享利用。但是,LOCKSS项目这种“大量拷贝确保数据安全”的思想是值得档案保管机构借鉴的,尤其是对于档案数字资源的长期保存而言。
03
电子档案库房解决方案
翼存(上海)智能科技有限公司推出的电子档案库房解决方案就借鉴了LOCKSS项目“大量拷贝确保数据安全”的理念。所谓电子档案库房(Electronic Archives Repository,EAR)就是保存电子档案的库房,为了确保电子档案的安全,电子档案库房一般采用离线的方式保存电子档案。由于电子文件易修改、环境依赖、存储载体可分离等特性,单一的备份载体显然无法满足档案数字资源长期安全保存的需要,比较切实可行的措施是采用不同介质多套备份组合的方式来确保档案数据安全。可以预计,将来各级各类档案部门都会形成磁、光、电、胶等多种档案数字资源备份载体。因此,电子档案库房实际保存的是存储电子档案的物理载体,比如磁盘、光盘、磁带、胶片等。
另外,由于载体本身的不可直读特性,还需要配置各种载体的读取设备;由于各种载体的保管条件要求不同,还需要配置各种存放不同特性载体的保管设备,这些载体读取和保管设备统称电子档案库房装具。电子档案库房示意如下图所示:
在电子档案库房中,我们采用了4-3-2-1数据长期保存(备份)策略,基于不同的备份载体,实现档案数据的多套备份,满足档案管理规定的异质、异地、离线备份要求。
4套数据
1套在线/1套近线/1套异地/1套异质
3种载体
磁盘/光盘/胶片
2套离线
光盘1套/胶片1套;其中1套异地
1套异质
胶片
欢迎更多的人投身到档案领域,投稿留言并发表真知灼见;关注我们,共同为人类文明的传承而努力奋斗!
—— END ——
数字罗塞塔计划
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。