如何开展网页归档工作?

随着互联网技术的迅速发展,各级国家机关和企事业单位普遍运用网站这一平台,作为信息发布和对外服务的重要窗口。在网站的建设与运行过程中,会形成大量具有凭证、查考和保存价值的网页文件,它们是网络时代的重要“记忆”,应该进行归档保存。

国家也越来越重视政府网站网页的信息归档问题,2016年11月中办、国办印发的《国家电子文件管理“十三五”规划》中要求“推进政府网页及电子邮件、音视频等电子文件归档”。2017年5月国务院办公厅印发的《政府网站发展指引》要求要对政府网站网页进行归档。《指引》指出:“网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明‘已归档’和归档时间。”

网页归档面临技术多样、内容复杂、归档方式等技术问题。同时对于需要进行网页归档的机关和企事业单位来说要如何开展网页归档?归档哪些内容?归档的网页如何整理、利用?等诸多问题造成无法开展网页归档。结合我们参与的网页归档试点工作,总结开展网页归档要做好以下几点关键工作。

一、 知责明责:推进网页归档工作开展

网站的建设、维护和管理会涉及信息技术部门和信息来源部门。在网页归档工作中信息技术部门为网页归档提供信息化支持,信息来源部门负责网站信息的形成和归档,档案部门负责归档网页的接收、整理、保管和提供利用。制定本单位网页归档工作制度,明确相关部门的工作职责,有利于推进工作的顺利开展。

二、 确定范围:提供网页归档内容依据

对网站的内容进行全面梳理、分析网站网页文件的类型、性质、重要程度等,并据此确定归档范围和保管期限。为开展网页归档、接收、整理工作提供依据。建议按照网站的栏目导航梳理每个栏目的保管期限。

三、 多种方式:探索网页归档技术实现

目前存在两种可行的网页归档方式。第一种方式采用网站服务进行归档,第二种方式采用网页抓取技术进行归档。即主动和被动归档。

主动归档方式与被动归档方式的优缺点比较:

对于新建或升级的网站,建议规划要求网站系统提供归档功能,实现主动归档的方式。对于已有网站,建议采用被动归档方式实现。网页归档时应将网页的元数据同时归档,归档元数据项应包括标题、发布时间、来源、关键词、作者、摘要、网址等。对于有附件的网页,归档时应将附件与网页作为一件同时归档。当一项内容,如一条公告、一份政策文件等因篇幅较长而分为多个页面显示时,应将该项内容所对应的多个页面作为一件同时归档。

四、 制定规则:使得网页归档有序合规

根据国家标准《档号编制规则》,档号的组成应为“全宗号-年度-保管期限代码-类别代码-顺序号”。例如“全宗号-2018-Y-DAZW-0001”。每一份网页档案下边有多个电子文件时, 电子文件命名时就会增加一个字母”D”和两位阿拉伯数字的顺序号,如“全宗号-2018-Y-BSDT-0001D01“,以此作为本件网页档案的组件。一方面可以保证档号清晰,另一方面与国家相关标准保持一致。

根据网页档案的档号规则,对网站网页档案采用编码命名的方式,设置层级文件夹的形式进行存储,依次按不同的“年度-保管期限-类别”建立层级文件夹。例如“全宗号\2018\Y\DAZW\”,即:

一级文件夹:全宗号

二级文件夹:年度

三级文件夹:保管期限(永久/30年/10年)

四级文件夹:类别(有子类别的,只取最后一级类别建文件夹)

五级文件夹:顺序号

五、 建设系统:保障网页归档安全保管

应建设网页归档系统,实现网页信息的收集、整理、移交接收等功能。网页归档系统需要能够收集网页信息并将其转换成符合要求的文件格式进行归档和保存。网页归档系统要能捕获和记录网页信息及网页信息归档过程的元数据。同时网页归档系统有提供相关技术手段保障归档网页信息的安全。

上一篇:
联系我们