
科学研究与应用
Journal of Scientific Research and Applications
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7071(P)
- ISSN:3080-0757(O)
- 期刊分类:科学技术
- 出版周期:月刊
- 投稿量:5
- 浏览量:740
相关文章
暂无数据
中澳网页资源长期保存对比研究及其启示——以WA和PANDORA为例
Comparative Study on the Long-Term Preservation of Web Resources between China and Australia and Its Implications ——Taking WA and PANDORA as Examples
引言
随着网络技术的不断发展,互联网已经成为现代社会信息传播和交流的主要活动场所。然而,网页资源的生命周期较短,许多有价值的信息在短时间内消失。为了保存这些重要的数字文化遗产,各国纷纷开展了网页资源的长期保存项目。澳大利亚的PANDORA项目和中国的WA项目(Web Archive)是其中的典型代表。本文通过对这两个项目的对比研究,探讨中澳在网页资源长期保存方面的异同,重点分析两者的收集对象、收集频率、收集策略及收集成效,为中国的网页资源保存工作提供启示。
通过对中澳网页资源长期保存项目的对比研究,可以为中国的网页资源保存工作提供借鉴,推动中国在数字文化遗产保存领域的发展。同时,本研究也有助于提升公众对网页资源保存重要性的认识,为相关政策的制定和实施提供参考。
本研究使用以下研究方法。文献分析法:通过查阅相关文献,了解PANDORA和WA项目的历史背景、发展现状及保存策略。网络调查法:通过访问PANDORA和WA项目的官方网站,获取最新的保存数据和项目进展。对比分析法:对比分析PANDORA和WA项目在收集对象、收集频率、收集策略及收集成效等方面的异同,总结各自的优势和不足。
1 文献综述
澳大利亚的PANDORA项目是该国网页资源长期保存的核心实践。常唯、孟连生详细阐述了PANDORA项目的起源、目标、采集范围和技术架构等。该项目旨在收集、保存和提供访问澳大利亚的网络出版物,涵盖政府、学术、文化等多个领域的网页资源 。赵俊玲指出,PANDORA项目在选择采集对象时,遵循一定的标准,如资源的代表性、独特性以及与澳大利亚国家利益的相关性等。在项目实施过程中,PANDORA项目采用了一系列技术手段。程伟杰提到,该项目运用网络爬虫技术进行网页抓取,同时对抓取的网页进行格式转换、元数据提取等处理,以确保网页资源的长期可访问性和可读性。此外,PANDORA项目还建立了完善的质量控制体系,对采集的网页进行定期检查和维护,保证数据的完整性和准确性。
澳大利亚国家图书馆网页存档项目(PANDORA项目)取得了显著成果。颜运梅指出,PANDORA项目保存了大量具有历史价值和文化价值的网页资源,为澳大利亚的社会记忆留存做出了重要贡献。从社会记忆视角来看,陈慧、乐茜等认为,PANDORA项目通过对网页资源的保存,为澳大利亚社会提供了一个数字化的记忆空间,有助于后人了解澳大利亚的历史、文化和社会发展变迁。PANDORA项目的成功实践也对国际网页资源长期保存领域产生了广泛影响。闫晓创提到,PANDORA项目的经验和模式为其他国家开展网页资源长期保存工作提供了参考范例,其在政策制定、技术应用和合作机制等方面的做法值得深入研究和借鉴。杨道玲提到,我国 Web 资源保存尚处于试验和论证研究阶段。中国国家图书馆启动了 “网络信息资源保存” 试验项目,探索 Web 资源的采集与保存的相关法律、技术、标准等问题,按照表层网页和深层网页分别进行采集和保存。中国Web信息博物馆计划由北京大学主持开发,包括历史网页存储系统和回放系统,可收集中国所有静态网页,并提供历史网页的存档和回放。
2 中澳网页资源长期保存现状比较
2.1 收集对象
2.1.1 PANDORA的特色保存内容
PANDORA项目在选择保存对象时,特别关注与澳大利亚相关的网络资源,尤其是土著澳大利亚人的文化遗产、社会问题等。这些资源具有较高的历史和文化价值,能够反映澳大利亚的社会变迁和文化多样性。
2.1.2 WA的普遍保存内容
中国的WA项目则更注重对全国范围内的网页资源进行普遍性保存,涵盖政府网站、新闻媒体、学术机构等多个领域。WA项目的保存对象较为广泛,旨在全面记录中国的互联网发展历程。
2.2 收集频率
PANDORA项目根据资源类型的不同,采取不同的收集频率。例如,对于新闻网站和期刊,PANDORA通常每周进行一次收集;而对于专著类资源,则可能只进行一次性的收集。相比之下,中国的WA项目通常采用定期收集的策略,频率相对固定,以确保资源的及时更新和保存。
2.3 收集策略
PANDORA项目采用以“选择性采集为主,全面性采集为辅”的策略,即在选择性保存有重要价值的网络信息资源的基础上,定期对.au域名的网站进行大规模的全面性采集。项目制定了详细的选择指南,确保保存的资源具有较高的质量和代表性。而中国的WA项目则更倾向于全面收集,尽可能覆盖更多的网页资源,以确保信息的完整性和全面性。
2.4 收集成效
2.4.1 资源保存体量方面
PANDORA项目自1996年启动以来,已经保存了大量的网页资源,涵盖文本、图像、音频、视频等多种类型。据PANDORA统计数据显示,截止2023年11月,URL Snapshots数量达160亿,存储空间达774TB。从搜索主题来看,PANDORA项目网络档案保存内容多集中于政治,环境,人与文化这三个主题,占比达15%,12%和10%。国防和人文科学则稍显欠缺。其他搜索主题数量相对比较均衡。从文件格式来看,PANDORA项目网络档案保存格式多为image,HTML和other。PANDORA项目——Australia's web archive数据存储体量巨大,存储内容丰富,是一个不断增长的澳大利亚在线收藏出版物。从这一点来看,其发展基本符合定位。但从搜索主题个类目占比来说存在着某些类别主题占比差距过大的问题。
中国的WA项目同样在资源保存数量上取得了显著成效,保存了大量的政府网站、新闻媒体和学术资源。第55次《中国互联网络发展状况统计报告》显示,截至2024年12月,我国网页数量为3994亿个,较2023年12月增长4.5%,域名总数为3302万个,其中,“.CN”域名数量为2082万个。
2.4.2 资源保存针对性方面
PANDORA项目在资源保存方面具有较强的针对性,特别关注与澳大利亚相关的文化遗产和社会问题。收集工作由国家图书馆和各个参与馆共同承担,资源存档前都会经由资源出版者授权,在此基础上,再对存档的每一个title进行编目呈现,也提供多种资源发现途径,在此过程中也在与其他资源进行整合。相比之下,中国的WA项目在资源保存的针对性上相对较弱,更多关注资源的全面性和广泛性。
3 详细对比分析
3.1 项目背景与发展
PANDORA项目(Preserving and Accessing Networked Documentary Resources of Australia)由澳大利亚国家图书馆于1996年启动,旨在保存和提供澳大利亚网络文献资源的长期访问。该项目最初是为了应对互联网资源的快速消失和变化,确保澳大利亚的数字文化遗产得以保存。
WA(Web Archive,网络信息资源保存)发展历程主要分为三个阶段,初始实验阶段,应用部署阶段和长远发展阶段。各阶段特点如下:初始实验阶段(1996-1999年):WA实验项目率先由欧美各国开展,IA、PANDORA等项目相继成立,WA组织结构开始建立。采集规模较小,以实验探索为主;应用部署阶段(2000-2004年):各国从国家层面重视WA,建立国家或区域战略合作保存体系。WA项目研究内容及深度不断拓展,关注保存工具使用、深层网络采集和用户呈现等。国际关注度提升。WA系统的应用与发展受到重视,欧美发达国家建成多个长期保存系统,如LOCKSS、e-Depot、Portico等;长远发展阶段(2005年以后):相关组织机构和项目更关注WA的长远发展,如将Web资源更好地呈现给用户、提供检索服务和数据挖掘等。
中国的WA项目(Web Archive)自2003年启动,起步相对较晚,由国家图书馆牵头,旨在全面保存中国的网页资源。该项目已经保存了大量的政府网站、新闻媒体、学术机构等网页资源,记录了中国互联网的发展历程。
3.2 资源选择与保存策略
PANDORA项目采用选择性保存策略,优先保存与澳大利亚相关的网络资源。项目制定了详细的选择指南,确保保存的资源具有较高的历史和文化价值。例如,PANDORA特别关注土著澳大利亚人的文化遗产、社会问题、政府出版物、高等教育机构的出版物等。
WA项目采用全面收集策略,尽可能覆盖更多的网页资源,以确保信息的完整性和全面性。项目不仅保存政府网站和新闻媒体,还保存了大量的学术资源和民间网站,确保了中国互联网资源的全面记录。
3.3 技术架构与保存系统
PANDORA项目使用PANDAS(PANDORA Digital Archiving System)系统进行资源的管理和保存。PANDAS系统是一个基于Web的集成系统,支持分布式用户通过Web界面进行资源的保存和管理。系统包括描述层、应用层、商业层和数据层,确保了资源的高效保存和长期可用性。
WA项目采用分布式存储和管理系统,确保资源的高效保存和长期可用性。项目使用先进的数据采集技术,定期对网页资源进行抓取和保存,确保资源的及时更新和完整性。
4 网页资源保存对比分析
4.1 收集对象的对比
PANDORA项目在资源选择上具有较强的针对性,特别关注与澳大利亚相关的文化遗产和社会问题。而WA项目则更注重资源的全面性,覆盖了政府、新闻、学术等多个领域。
4.2 收集频率的对比
PANDORA项目根据资源类型的不同,采取不同的收集频率,确保资源的及时更新。而中国WA项目则采用一周以内更新的占10.36%,一至三个月内更新的占56.72%,相对稳定的收集策略频率较为固定,也可有效保证资源的全面覆盖。
4.3 收集策略的对比
PANDORA项目采用选择性收集策略,确保保存资源的质量和代表性。而WA项目则更倾向于全面收集,确保信息的完整性和广泛性。
4.4 收集成效的对比
PANDORA项目在资源保存数量和质量上取得了显著成效,特别关注文化遗产和社会问题的保存。网络信息资源存档保存,既需要档案部门率先引领,同时也需要计算机技术部门的配合,技术难题是攻坚克难的关键,以保证网站的平稳运行。不仅如此,WA保存主体也可采取合作共建的方式,促进其他文化部门的参与,实现信息高效互联互通的同时更好服务群众,在资源保存的全面性上取得了显著成效,基本确保了中国互联网资源的全面记录。我国网络信息资源的发展势头十分强劲,在数量、质量和服务方面都取得了新的进展,呈健康发展的态势。政府网站与商业网站提供的交互服务、信息内容都呈递增状态。
5 启示
5.1 建立合作分散的保存责任体系
澳大利亚的PANDORA项目通过与多个图书馆、档案馆及其他相关机构的合作,建立了分散的保存责任体系。这种合作模式不仅减轻了单一机构的负担,还提高了资源保存的效率和质量。中国可以借鉴这一经验,建立全国性的网页资源保存合作网络,推动各机构之间的协同合作。网络信息资源存档保存,既需要档案部门率先引领,同时也需要计算机技术部门的配合,技术难题是攻坚克难的关键,以保证网站的平稳运行。不仅如此,WA保存主体也可采取合作共建的方式,促进其他文化部门的参与,实现信息高效互联互通的同时更好服务群众。
5.2 与出版者进行广泛合作
PANDORA项目通过与出版者的广泛合作,确保了资源的合法保存和利用。中国在网页资源保存过程中,也应加强与出版者的合作,确保资源的合法性和可持续性。
5.3 科学确定资源收集的原则和范围
PANDORA项目在资源收集方面具有较强的选择性,确保了保存资源的质量和代表性。中国在网页资源保存过程中,应制定科学的资源收集原则和范围,确保保存的资源具有较高的历史和文化价值。
5.4 重视数字信息长期保存的标准化
PANDORA项目在数字信息保存的标准化方面做了大量工作,确保了资源的长期可用性。中国也应加强数字信息保存的标准化建设,制定统一的技术标准和操作规范,确保资源的长期保存和利用。构建体系化工作网络,一方面便于工作人员高效抓取网络信息资源;另一方面便于公众对网络信息资源的利用。这两点看似简单实则会涉及隐私,版权等多方面问题,政府应围绕这一过程,制定完善的法律政策,明确WA保存的目标,使WA工作有法可依。
5.5 提升公众对网页资源保存的认识
通过宣传和教育,提升公众对网页资源保存重要性的认识,推动社会各界共同参与网页资源的保存工作。国家有关部门应采用顶层设计,统一领导,分层管理的方式来建设我国的网络信息资源保存项目。同时,对具有保存价值的网络信息资源有选择性的进行保存和研究。
6 结语
6.1 研究结论
通过对中澳网页资源长期保存项目的对比研究,可以发现PANDORA项目和WA项目在资源选择、收集频率、收集策略及收集成效等方面存在显著差异。PANDORA项目在资源保存的针对性和质量上具有优势,而WA项目则在资源保存的全面性和广泛性上取得了显著成效。PANDORA项目通过管理、经济、社会、技术和文化五大要素的协同推进,成功实现了网络信息资源的归档和长期保存。我国应借鉴其经验,通过完善政策法规、优化资金配置、加强多方合作、制定技术标准和保存多元文化资源等措施,推动网络信息资源归档工作,保护数字化遗产,留存互联网社会记忆。
6.2 未来展望
未来,中国在网页资源保存工作中可以借鉴PANDORA项目的经验,建立合作分散的保存责任体系,加强与出版者的合作,科学确定资源收集的原则和范围,重视数字信息长期保存的标准化,提升公众对网页资源保存的认识。通过这些措施,推动中国在数字文化遗产保存领域的发展,确保互联网资源的长期保存和利用。
参考文献:
- [1] 陈慧,乐茜,罗慧玉,等.社会记忆视角下网络信息资源归档路径探析——以PANDORA项目为例[J].数字图书馆论坛,2020(06):15-21.
- [2] 颜运梅.澳大利亚国家图书馆网页存档项目研究[J].图书馆,2015(06):77-81.
- [3] 闫晓创.国外Web Archive项目对我国的借鉴和启示——以澳大利亚的PANDORA项目为例[J].档案学研究,2012(05):79-83.
- [4] 傅泽平.PANDOR项目及其对网络信息长期保存的启示[J].情报杂志,2012,31(05):172-175.
- [5] 程伟杰.澳大利亚数字档案PANDORA项目及其启示[J].档案,2008(03):8-10.
- [6] 孙月娥.澳大利亚网络资源档案PANDORA项目及其启示[J].兰台世界,2007(18):22-23.
- [7] 常唯,孟连生.为未来保存历史——澳大利亚网络资源档案PANDORA介绍[J].数字图书馆论坛,2006(06):25-31.
- [8] 赵俊玲.澳大利亚网络信息保存项目PANDORA及其启示[J].情报理论与实践,2004(05):552-554.
- [9] 李华,吴振新,郭家义,等.Web Archive发展历程与发展趋势研究[J].现代图书情报技术,2009(01):2-9.
- [10] 杨道玲.中文Web资源保存现状与思考[J].大学图书馆学报,2006(04):56-60.
- [11] 郭冰洁.档案学视角下网站信息资源保存问题研究[D].河北大学,2015.
- [12] 杨友清.网络信息资源长期保存机制研究[D].南京大学,2013.
- [13] 吴丹.基于档案管理视角的网站保存研究[D].黑龙江大学,2013.
- [14] 魏佳.我国网络信息资源永久保存策略研究[D].辽宁师范大学,2012.
- [15] 毛凌翔.网络信息资源档案化及其服务的探讨[J].档案学研究,2012(02):50-55.
- [16] 耿磊.对网页信息资源长期保存的若干思考——Internet Archive和Web InfoMall项目的启示[J].湖北档案,2012(02):12-14.
- [17] 武磊.国内外网络信息资源保存问题探究[J].云南档案,2011(12):41-43.
- [18] 王小林.国内外图书馆数字资源的长期保存探讨[J].数字与缩微影像,2010(03):18-20.
- [19] 刘亮.网络信息资源保存问题研究[D].北京邮电大学,2006.
