集合描述

图片By.迈克尔·D·贝克维恩

收集说明(CD)兴趣小组章程

TDWG利益集团

召集人

沙龙授予菲尔德博物馆,芝加哥,美国

贾宁•琼斯菲尔德博物馆,芝加哥,美国

凯特webbink.菲尔德博物馆,芝加哥,美国

马特•伍德伯恩,英国伦敦自然历史博物馆

(过去共同召集人:Deborah Paul,Alex Thompson)

目前有兴趣从事CD工作的人

看到成员列表

动机

此收集描述(CD)兴趣组从自然收集说明(NCD)组的工作中演变。CD成员正在开发CD数据标准,用于描述自然历史材料的整个集合。示例包括来自已经进行的许多发现的许多航行的标本,观察数据,视觉资源,照片和材料的集合。集合说明记录包含有关集合的集合,访问和使用以及获取更多详细信息的信息。

有一些有价值的收藏没有在任何数据库中存储信息,而且许多没有在互联网上出现。目前与标本记录级数据记录共享的机构级和收集级数据通常是稀疏的,而且在任何方面都不完整。这种收集级数据目前被映射到生态元数据语言(EML)标准,该标准最初是为满足生态社区的数据共享需求而开发的。EML数据文件中提供的数据经常将关于正在共享的数据集中内容的数据与关于整个集合或机构的数据合并在一起。

绘制到EML的收集级信息以及目前提供的生物多样性数据集不足以满足当前机构、区域、国家或国际规划的数据需求。对于收集数据动员的战略优先次序来说,迫切需要越来越丰富的关于藏品及其所属机构的数据。这个级别的数据共享也有问题,因为它目前还不能通过API使用。换句话说,不存在机器对机器的数据共享或数据更新功能。这意味着全球范围内的所有收集级信息都必须人工手动更新,因此在不同的资源之间很快就会过时和不同步。此外,EML数据模型中提供的集合数据不能用于自动发现诸如集合的哪一部分是数字化的或地理引用的这样的信息。原始的非传染性疾病宪章和工作认识到其中许多问题但组内的所有成员同意合同需要更新新的动力来满足这些需求,包括计划GBIF发展的一个新的资源管理和共享collections-level数据。

成为参与

召集人很高兴听到任何人,特别是:

  • 那些在实现基于web的信息系统方面有技能的人,或者
  • 在写描述的基础上,采访收集的所有者,或收集的所有者自己想测试和使用标准和相关的软件,或
  • 只是对资源发现系统中的收集描述有兴趣。

历史和上下文

CD是什么?

作为解决危急需求的一部分,以更好地了解全球收集持有人及其控股的知识,这一CD组认识到需要进一步开发和扩展数据标准,以捕获目前EML标准的一部分的概念。在GBIF采取步骤,创建自动收集级别数据共享资源,该资源将包含当前在GRBIO中的数据。从这个意义上讲,CD组识别我们的路径是其中一个共同开发一个标准和一个参考实现并生成关于该参考实现中的数据和数据模型的标准文档,以便其他人能够构建兼容的系统。与此同时,我们将努力提供一套丰富但精心策划的术语和关系,旨在解决已知的知识差距和可访问性问题。我们理解保持模型尽可能简单的必要性,并深思熟虑地选择哪些收集级别的数据对于在规划时为决策者和研究人员提供最佳数据至关重要。例如,让这些数据以结构化的格式、健壮的API可用,意味着我们可以更容易地显示有多少植物标本馆正在数字化——以及完成了多少工作。将这种类型的机构级和收集级数据可视化还提供了一种展示这种元数据价值的迷人方式。

CD标准旨在描述已经在其他电流和新兴TDWG标准下单独表示的对象组的特征,例如达尔文核心(标本,观察)或奥杜邦核心(图像,现场笔记本)。施加了这种限制,使得CD的范围可以狭隘地定义到TDWG组织已经建立了构成有用描述元素的现有知识体的领域。

非传染性疾病是什么?

自然收藏说明(NCD)是用于描述自然历史对象组的数据标准;一个NCD记录描述了整个组。本标准由此实施史密森尼野外图书计划

什么是集合描述?

在自然历史上,社区收藏性的性质可以在组织内部和组织内广泛变化。出于本标准的目的,集合将简单地是共享一些共同特征的项目组,使得它们是描述为组的有用。这些特征可能包括:

  • 收藏品由特定的人收集或制作的物品
  • 来自同一个地方的东西
  • 所有数字化FieldBook的页面
  • 数据集或数据库中的一组记录
  • 在单一出版物中引用的所有样本
  • 属于某个分类组的标本
  • 所有在研究航行中收集的标本
  • 所有标本都保存在同一地点
  • 所有标本由个别策展人管理

这个小组将列出一个标准的方法来列举群体层面上的共同特征,以便向他人传达存在和性质。这些群体级别的特征可能来自各种来源,包括单个记录的集合,这些记录已经数字化,或者通过手工清点实物收藏品来手工生成。

收集描述的用途是什么?

一些主要领域是由收集级别的描述记录提供的:

  • 提供每个集合的描述性概述
  • 在多个位置的集合之间建立关系
  • 资源和专业知识发现
  • 作为收集管理流程的援助
  • 为其他数据记录提供完整的元数据(例如,样本记录)

  • 速度。自然历史材料的集合可以很大。因此,详细的项目级描述通常需要很长时间才能生成。收集级别的记录可以确保可以快速揭示关于集合的知识。保持整个集合中共同的细节也是有用的,而不是用每个项目的记录重复。

  • 重新分散集合。“虚拟馆藏”是另一种链接资源的方式。有些机构出于策展目的将藏品划分到不同的部门。研究人员需要分别与各个部门联系,以评估完整的藏品。类似地,一些收藏,如达尔文的那些,已经分散在几个组织中。这些集合可以在虚拟意义上重新统一,使用每个组件的集合描述。
  • 指向项目级详细信息。收集说明是冗长的,因此补充了项目级数据库生成的原始数据的行。可以为集合创建集合描述记录,但该集合中的项目是否具有数据库中的记录,与否。如果存在包含项目级详细信息的数据库,则可以将链接提供给该数据库以提供更多详细信息。如果该集合没有项目级数据库,则产生收集说明会降低使用Web进行资源发现的研究人员忽视该集合的机会。
  • 帮助与集合发现,管理,和归属的工具。集合描述提供了一个广阔的视角。一套集合描述可以为任何组织提供多种附加用途:
  • 一份收集清单有助于备灾、预防和恢复。(巴西国家博物馆、柏林植物标本馆和伊拉克国家博物馆都是相关的例子,以探索收集描述数据集将如何帮助的背景)。CD元数据既可以防止数据丢失,也可以防止集合丢失,还可以帮助跟踪来源。
  • 它可以帮助评估整个组织的优势和差距,从而简化寻找具有相同或互补优势的合作伙伴的过程。
  • 它可以帮助确定哪些领域应该是战略计划中的发展优先领域,并为项目一级的编目确定优先次序。
  • 通过记录保护问题,可以建立保护/保存治疗的优先级。如果尚未知道它们存在,则无法保护集合。
  • 技术过时的预警。收集描述可以用于防止以物理形式的数据丢失或以靠近技术过时的格式的数据。为包含格式信息的数据集创建集合描述将有助于充当提前警告,以便数据可以传送到当前格式。然后数据成为数字保存程序的一部分,而不是数字考古项目。
  • 数据的多重使用。数据的重用很重要。馆藏描述记录可以使用现有已出版或未出版的资源,如印刷目录、展览规划文件或档案查找工具来创建。相反,记录在集合描述记录中的数据可以用来制作展示标签。这些数据也可以提供给外部倡议,其中一些倡议希望合并来自多个来源的数据,以提供生物多样性收集的区域覆盖。

历史和背景

标准化收集级描述的第一步始于一个被称为BioCASE的欧盟框架V项目,即欧洲生物多样性收集访问服务。这个项目从2001年11月一直持续到2005年初BioCASE项目网站。)

一个针对激光主要由北美自然历史图书馆员和档案管理员组成的程序工作组RAVNS(自然科学可利用资源)使BioCASE元数据标准更加普遍适用,而不是只处理标本收集,它现在是一个涵盖任何类型的自然历史收集(标本,原创作品,照片,档案,出版材料或混合物)。在新西兰基督城举行的2004年TDWG会议上的讨论得出结论,描述自然历史收集的标准将非常适合全球生物多样性信息基金(GBIF)正在制定的一套数据标准。2008年,非传染性疾病利益集团召开会议并提交了一份标准草案,但该标准从未得到批准。自然馆藏描述(NCD)利益小组在2016年和2017年TDWG上的会议以NCD利益小组之前的工作为出发点,确认了继续需要一个馆藏描述标准。

NCD是介于一般资源发现标准(如Dublin Core)和富集合描述标准(如EAD)之间的标准。映射使从NCD记录提取Dublin Core记录成为可能,或者相反,将NCD记录填入EAD记录。非传染性疾病利益小组将欧洲联盟第六框架方案“综合系统”正在进行的收集说明工作和非洲非传染性疾病研究中心在区域联络组主持下进行的工作与发展中国家工作组成员进行的工作结合起来。

原始NCD核心成员包括Wouter Addink(NL,技术 - NCD Toolkit),Carol Butler(Smithsonian,术语),Markusdöring(BGBM,Technical-RDF),Doug Holland(Mobot,Data Mapping),BarbaraMathé(AMNH,数据映射),Connie Rinaldo(哈佛,文件),拉里斯斯普利(GBIF Liaison),Günterwaibel(RLG,资源组织者)

概括

CD计划首先支持,在计划开发标准时开发关于Collection Collection中的收集对象的元数据的标准,以便在以后可以扩展到其他类型的收集(例如海水收集)。

Interest Group正在开发与RDF一起使用的CD,以确保它与TDWG的通用开发体系结构集成。该标准支持聚合来自许多来源的集合描述,并促进资源发现——特别是对于没有Web存在的集合。

CD将在非传染性疾病努力的基础上酌情连接、使用和连接其他标准。小组成员从其他标准组织,如研究数据联盟(RDA)

资源

  • 加入TDWG邮件列表:http://lists.tdwg.org/mailman/listinfo/tdwg
  • CD讨论和文档在GitHub上:https://github.com/tdwg/cd
  • NCD存档的回购文件在https://github.com/tdwg/cd/blob/master/README.md#old-ncd-repository
  • 非传染性疾病数据可以在这里找到https://github.com/tdwg/wiki-archive/tree/master/twiki/data/NCD