摘要
该引物旨在为ABCD提供一个容易可读的背景,并且应该采取任何知识的任何人,他们无法理解原则和更详细的技术规范。给出了通过对规范性文本的引用辅成的实施例。
目的
ABCD - 访问生物收集数据 - 模式是生物收集单元的常见数据规范,包括生物收集单位,包括生物和保存的标本,以及未生产凭证标本的现场观察。它旨在支持详细的主要收集和观察数据的交流和整合。
世界上所有的生物收集都包含许多数据项,包括特定标本(例如分类,海拔,性别)和特定(例如控股机构)元素的特定样本(例如分类群)。使用的元素集根据集合而异。ABCD为科学家和策展人提供了标准的元素名称及其定义。对于任何收集使用超过标准中定义的元件的任何集合,不会预期(甚至可能)。
设计目标是全面且一般,包括一个广泛的概念,这些概念可能在集合数据库中使用,但仅授权制定规范功能所需的最少元素。ABCD故意不涵盖分类数据,例如同义词,除了在标识中使用名称。同样地,也不包括出口相关信息,例如分配范围,指示值等。使用的元素和概念提供了与生物收集数据领域中的其他标准可能的兼容性,例如Hispid,Darwin Core等。ABCD版本2是TDWG标准,该标准由2005年9月的年度TDWG会议批准。本标准由GBIF推广全球使用。技术数据规范作为XML架构投射。
顶级结构
ABCD架构高度结构化,以管理记录可能包含的大量数据。
架构的顶级安排如下:
GUID
< >元数据
<单位>#观察和标本
<单位>
......
最低ABCD记录可以如下所示:
<?xml版本='1.0'编码='utf-8'?>
<数据集xmlns = " //www.nancyp.com/schemas/abcd/2.06 " >
gerdmüller name>
< >电子邮件gerd@dfb.de > < /电子邮件
< / TechnicalContact >
< / TechnicalContacts >
< ContentContact >
另一个 name>
<电子邮件> a.another@fake.org 电子邮件>
< / ContentContact >
contentContacts>
< >元数据
<描述>
<表示语言='en'>
pontaurus集合 title>
< / >表示
描述>
2001-03-01T00:00:00 DIREMODIED>
< / RevisionData >
metadata>
<单位>
<单位>
< SourceInstitutionID > BGBM < / SourceInstitutionID >
pontaurus sourceId>
1136 UnitID>
单位>
单位>
> < /数据集
datasets>
从这可以看出,基于ABCD的XML文档可以包含来自多个数据集的记录,每个数据集分别处理。每个数据集具有全局唯一标识符(GUID)以及有关可以联系谁的信息,以便进一步详细信息,用于数据集的内容和技术信息。
然后有两个主要组,一个包含关于整个数据集的元数据,另一个包含实际数据记录的另一个。
Metadata部分保存了关于整个数据集的信息,它有以下结构:
元数据
- 描述
——图标URI
-范围(地理生态和分类)
- 版本
- 修订数据(创建者,贡献者,创建和修改日期)
- 拥有者
- 知识产权(IPR)陈述
第二个主要部分叫做UNITS,它保存了从原始数据集中选择和导出的所有记录,每个记录都是一个UNIT。这是ABCD最大的组成部分,有以下高层结构:
单位
单元
在这里,我们可以区分几个领域。
其中大多数不会出现在实际的XML层次结构中,
因为ABCD 2.06避免使用仅用于将项目组合在一起的容器元素:
- 单元级元数据
- 记录单位的基础和种类
- 识别
- 集合域特定数据
-单元关系(关联和集合)
-命名的收集和调查
- 收集活动和网站特征
- 测量和事实
-单位扩展区域
使用建议
最初,ABCD可能会出现对新用户的以某种方式复杂,但由于其设计的原则是已知的,将发现在生物收集中保持的数据如何与定义的结构相适合。ABCD高度结构化,以管理生物收集记录可能包含的大量数据。关于提供信息本身在管理信息本身的先前练习决策的地方的一些决定,尽管通常数据集将对应于集合的信息,并且数据集中的每个单元将与记录相关联来自特定标本或生物收集中的观察的信息。
在ABCD中几乎没有内部引用和(几乎)没有递归结构。这意味着可以将ABCD视为一个单根文档,它允许更容易、更快地进行处理,而没有使用id的许多关系结构所固有的不便。
ABCD旨在全面,旨在定义所有要素的语义,为自然历史收集社区提供统一的方法,以接受详细信息(可用)并开发一个原型本体,作为迈向集合的第一步本体论。
ABCD中遵循的变量原子化应该允许以不同程度的细节和标准化提供数据,接受来自各种来源的数据并支持数据集成。
包含在ABCD中的可扩展插槽不应用于模式的个性化适应。在当前版本中缺少的元素之前,它们相当于快速社区支持,在明确集成到后续版本之前。ABCD可扩展槽还提供包含第三方 - 模式(或其部件),以防止其他社区中的开发重复(例如,地理数据)
在ABCD中,还包含了一些灵活的容器,允许根据数据的学科或特征(例如,更高分类群、测量值、形态特征等)自由定义和重复数据字段。它们采用元素-元素或元素-属性耦合的形式。
除了一些特殊的复杂类型元素(如PersonName或单项元素),通常会在整个ABCD中发现两种特定类型的字符串元素,用语言属性(StringL),以及使用首选属性(StringP),以及两者的结合(stringlp.)在不同的长度(50,255和无界)。使用语言属性扩展的字符串用于指示哪种语言是所包含的文本信息;虽然提供了具有优选属性的字符串,以指示元素内包含的文本值是优选的。
此外,对于某些元素,即使原子化形式不切实际或不可能提供,也可以提供文本数据。为了实现这一点,您可以看到在原子化版本旁边有一个自由文本数据的条款。scientific name元素就是这样一个例子。
SourceInstitutionID那SourceID和UnitID是符合唯一单位记录标识符的三个元素,它们分别对应于持有原始数据源的机构的标识符,该机构内唯一的数据源的名称或代码以及单位记录中的唯一标识符数据源。因此,这些目前是单位级别的唯一强制性信息。例如,查看上面显示的最小ABCD记录。
所有通常的收集信息都应在单元元素中的收集元素中注册。这包括,但不限于代理(收集器),日期,方法,地点,站点坐标和高度。这里可以提供允许,项目,深度,高度,图像引用,方面和注释等附加信息。
可以在单位元素的标识部分中注册标识相关信息。这里,两者都可以注册当前识别和识别历史。值得注意的是,识别事件的结果将符合识别的原因/识别/结果/分类因素,其中较高的分类群和科学名称(或非正式名称,当不可用)可以包括在内作为全科学名称的字符串或作为根据相应的细菌,植物,动物学或病毒代码的亚型雾化的名称。
术语表
附录:例子
一个在土耳其收集的植物标本的典型例子:
<?xml版本='1.0'编码='utf-8'?>
<数据集xmlns = " //www.nancyp.com/schemas/abcd/2.06 " >
gerdmüller name>
< >电子邮件gerd@dfb.de > < /电子邮件
< / TechnicalContact >
< / TechnicalContacts >
< ContentContact >
另一个 name>
<电子邮件> a.another@fake.org 电子邮件>
< / ContentContact >
contentContacts>
< >元数据
<描述>
<表示语言='en'>
pontaurus集合 title>
< / >表示
描述>
2001-03-01T00:00:00 DIREMODIED>
< / RevisionData >
metadata>
<单位>
<单位>
< SourceInstitutionID > BGBM < / SourceInstitutionID >
pontaurus sourceId>
1136 UnitID>
2001 - 03 - 01 - t00:00:00 < DateLastEdited > < / DateLastEdited >
<标识>
<识别>
<结果>
< HigherTaxa >
< HigherTaxon >
< HigherTaxonName > Plumbaginaceae < / HigherTaxonName >
familia highertaxonrank>
highertaxon>
< / HigherTaxa >
Acantholimon Lycaonicum Boiss。&holdr。 fullscientivenamestring>
<植物>
< GenusOrMonomial > Acantholimon < / GenusOrMonomial >
< FirstEpithet > lycaonicum < / FirstEpithet >
< AuthorTeam >木香。& Heldr。< / AuthorTeam >
< /植物>
nameatomised>
< / ScientificName >
taxonidentified>
结果>
<标识符>
<标识符>
rss barcode fullname>
personname>
标识符>
标识符>
< / >识别
识别>
< RecordBasis > PreservedSpecimen < / RecordBasis >
<收集>
< ISODateTimeBegin > 1999 - 08 - 01 t00:00:00 < / ISODateTimeBegin >
< / DateTime >
<代理>
< GatheringAgent >
另一个< < FullName > B / FullName >
person>
gallingagent>
> < /代理
<国家>
土耳其 name>
国家>
<高度>
< MeasurementOrFactAtomised >
2620 diveLValue>
仪表 UnitofMeasurement>
MeashareOrfactomised>
高度>
> <方面
n domination>
> < /方面
收集> < /
单位>
单位>
> < /数据集
datasets>
