开发价值词汇表的最佳实践(“词汇表”)

生物多样性数据质量兴趣集团的词汇表任务组(TG4)正在探索方法,技术TDWG可能用于管理数据项和价值的词汇表。

任务组
图像中沃尔夫冈Hasselman

这里描述了词汇表任务组(TG4)的详细目标和预期结果以及制作它们的步骤。

召集人

Paula Zermoglio.

动机

生物多样性数据越来越多地与无数来源共享。虽然达尔文核心标准定义了一组组织和共享数据的术语,但它没有指的是用于描述每个字段内容的实际值。更频繁的是,不同的来源利用不同的标准来填充田地。虽然这允许通过广泛允许数据出版物,但在数据使用情况方面,这将变得显而易见的是,这种异质性阻碍了数据的发现性和使用。减少这种变异性并改善数据使用的一种方法是为社区提供标准化的词汇表。一些术语存在词汇,但受到特定群体或学科的限制。此外,对于在达尔文核心术语(以下词汇表)下的价值观的生物多样性数据词汇表中没有定义的最佳做法是(下文的词汇表),也没有推荐的环境。此TG旨在在TDWG伞下创建这样的框架,具有构建标准值词汇表的最终目标。我们确定了四个目标受众,可能会受益于此TG的结果:1)数据生产商(即数据收集者),他们可以通过选择列表使用受控词汇表捕获数据,并可以更有效地赋予有价值的信息;2)能够管理,提供和使用数据的数据保管人(例如,博物馆收藏员工)更有效地提供数据; 3) Data aggregators who could use the vocabularies to provide infrastructure for data filtering; 4) Data users for whom more effective filtering would represent improvement in data fitness for use. Currently, other initiatives concerning biodiversity data vocabularies-of-values are scattered, and no other TDWG task group is addressing the issue of the structure of such standards. As this TG is directly related with data quality and use, the Data Quality Interest Group seems the appropriate environment for this work.

目标,产出和结果

1.编写范围文件。该文件将包括以下主题:-确定TDWG需要什么类型的词汇表——与各种ISO词汇表标准保持一致(即,我们需要词汇表、术语词典、受控词汇表、同义词表、本体等等),以及词汇表应该是单语言的还是多语言的。-确定组织词汇构建的策略,考虑:a) TDWG内部的工作结构,包括以下选项:1)创建一个单独的兴趣小组;2)在数据质量兴趣组内创建多个任务组,或与其他TDWG兴趣组相关联;B)领域特定的需求和实践。

2.为TDWG值词汇表开发公共存储库。GitHub将是第一个选项,但将探索其他替代方案,为收集和开发词汇提供用户友好的平台。预计替代平台的探索。

3.制定目前建立TDWG词汇的最佳做法。这种格式主要基于TDWG标准文档规范。

4.建立至少一个示范性词汇根据第3项开发的标准格式。

5.收集和评估已经存在的词汇可以在社区中直接使用,或者可以根据TDWG目的进行修改。这些词汇表的列表将通过公共存储库提供。

6.特定领域组的标识这可能参与编码词汇表和创建通过GitHub存储库可用的联系人列表。

7.深入评估当前状态关于每个达尔文核心术语的控制值的使用,通过聚合器共享的数据。一份报告将被建立。

8.准备所需的词汇表就基于上一份报告的达尔文核心标准而言。

策略

一般

  • 召集人和本集团的核心成员将与任何其他有关方面合作产生报告和文件输出。
  • 讨论和一般工作将通过定期会议进行,会议将在适当的地点远程举行并亲自举行(例如,TDWG 2018、2019、DQIG会议)。
  • 所有活动都将在GitHub的公共存储库中进行跟踪(项目2),该存储库将作为一个独立的存储库或在现有的Interest Group存储库(https://github.com/tdwg/bdq)下创建,作为第一个活动。制作的所有材料也将在该仓库中提供。

细节

  • 范围文档,TG的成员将通过直接或直接使用GitHub来创建用于构建价值观的最佳值,示例性词汇表的最佳实践(项目1,3,4和8),或者其他平台,如早期阶段的谷歌文件。
  • 在TDWG / SPNCH 2018会议上,将在TDWG / SPNCH会议上呈现范围文档,当前最佳实践和示例性词汇(项目1,3和4)。这将是将主动权与更广泛的社区纳入并识别和参与可能对词汇建设有兴趣的个人和域名群体的一个特殊机会。
  • 我们将探讨为构建和存储TDWG词汇表创建用户友好的存储库(第2项)的可能性。我们还将评估成本福利,并为建设平台提供报告/提案。
  • 现有词汇表(项目5)的收集将基于召集人制作的初步列表,该列表已在https://docs.google.com/spreadsheets/d/1SDbtZxEzg0t10OSNDPJN0XSye6mMOTTCIBH3xh-HUYA/edit#gid=0上获得。将进行更广泛的搜索,并通过电子邮件与关键利益相关者(例如,聚合者、数据库管理系统、来自自然历史收藏品的数据提供者)亲自联系,并邀请他们分享正在使用的词汇表。
  • 如前所述,将通过电子邮件和适当的会议(例如,TDWG/SPNCH 2018)亲自确定和联系特定领域的小组(项目6)。
  • 如果需要在TG成员之间和/或与社区或特定领域的其他成员进行进一步的面对面交流,我们将通过TDWG以外的不同机构寻求资助机会。
  • 评估数据的当前状态(7)项由召集人将主要从GBIF基于以前的研究数据,iDigBio VertNet,已经可以通过数据目录的达尔文核心问题&答案GitHub网站(https://github.com/tdwg/dwc-qa/tree/master/data)。

时间轴(暂定)

时间轴

成为参与

实现这个TG的目标将需要来自社区内多个领域的人们的互动。需要的主要知识领域是:一般的标准,特别是Darwin Core,词汇表,从数据提供者和数据用户的角度来看的特定领域的需求。因此,拥有来自所有这些不同专业领域的成员将是有益的。这个TG提出的每一个目标都足够独特,允许社区成员参与其中的一个或多个目标,而不需要完全了解所讨论的所有主题。我们希望这将促进更广泛的参与。

资源