可持续的Darwincore混合互操作性

任务组已召集以巩固以前的工作,该工作旨在防止欧姆斯和更广泛的生物多样性社区中的敌人(META)数据标准发展。TG将利用TDWG和GSC的程序和技术进步,以开发DWC的可持续互操作的混合驱动延长。结果将确保可以在用户社区之间自动闯入的混合或兼容DWC兼容形式产生的数据,使社区更靠近。

任务组
图片作者大卫·克洛德

召集人

Pier Luigi Buttigieg.rańssameyer.

核心成员

按名字按字母顺序排列:

名称
安东·范德普特
比尔邓肯
克里斯·芒格尔
约翰·维佐雷克
玛丽娅·迪米特洛娃
马克西姆甜心
Pier Luigi Buttigieg.
彼得·普罗沃斯特
拉莫纳墙壁
rańssameyer.
Saara Suominen.
托马斯·斯特杰内加德·杰佩森
蒂姆·罗伯特森
沃德·帕特兰人
甘毅明

动机

任务组需要在TDWG的达尔文核心(DwC)[1]标准和基因组标准联盟(GSC)[4]的任何(x)序列(MIxS)[2,3]检查表之间建立语义精确和持续的互操作性。

这两个事实上,(META)数据标准已经存在多年,但是通过一个或另一个仍然导致信息的孤独,并导致系统之间缺乏持续的互操作性INSDC [5]和OBIS [6]或GBIF [7]。同时,一些利益相关者正在创建对DWC / MIX映射的定制/本地解释,这可能进一步围绕OMIC生物多样性社区的数字持有。

在这里,我们的目标是在这个问题[8-11]上巩固以前的工作,以稳定,运作,更权威的跨嵌入这些事实上的标准。这正成为迫切需要,通过进入省略的生物多样性研究和运营领域的国际努力。

该小组的一个主要动机是确保“数字健康”努力,利用联合国海洋科学促进可持续发展十年(2021-2030年)下利用组学技术观察海洋生物的巨大兴趣;https://oceandecade.org/). 围绕这一全球呼吁的利益相关者要么使用这两个标准,要么希望在这两个标准之间进行合作,作为十年数字战略的一部分(请参阅实施计划). 作为这些标准的保管者的组织需要就功能性和稳定的互操作解决方案达成一致。否则,在利用组学生物多样性数据加深我们对海洋生态系统的了解、增加我们对变化驱动因素和后果的了解以及为政策决策提供信息方面,将会出现越来越多的混乱和数字开销。

目标输出和结果

阶段1

  • 在先前工作的基础上,创建并完成DwC的MIxS驱动扩展,与GSC MIxS发布周期同步,并通过IRIs映射
    • 通过类似SSSOM的方法探索项目级IRI绑定和可扩展映射
  • 有资格在DWC中的混合领域及其对应物之间的所有映射
    • 资格将解释如果要预期差异,例如语法,并建议如何解决这些问题
  • 探索可持续技术,以系统的方式保持延长和替代映射[10]
  • 草拟TDWG与GSC之间的谅解备忘录(MOU)如何维持和发展该映射以保护和深化互操作性

阶段2

  • 对于选定的字段,建议在DwC中使用受控词汇表,以提高一致性和DwC混合对齐
  • 对于选定的字段,从策划的本体列表中提出用于语义控制的术语列表

第3阶段

  • 社交延期和呼吁社区反馈
  • 测试演示练习中的技术互操作性(例如,使用与OBIS或GBIF模拟的混合模拟INSDC数据库)

战略

  • 在TDWG内建立并巩固以前的工作(混合样品延伸
  • 使用一系列在线“扩展”来解决上述目标
  • 不断向GSC合规和互操作性小组(CIG)、GBWG和TDWG执行委员会报告,以确保高层认可
  • 与跨组学和生物多样性工作的用户协商,确保该工作组的工作可在全球范围内实施并增加价值

成为参与

邀请有关各方观看并贡献GitHub存储库(将在任务组批准时将设置[11])。

历史/背景

  • 三十多年来,TDWG在处理和使用生物多样性数据和元数据方面发展了能力和专业知识。
  • 在过去的15年中,GSC一直在收集专家和主要序列数据设施,以便为序列数据开发有意义的元数据。
  • 在过去的十年中,多OMICS方法正在成为生物多样性研究,观察和监测中的主流特征。
  • 两个字段的主要基础设施都采用了开发的标准和请求兼容输入数据。但是,相关标准跨组织不一样。
  • 例如,INSDC资源接受MIxS兼容的元数据,而OBIS和GBIF开发了利用DwC的系统。
  • 近年来,TDWG和GSC--这是基于基层,主要是学术企业 - 正式形成他们的标准制定程序并提高其技术能力,支持更多界限彼此可持续互操作。
  • GSC和TDWG的增加的能力使我们有机会重振以前的努力,使混合物和DWC对齐。这种努力包括:
    • 达尔文核心的Hackathon-Workshop [9]和混合标准对准(2012年2月)
  • 这使我们有机会严格和持久地链接GSC和TDWG标准,以防止一个或另一个漂移的用户社区。

资源

  1. 达尔文核心。https://dwc.tdwg.org.
  2. 混合https://gensc.org/mixs/
  3. yilmaz p,Kottmann R,Field D,Knight R,Cole Jr,Amaral-Zettler L等。有关标记基因序列(MIMARK)和关于任何(X)序列(混合)规格的最小信息的最小信息。NAT BIOTECHNOL。2011年5月; 29(5):415-20。DOI:https://doi.org/10.1038/nbt.1823. PMID:21552244;PMCID:PMC3367316。
  4. 基因组标准财团https://gensc.org.
  5. 国际核苷酸序列数据库协作https://insdc.org
  6. 海洋生物多样性信息系统https://obis.org.
  7. GBIF.https://www.gbif.org/
  8. 混合DWC Extension.https://github.com/tdwg/gbwg/tree/main/dwc-mixs/dwc.
  9. TuamaEó,德克J,Drögeg,döringm,田间D,Kottmann R,MA J,Mori H,Morriis N,Sterk P,Sugawara H,Wieczorek J,Wu L,Yilmaz P.会议报告:达尔文的Hackathon-Workshop核心并混合标准对准(2012年2月)。站立基因组SCI。2012年10月10; 7(1):166-70。DOI:https://doi.org/10.4056/sigs.3166513. Epub 2012年9月28日。PMID:23451295;PMCID:PMC3570805。
  10. https://github.com/microbiomedata/metadata_converter.
  11. github存储库:https://github.com/tdwg/gbwg.