召集人
李Belbin
动机
- 除了数据可用性之外,“数据质量”可能是生物多样性数据用户面临的最重要的问题,对于研究界尤其如此。
- 本任务组正在审查与“数据质量”有关的实践方面,目标是在数据用户和数据提供者之间的关键接口(测试和断言)上提供最佳当前实践。
- 如果所有数据提供者和数据收集者都能使用一套国际商定的核心测试和由此产生的断言标准,那么生物多样性数据就可以得到更大的利用和更适当的利用。
- 数据提供者,特别是像GBIF和它的节点这样的聚合器将增加用户社区的可信度,并可以提供更有效的信息来判断是否适合使用。
- 测试和断言最初将基于达尔文核心标准。
- 我(Lee Belbin)在伍兹霍尔举办的2010年TDWG会议上提出了需要一套与数据质量相关的实用工具。我所要求的是,至少公开展示GBIF在记录中标记问题时所使用的规则。这没有发生,所以我们再次尝试,我们将包括任何向公众提供生物多样性记录的机构。
目标、产出和结果
- 关键数据提供者用于标记记录问题的一组测试和结果数据断言(2017年1月)。
- 在识别和细化测试和断言的过程中出现的一组原则。这些数据有望成为一篇关于“数据质量”测试和断言的论文的基础(2017年1月)。
- 一套正在使用的软件工具,可用于帮助提高数据质量(2017年1月)。这些将基于GBIF数据质量软件资源。
- 创建一套与“数据质量”相关的基础出版物(2017年3月)
- 提交一组标准测试和断言,作为TDWG标准考虑(2018年8月)。
策略
- 在记录级别生成断言的测试和规则比将基于它们的工具或工作流更加基础。因此,优先级将是创建这些测试、规则和断言的全面列表,以及在何处和如何使用它们。例如,GBIFs集可以在https://github.com/gbif/gbif-api/blob/master/src/main/java/org/gbif/api/vocabulary/OccurrenceIssue.java而澳大利亚生活地图集有一个更全面的网站http://biocache.ala.org.au/ws/assertions/codes.这些会形成碱。其他数据提供商包括iDigBio, VertNet, OBIS, CRIA和BISON。
成为参与
- 本任务组欢迎任何对数据质量有实际兴趣和/或对测试、规则、断言、工具或工作流有经验的人。
- 联系召集人
历史/上下文
任务组成立于2014年,是TDWG数据质量兴趣组的一个任务组,即任务组2:工具、服务和工作流。新名称和章程更好地反映了工作组的工作和目标,因为测试和断言比将链接到同样依赖于它们的相关测试和工作流的工具更稳定、更持久。服务似乎更适合TDWG生物多样性服务和客户IG。
资源
- Belbin, L., Daly, J., Hirsch, T., Hobern, D. and LaSalle, J.(2013)。专家对汇总事件记录的审计:“汇总者”的回应。ZooKeys 305: 67 - 76。https://doi.org/10.3897/zookeys.305.5438.
- 查普曼,广告(2005)。数据清理的原则和方法。原始物种和物种发生数据,1.0版。全球生物多样性信息设施的报告,哥本哈根,75页。可以在网上http://www.gbif.org/document/80528
- 查普曼,广告(2005 b)。数据质量原则,1.0版。全球生物多样性信息设施报告,哥本哈根,61p。https://doi.org/10.15468/doc.jrgg-a190
- Costello MJ, Michener WK, Gahegan M, Zhang Z-Q, Bourne P, Chavan V(2012)。提高生物多样性数据出版物的质量保证和知识产权,哥本哈根:全球生物多样性信息设施,40p, ISBN: 87‐92020‐49‐6。
- Mesibov R(2013)一名专家对累计发生记录的审计。293: ZooKeys队。https://doi.org/10.3897/zookeys.293.5111
- Otegui J, Ariño AH, Encinas MA, Pando F(2013)评估全球生物多样性信息设施(GBIF)西班牙节点的主要数据。公共科学图书馆学报8(1):e55144。https://doi.org/10.1371/journal.pone.0055144
