数据质量框架

今天的大多数组织都使用临时方法来解决导致DQ问题的错误的方法。但是,这种努力不确保数据适合用于每个目的。该任务组正在致力于组织概念,与使用生物多样性数据的适应性的评估和管理的DQ需求和解决方案。我们预计任务组的结果将允许生物多样性信息学社区通过共享和重用DQ需求,方法,工具,服务,工作流和最佳实践来加入努力解决DQ问题,这些工作流程可用于DQ测量,验证,推荐和错误防护和纠正。

任务组
图片By.斯拉瓦鲍曼

召集人

Allan Koch Veiga

动机

  • 评估和管理DQ的一致方法目前对生物多样性数据用户至关重要。然而,为了实现这一目标,由于质量概念所固有的特质,这一点特别困难。如果我们没有根据数据用户的角度明确建立质量需求,无法执行DQ评估和管理。
  • 我们对“DQ评估”的了解是由数据用户或策展人执行的契约,以判断特定目的使用数据(单记录或数据集)的适应性的程度;和“DQ管理”是由任何演员(软件,人员,机构)执行的契约,以改善DQ,以便为更广泛的用途使用数据钳工。
  • 概念框架应支持生物多样性信息学社区,以从数据用户的角度来形容,以共同和标准化的方式,“适用性”的含义。
  • 协作模型可以生成可搜索的常见和可重用组件的可搜索存储库,例如DQ配置文件(定义“质量”为特定目的的方式),DQ策略,尺寸(质量可测量的方面),标准,增强,规格(方法)和机制(工具,服务,工作流),有一系列数据使用的目的,使机构能够撰写自己的DQ需求和解决方案,以更好地适合其有关使用的适用性的目标。

目标,产出和结果

  • 用于评估和管理生物多样性数据的适应性的正式概念框架。
  • 为生物多样性信息学社区建立“共同语言”,以表达并分享他们对DQ需求和解决方案的理解,以提高重复使用性并减少重复努力。
  • 一个案例研究,描述了如何利用概念框架来执行在机构中使用适合使用的评估和管理。
  • 使用框架的方法和指导。
  • 为整个DQ兴趣小组建立一个常见的词汇。

战略

  • 在概念框架中加入,组织和形式化关于DQ的想法和概念。
  • 用案例研究评估所提出的框架。
  • 提出一种使用/应用框架进行评估和管理适用性的方法。
  • 支持生物多样性信息学社区,了解框架的指导方针和培训。
  • 支持并遵循框架在一些生物多样性信息学组织中的评估和管理框架。
  • 通过促进DQ利息集团成员的讨论和论坛来评估和加强框架及其词汇。

成为参与

  • 此任务组欢迎任何对数据质量和/或具有本体,数据/信息/知识管理,数据策略,数据治理以及生物多样性数据的任何阶段的经验,以及生物多样性数据(捕获,处理或使用数据)。
  • 联系召集人。

资源

  • Veiga,AK,Saraiva,AM,Chapman,AD,Morris,PJ,GendeReau,C,Schiegel,D,Robertson,TJ(2017)。生物多样性数据质量评估和管理的概念框架。PLO一12(6):E0178731。https://doi.org/10.1371/journal.pone.0178731.
  • Veiga,AK。,Cartolano Jr.,EA,Saraiva,AM(2014)。生物多样性信息学中的数据质量控制:物种发生数据的情况。IEEE拉丁美洲交易。ISSN:1548-0992。卷:12,问题:4。可用:http://www.ewh.ieeee.org/reg/9/Etrans/ieee/issues/vol12/vol12issue4june2014/20kochveiga.htm
  • Veiga,AK。,Saraiva,AM(2012)。处理数据质量的指导。在生物多样性信息标准(TDWG)2012年度会议上的讨论。中国北京。https://static.tdwg.org/comferences/2012/presentations/allankochveigatdwg.pdf.
  • Veiga,AK,Saraiva,AM,Cartolano,EA(2012)。应用于生物物种发生数据的数据质量概念和方法。在书中:农业,农村发展和环境的信息通信技术 - 我们在哪里?我们会去哪里?捷克科学与社会无线网络中心。
  • Wang R,Reddy M,Kon H(1995)。致质量数据:基于属性的方法。决策支持系统杂志.VOL。13,不。3-4。第349-372页。https://doi.org/10.1016/0167-9236(93)(93)(93)0050-n.
  • 强大的DM,李伊,王子(1997)。数据质量在上下文中。ACM的通信。第103-110页。
  • 王里,强大的DM(1996)。超越准确性:数据质量是数据消费者的方法。管理信息系统。第12卷,没有。4,pp。5-33。http://mitiq.mit.edu/documents/publications/tdqmpub/14_beyond_accuracy.pdf.
  • GE M,Helfert M(2007)。信息质量研究综述 - 制定研究议程。ICIQ,第76-91页。麻省理工学院。
  • Dalcin,EC(2005)。数据质量概念和技术应用于分类数据库。博士论文,英国南安普敦大学。
  • 查普曼,广告(2005A)。数据清洁原理和方法:主要物种和物种发生数据,版本1.0。哥本哈根全球生物多样性信息设施的报告。75p。http://www.gbif.org/document/80528.
  • 查普曼,广告(2005b)。数据质量原则,1.0版。哥本哈根全球生物多样性信息设施的报告。61p。https://doi.org/10.15468/doc.jrgg-a190
  • Otegui J,AriñoAh,ercinas ma,pando f(2013)评估全球生物多样性信息设施(GBIF)的西班牙节点托管的主要数据。Plos一个8(1):E55144。https://doi.org/10.1371/journal.pone.0055144
  • http://community.gbif.org/pg/groups/21292/gbiftdwg-biodversity-data-quitial-interest-group/
  • https://github.com/tdwg/infrastructure/issues/48。