达尔文核心文本指南

标题
达尔文核心文本指南
发布日期版本
2021-07-15
创建日期
2009-02-12
TDWG标准的一部分
http://www.tdwg.org/standards/450/
这个版本
http://rs.tdwg.org/dwc/terms/guides/text/2021-07-15
最新版本
http://rs.tdwg.org/dwc/terms/guides/text/
以前的版本
http://rs.tdwg.org/dwc/terms/guides/text/2020-09-05.
抽象的
在文本文件中实现Darwin Core的指南。
贡献者
Tim Robertson (GBIF), Markus Döring (GBIF), John Wieczorek (Darwin核心维护集团),Renato De Giovanni (CRIA), Dave Vieglais (KUNHM), Steve Baskauf (Darwin核心维护集团)
创造者
达尔文核心任务组
书目引文
达尔文核心维修组。2021.达尔文核心文本指南。生物多样性信息标准(TDWG)。http://rs.tdwg.org/dwc/terms/guides/text/2021-07-15

1介绍

本文档提供了格式化和共享的指南达尔文核心条款派对的文本格式,例如一个或多个逗号分隔值(CSV)文件。数据符合的数据简单的达尔文核心(CSV格式并具有第一行包括达尔文核心标准术语名称)可以在单个文件中共享,而可以使用非标准文本文件使用XML.描述其内容和格式的元文件。一种达尔文核心档案是达尔文核心文本推荐的实现的一个例子。

用法“></p>
     <p>可以在多个相关文件中共享更复杂的结构。可以使用元文件实现文件之间的内容和关系的描述。本指南为简单的案例提出了建议<em>核</em>达尔文核心区<em>记录</em>是基于,<em>延期</em>,这些与该核心文件中的记录相关联。具体而言,扩展记录有一个<em>多对一</em>与核心文件中的记录的关系。例如,一个核心文件可能包含标本记录,文件中每行有一个标本,而一个扩展文件包含一个或多个识别那些标本,用一个识别扩展文件中的每一行,并与每个识别的标本行标识符。这个例子将使许多鉴定与每个标本相关联。</p>
     <h3 id=1.1本文档内容的状态

本文件的所有章节都是标准的,除了示例,其章节被标记为非标准。

1.1.1 RFC 2119关键词

本文件中的关键字“必须”、“不得”、“必需”、“应”、“不应”、“应”、“不应”、“建议”、“可能”和“可选”应按照RFC 2119

1.2简单示例元文件内容(非规范性)

具有以下内容的简单逗号分隔值(CSV)数据文件名为Specimens.csv:

ID,物种,计数123,“Cryptantha gypsophila显示&C.r. Broome”,12 124,“Buxbaumia Piperi”,2

可以用以下达尔文核心元文件描述:

<?XML Version =“1.0”编码=“UTF-8”?><档案XMLNS =“http://rs.tdwg.org/dwc/text/”xmlns: xsi =“http://www.w3.org/2001/xmlschema-instance”XMLNS:XS =“http://www.w3.org/2001/xmlschema”XSI:Schemalocation =“http://rs.tdwg.org/dwc/text/ http://rs.tdwg.org/dwc/text/tdwg_dwc_text.xsd”><核心Rowtype =.“http://rs.tdwg.org/dwc/xsd/simpledarwincore/SimpleDarwinRecord”Ignoreheaderlines =.“1”><位置>http://data.gbif.org/download/specimens.csv.<字段索引=“0”术语=“http://rs.tdwg.org/dwc/terms/occurrenceId”/><字段索引=“1”术语=“http://rs.tdwg.org/dwc/terms/scientificname”/><字段索引=“2”术语=“http://rs.tdwg.org/dwc/terms/individualcount”/><! - 一个常量值没有索引,但适用于所有行 - ><字段术语=“http://rs.tdwg.org/dwc/terms/datasetID”默认=“urn:lsid:tim.lsid.tdwg.org:集合:1”/>核心> < /

如果CSV文件的第一行包含达尔文核心术语名称,则可以在没有元文件的情况下理解这些相同的数据,例如:

类型、institutionCode collectionCode, catalogNumber、scientificName individualCount, datasetID PhysicalObject, ANSP, PH值,123年,“Cryptantha满天星揭示& C.R.布鲁姆”,12日urn: lsid: tim.lsid.tdwg.org收藏:1 PhysicalObject ANSP, PH值,124年,“Buxbaumia piperi”,2,urn: lsid: tim.lsid.tdwg.org:收藏:1

2元文件内容

文本图元文件模式通过定义描述文本文件之间的内容和关系所需的元素和属性,提供元文件结构的技术细节。下表描述了这些元素和属性,以及它们在元文件中使用的描述和规范。

2.1的元素

元素是相关文件列表(一个核心和零个或多个扩展)的容器。这元素应该有一个元数据属性。

2.1.1属性

属性 描述 必需的 默认
元数据 如果使用,则该值必须是定义整个存档的元数据描述的位置的限定统一资源定位器(URL)。建议使用元数据的格式,但建议使用标准化格式,如生态元数据(EML),联邦地理数据委员会(FGDC)或ISO 19115系列的格式。

2.1.2元素

元素 描述
<核心> 一个必须包含一个<核心>元素,表示记录所基于的数据实体(实际文件及其到Darwin Core术语的列标头映射)。如果使用扩展,则核心数据中的每条记录必须有唯一的标识符。此标识符的字段必须以显式方式指定<标识>字段才能将扩展记录与核心记录相关联。
< >扩展 一个可以定义零或多个< >扩展元素,每个元素表示与核心直接相关的单个扩展实体。除了下面描述的一般文件属性外,每个扩展实体都必须具有显式字段,将扩展记录与核心实体中的一行关联。扩展本身不需要有唯一的ID字段,许多行可以指向相同的核心记录。

2.2的<核心>或者< >扩展元素

2.2.1属性

属性 描述 必需的 默认
Rowtype. 需要行类型,并且必须是标识每行表示的数据类的术语的统一资源标识符(URI)。如果由URI表示,则可以在达尔文核心规范之外定义类。为方便起见,达尔文核心定义的课程URI是:发生http://rs.tdwg.org/dwc/terms/Occurrence生物http://rs.tdwg.org/dwc/terms/organism.laterialpple.http://rs.tdwg.org/dwc/terms/MaterialSample事件http://rs.tdwg.org/dwc/terms/event.位置http://purl.org/dc/terms/location.地质信息文本http://purl.org/dc/terms/gologicalContext.鉴别http://rs.tdwg.org/dwc/terms/Identification分类http://rs.tdwg.org/dwc/terms/taxon.resourcerelationship.http://rs.tdwg.org/dwc/terms/resourcerelation测量物料http://rs.tdwg.org/dwc/terms/measurementorfact.ChronometricAgehttp://rs.tdwg.org/chono/terms/chronometric 是的
FieldStermigedBy. 指定字段之间的分隔符。典型的值可能是或者\分别用于CSV或TAB文件。
LINESTEMINGBY. 指定行分隔符。 \ n
FieldsEnclosedBy. 指定用于括起来(标记每个字段的开始和结尾的字符。CSV文件经常使用双引号字符(),如果没有明确提供默认值,则默认值。请注意,在任何字段内容中具有逗号的逗号分隔值文件必须具有封闭字符。
编码 指定字符编码对于数据文件。编码非常重要,但通常被忽略。最常使用的编码是:UTF-8.:8位Unicode转换格式,UTF-16.: 16位Unicode转换格式,ISO-8859.1.:通常称为“Latin-1”,是为单一西欧语言配置的系统上的通用默认值,Windows-1252.:通常被称为“WinLatin”,是基于微软windows操作系统的传统版本的常见默认值。 UTF-8.
IgnoreHeaderlines. 指定从文件开头忽略的数字行。这可以用于忽略具有列标题或前导码的文件。 0.
日期格式 如果整个数据集的日期字段遵循一致的格式,则此格式可以由日期格式参数。如果日期字段不符合推荐的ISO 8601:2019-1规范,这应该被视为对消费者的“提示”。该参数的格式必须为year (yyyy.), 月 (毫米和一天(DD.)指标与分隔符相结合(/或者-)。例子:ddmmyyyy对于表格21121978的日期,dd-mm-yyyy对于21-12-1978的日期,mmddyyyy对于表单12211978的日期,mm-dd-yyyy如欲参阅表格12-21-1978的日期,yyyymmdd.对于19781221形式的日期。 yyyy-mm-dd

2.2.2元素

元素 描述
一种<核心>元素必须包含一个元素来定位所描述的数据。一个< >扩展元素,如果存在,还必须包含一个元素。
<标识> 如果正在使用扩展,则<核心>必须包含一个<标识>元素,表示记录的标识符。
如果使用了扩展,则< >扩展元素必须包含元素,它指示扩展文件中包含核心记录标识符的列(该值应该与<标识>在核心文件中)。
一种<核心>或者< >扩展元素必须包含一个或多个元素,每个元素表示行中的一个“列”。

2.3元素

元素必须包含一个或多个<位置>元素,每个都定义文件所在的位置。每个<核心>或者< >扩展实体可以由一个或多个文件组成。如果实体在多个文件中具有数据,则<位置>元素必须为每个截然不同<文件>这构成了实体。

2.3.1元素

元素 描述
<位置> 指定的位置<文件>被描述。这<位置>元素必须采用以下形式之一:1)Web可访问的URL,例如http://www.gbif.org/data/specimen.csv.或者ftp://ftp.gbif.org/tim/specimen.txt.或2)相对于元文件的位置的文件路径,例如specimen.txt.。/ specimen.txt./data/specimen.txt.

2.4元素

元素用于指定a内的数据的位置和内容<文件>.必须有一个为实体分享的每个术语的元素,无论是明确还是通过使用所有行的价值<文件>

2.4.1属性

属性 描述 必需的 默认
指数 指定列在行中的位置。第一列的索引是0,第二列的索引是1,以此类推。如果没有指定列索引,则可以为所有行定义术语和默认常量值。
学期 必须是此统一资源标识符(URI)所代表的术语.例如,包含科学名称的列将有term =“http://rs.tdwg.org/dwc/terms/scientificname”.可以使用Darwin Core规范之外的术语,例如来自Dublin Core Metadata initiative的术语。例如,使用dc:修改将是term =“http://purl.org/dc/terms/modified” 是的
默认 指定要使用的值(如果未提供)在给定的行中。如果没有给定的索引, 这可以用来为所有行定义一个常数吗
词汇 当存在时,必须是源值对应的词汇表的统一资源标识符(URI)是基于的。URI应解析为某些机器可读定义,例如Skos或RDF,或简单的文本或HTML文件,例如用于ISO或RFC标准。例如http://rs.gbif.org/vocabulary/gbif/nomenclatural_code.xmlhttp://www.ietf.org/rfc/rfc3066.txt.txt.或者http://www.iso.org/iso/list-en1-semic-3.txt.

3实施指南(非规范性)

一种达尔文核心档案是达尔文核心文本推荐的实现的一个例子。

3.1扩展示例(非规范性)

以下示例说明了扩展的使用。在此示例中,存档中有三个文件,所有这些都位于与元文件相同的目录中。whales.txt文件充当分类纪录的核心文件。whales.txt文件由其他两个文件,types.txt和distribution.txt扩展。types.txt文件包含外部定义中指定的记录http://rs.gbif.org/terms/1.0/Types并由都柏林核心和达尔文核心术语组成,而分布.txt文件包含指定的记录http://rs.gbif.org/terms/1.0/Distribution由达尔文核心术语组成,加上植物威胁的额外术语。两个扩展文件都与TaxonnameID字段的核心文件有关。此存档包含有关鲸鱼种类,可用于这些物种的类型标本记录以及这些国家这些物种的威胁状态的信息。

扩展“></p>
     <div class=

<?XML Version =“1.0”编码=“UTF-8”?><档案XMLNS =“http://rs.tdwg.org/dwc/text/”xmlns: xsi =“http://www.w3.org/2001/xmlschema-instance”XMLNS:XS =“http://www.w3.org/2001/xmlschema”XSI:Schemalocation =“http://rs.tdwg.org/dwc/text/ http://rs.tdwg.org/dwc/text/tdwg_dwc_text.xsd”><核心编码=“UTF-8”fieldsTerminatedBy =“\ t”LINESTERMIVEDBY =“\ n”Ignoreheaderlines =.“1”Rowtype =.“http://rs.tdwg.org/dwc/terms/taxon”><位置>whales.txt.索引=“0”/><字段索引=“0”术语=“http://rs.tdwg.org/dwc/terms/taxonid”/><字段索引=“1”术语=“http://purl.org/dc/terms/modified”/><字段索引=“2”术语=“http://rs.tdwg.org/dwc/terms/scientificname”/><字段索引=“3”术语=“http://rs.tdwg.org/dwc/terms/acceptedNameUsageID”/><字段索引=“4”术语=“http://rs.tdwg.org/dwc/terms/parentnameusageid”/><字段索引=“5”术语=“http://rs.tdwg.org/dwc/terms/originalnameusageid”/>核心> < /<扩展编码=“UTF-8”fieldsTerminatedBy =","LINESTERMIVEDBY =“\ n”FieldsEnclosedBy ='“'Ignoreheaderlines =.“1”Rowtype =.“http://rs.gbif.org/terms/1.0/炫”“><位置>types.csv< coreid索引=“0”/><字段索引=“1”术语=“http://purl.org/dc/terms/bibliographiccitation”/><字段索引=“2”术语=“http://rs.tdwg.org/dwc/terms/catalognumber”/><字段索引=“3”术语=“http://rs.tdwg.org/dwc/terms/collectioncode”/><字段索引=“4”术语=“http://rs.tdwg.org/dwc/terms/institutionCode”/><字段索引=“5”术语=“http://rs.tdwg.org/dwc/terms/typeStatus”/><扩展编码=“UTF-8”fieldsTerminatedBy =","LINESTERMIVEDBY =“\ n”FieldsEnclosedBy ='“'Ignoreheaderlines =.“1”Rowtype =.“http://rs.gbif.org/terms/1.0/Distribution”><位置>分布.CSV< coreid索引=“0”/><字段索引=“1”术语=“http://rs.tdwg.org/dwc/terms/countrycode”/><字段索引=“2”术语=“http://rs.gbif.org/terms/1.0/threatstatus”/><字段索引=“3”术语=“http://rs.tdwg.org/dwc/terms/occurrencestatus”/>

4数据库示例(非规范性)

4.1 mysql.

它很容易制作派对的文本使用选择......外出来自MySQL的命令。生成的文件的编码将取决于所使用的服务器变量和离子,并且可能需要在操作完成之前修改。请注意,MySQL将导出空值值为\ n默认情况下。使用ifnull()功能如下所示,以避免此操作。

选择ifnull.id),ifnull.科学名称),ifnull.数数进入外档'/tmp/dwc.txt'字段终止经过','可选随信附上经过'“'线终止经过'\ n'DWC.;