达尔文核心文本指南
- 标题
- 达尔文核心文本指南
- 版本发布日期
- 2020-09-05
- 创建日期
- 2009-02-12
- TDWG标准的一部分
- //www.nancyp.com/standards/450/
- 这个版本
- http://rs.tdwg.org/dwc/terms/guides/text/2020-09-05
- 最新版本
- http://rs.tdwg.org/dwc/terms/guides/text/
- 之前的版本
- http://rs.tdwg.org/dwc/terms/guides/text/2014-11-08
- 抽象的
- 在文本文件中实施达尔文核心的指南。
- 贡献者
- Tim Robertson (GBIF), Markus Döring (GBIF), John Wieczorek (MVZ), Renato De Giovanni (CRIA), Dave Vieglais (KUNHM)
- 创造者
- 达尔文核心任务组
- 书目引文
- 达尔文核心任务组,2009。达尔文核心文本指南。生物多样性信息标准。http://rs.tdwg.org/dwc/terms/guides/text/
1介绍
本文档提供格式化和共享的指导达尔文核心条款在了文本格式,如一个或多个逗号分隔值(CSV)文件。资料符合简单的达尔文核心(CSV格式和第一行包含Darwin Core标准术语名称)可以在单个文件中共享,而非标准文本文件可以使用XMLmetafile描述其内容和格式。
1.1说明本文档内容的状态
本文档的所有部分都是规范的,除了示例外,其部分标记为非规范性。
1.2简单示例元文件内容(非规范性)
CSV (simple comma separated values)数据文件,内容如下:
ID,种,数123,“gypsophila Reveal & C.R. Broome”,12 124,“Buxbaumia piperi”,2
可以用以下Darwin Core元文件来描述:
<?XML Version =“1.0”编码=“UTF-8”?><档案XMLNS =“http://rs.tdwg.org/dwc/text/”XMLNS:XSI =“http://www.w3.org/2001/XMLSchema-instance”xmlns: x =“http://www.w3.org/2001/XMLSchema”xsi: schemaLocation =“http://rs.tdwg.org/dwc/text/ http://rs.tdwg.org/dwc/text/tdwg_dwc_text.xsd”><核心rowType =“http://rs.tdwg.org/dwc/xsd/simpledarwincore/simpledarwinrecord”Ignoreheaderlines =.“1”><文件><地址>http://data.gbif.org/download/specimens.csv.> < /位置 files><字段索引=“0”词=“http://rs.tdwg.org/dwc/terms/catalogNumber”/><字段索引=“1”词=“http://rs.tdwg.org/dwc/terms/scientificName”/><字段索引=“2”词=“http://rs.tdwg.org/dwc/terms/individualCount”/><!--一个constant value has no index, but applies to all rows --><字段词=“http://rs.tdwg.org/dwc/terms/datasetid”默认=“urn: lsid tim.lsid.tdwg.org:收藏:1”/>核心> archive>
如果CSV文件的第一行包含术语名称,那么这些相同的数据可以在没有元文件的情况下被理解:
type,institutionCode,collectionCode,catalogNumber,scientificName,individualCount,datasetID PhysicalObject,ANSP,PH,123,"Cryptantha gypsophila Reveal & C.R. Broome",12,urn:lsid:tim.lsid.tdwg.org:collections:1 PhysicalObject,ANSP,PH,124,"Buxbaumia piperi",2,urn:lsid:tim.lsid.tdwg.org:collections:1
1.3 XML与字段文本
Web上存在许多资源,描述了可扩展标记语言的优势XML在较少的结构化内容中如了文本.Darwin Core文本指南(本文档)的目的不是促进在数据交换中使用XML之上的字段文本,而是在必要时提供如何处理此类数据文件的建议。
有两种情况可能受益于字段文本的使用:
- 将大量的达尔文核记录和相关数据从一个数据库转移到另一个数据库。通常,数据库在导出和导入逗号分隔的文本文件时非常有效。
- 以Firecened Text格式存在的传统数据的描述,使其可能会自动理解并加载到另一个系统中。这可能是该系统将以另一种形式的数据(如XML)为数据服务。
2元内容
的文本元文件架构通过定义描述文本文件的内容和关系所需的元素和属性,为元文件的结构提供技术细节。这些元素和属性以及它们在元文件中使用的描述和规范在下表中进行了描述。
2.1<文件>元素
的<文件>元素是相关文件列表(一个核心文件和0个或多个扩展文件)的容器。的<文件>元素只有一个属性,元数据.
2.1.1属性
| 属性 | 描述 | 要求 | 默认的 |
|---|---|---|---|
元数据 |
包含一个限定的统一资源定位器(URL),定义了整个存档的元数据描述的位置。元数据的格式没有规定,但建议采用标准化格式,如生态元数据语言(EML)、联邦地理数据委员会(FGDC)或ISO 19115系列。 | 没有 |
2.1.2元素
| 元素 | 描述 |
|---|---|
<心> |
一个<文件>必须包含一个<心>元素,表示数据实体(实际文件及其列标题映射到达尔文核心术语),记录是基于的。如果正在使用扩展,则核心数据中的每个记录必须具有唯一的标识符。必须在显式中指定此标识符的字段字段,以便将扩展记录与核心记录关联起来。 |
<扩展> |
一个<文件>可以定义零或更多<扩展>元素,每个元素表示与核心直接相关的单个扩展实体。除了下面描述的一般文件属性外,每个扩展实体都必须具有显式< coreid >字段将扩展记录与核心实体中的一行相关联。扩展本身不必具有唯一ID字段,并且许多行可以指向相同的核心记录。 |
2.2<心>或<扩展>元素
2.2.1属性
| 属性 | 描述 | 要求 | 默认的 |
|---|---|---|---|
rowType |
统一资源标识符(Unified Resource Identifier, URI),用于标识由每行表示的数据类,例如,http://rs.tdwg.org/dwc/terms/occurrence.用于发生记录或http://rs.tdwg.org/dwc/terms/Taxon分类单元的记录。其他类可以由URI引用,并在Darwin Core规范之外定义。行类型是必需的。为方便起见,由Darwin Core定义的类的uri是:发生:http://rs.tdwg.org/dwc/terms/occurrence.,事件:http://rs.tdwg.org/dwc/terms/Event,地点:http://purl.org/dc/terms/location.,地质信息文本:http://purl.org/dc/terms/GeologicalContext,识别:http://rs.tdwg.org/dwc/terms/identified,分类单元:http://rs.tdwg.org/dwc/terms/Taxon,resourcerelationship.:http://rs.tdwg.org/dwc/terms/ResourceRelationship,MeasurementOrFact:http://rs.tdwg.org/dwc/terms/MeasurementOrFact |
是的 | |
fieldsTerminatedBy |
指定字段之间的分隔符。典型值可能是,或\ tCSV或Tab文件。 |
没有 | , |
linesTerminatedBy |
指定行分隔字符。 | 没有 | \ n |
fieldsEnclosedBy |
指定用于括起(标记开始和结束)每个字段的字符。CSV文件经常使用双引号字符("),如果显式提供none,则为默认值。请注意,逗号分隔的值文件,如果在任何字段的内容中都有逗号,则必须有一个包围字符。 |
没有 | " |
编码 |
指定了字符编码用于数据文件。编码非常重要,但经常被忽略。最常用的编码有:utf - 8: 8位Unicode转换格式,utf - 16:16位Unicode转换格式,iso - 8859 - 1:通常称为“拉丁-1”和配置为单个西欧语言的系统的常见默认默认值,windows - 1252:通常被称为“WinLatin”,是基于Microsoft Windows操作系统的传统版本的一个常见默认值。 |
没有 | utf - 8 |
ignoreHeaderLines |
指定要从文件开头忽略的编号行。例如,这可以用于忽略带有列标题或序言注释的文件。 | 没有 | 0 |
dateFormat |
当Verbatim日期以格式一致时,该字段可用于指示表示的格式。建议尽可能使用字段格式的日期,日期时间和时间,但在需要逐字日期,可以在此处指定格式。这应该被视为消费者的“提示”。建议消费者支持最低的组合DD毫米和YYYY与分隔符/和-.例子:DDMMYYYY:表格21121978的日期,DD-MM-YYYY:对于21-12-1978表格的日期,MMDDYYYY:对于12211978表格的日期,mm-dd-yyyy:对于表单12-21-1978的日期,名称:表格19781221的日期。 |
没有 | YYYY-MM-DD |
2.2.2元素
| 元素 | 描述 |
|---|---|
<文件> |
<心>或<扩展>元素必须包含一个<文件>元素来定位所描述的数据。 |
|
如果使用扩展,则<心>必须包含一个< id>元素,指示记录的标识符。 |
< coreid > |
如果使用扩展,则<扩展>元素必须包含< coreid >元素,该元素指示包含核心记录标识符(匹配的在核心文件中)。 |
<字段> |
一个<心>或<扩展>元素必须包含一个或多个<字段>元素,每个元素表示行中的“列”。 |
2.3<文件>元素
files元素必须包含一个或多个<地址>元素,每个元素定义文件的驻留位置。每个核心或扩展实体可以由一个或多个文件组成。如果一个实体有多个文件中的数据,请使用'<地址>`元素多次,为构成实体的每个文件。>< /位置> < /位置
2.3.1元素
| 元素 | 描述 |
|---|---|
<地址> |
指定被描述的文件的位置,可以采用以下形式之一:1)web可访问的URL,如http://www.gbif.org/data/specimen.csv或ftp://ftp.gbif.org/tim/specimen.txt, 2)相对于元文件位置的文件路径,例如specimen.txt,./pecimen.txt.,数据/ specimen.txt. |
2.4的<字段>元素
field元素用于指定文件中数据的位置和内容。对于实体共享的每个术语,必须有一个字段元素,无论是显式地共享还是通过对文件中所有行使用缺省值共享。
2.4.1属性
| 属性 | 描述 | 要求 | 默认的 |
|---|---|---|---|
指数 |
指定列在行的位置。第一列的索引是0,第二列是1,以此类推。如果没有指定列索引,则可以使用术语和默认值为所有行定义一个常量值。 | 没有 | |
术语 |
这个字段所代表的术语的统一资源标识符(URI)。例如,包含科学名称的字段将具有词= " http://rs.tdwg.org/dwc/terms/scientificName ".可以使用Darwin Core规范之外的术语,例如来自Dublin Core元数据倡议的术语,例如,dctrms:修改将词= " http://purl.org/dc/terms/modified ". |
是的 | |
默认的 |
指定在没有为给定行的字段提供值时使用的值。如果没有提供索引,则可以使用默认值为不在数据文件中的字段的所有行定义一个常量。 | 没有 | |
词汇表 |
这个字段的源值所基于的词汇表的统一资源标识符(URI)。理想情况下,URI应该解析为一些机器可读的定义,如SKOS、RDF,或者至少是一些ISO或RFC标准的简单文本或html文件。例如http://rs.gbif.org/vocabulary/gbif/nomenclatural_code.xml,http://www.ietf.org/rfc/rfc3066.txt.txt.或http://www.iso.org/iso/list-en1-semic-3.txt.. | 没有 |
3实施指南
3.1扩展示例(非规范性)
下面的示例演示了扩展的使用。在这个示例中,归档文件中有三个文件,它们都位于与元文件相同的目录中。txt文件作为Taxon记录的核心文件。whales.txt文件由types.txt和distribution.txt这两个文件扩展。txt文件包含外部定义中指定的类型的记录http://http://rs.gbif.org/terms/1.0/Types并由都柏林核心和达尔文核心术语组成,而分布.txt文件包含指定类型的记录http://http://rs.gbif.org/terms/1.0/Distribution由达尔文核心术语和附加的威胁状态术语组成。两个扩展文件通过taxonNameID字段与核心文件相关。据推测,这份档案包含了有关鲸鱼物种的信息、这些物种的类型标本记录、国家名单和这些物种的威胁状况。
<?XML Version =“1.0”编码=“UTF-8”?><档案XMLNS =“http://rs.tdwg.org/dwc/text/”XMLNS:XSI =“http://www.w3.org/2001/XMLSchema-instance”xmlns: x =“http://www.w3.org/2001/XMLSchema”xsi: schemaLocation =“http://rs.tdwg.org/dwc/text/ http://rs.tdwg.org/dwc/text/tdwg_dwc_text.xsd”><核心编码=“utf - 8”FieldStermifatedBy =“t \”linesTerminatedBy =“\ n”Ignoreheaderlines =.“1”rowType =“http://rs.tdwg.org/dwc/terms/Taxon”><文件><地址>whales.txt.> < /位置 files>< id索引=“0”/><字段索引=“0”词=“http://rs.tdwg.org/dwc/terms/taxonID”/><字段索引=“1”词=“http://purl.org/dc/terms/modified”/><字段索引=“2”词=“http://rs.tdwg.org/dwc/terms/scientificName”/><字段索引=“3”词=“http://rs.tdwg.org/dwc/terms/acceptednameusageid”/><字段索引=“4”词=“http://rs.tdwg.org/dwc/terms/parentnameusageid”/><字段索引=“5”词=“http://rs.tdwg.org/dwc/terms/originalnameusageid”/>核心><扩展编码=“utf - 8”FieldStermifatedBy =“,”linesTerminatedBy =“\ n”fieldsEnclosedBy =“””Ignoreheaderlines =.“1”rowType =“http://rs.gbif.org/terms/1.0/Types”><文件><地址>types.csv.> < /位置 files>索引=“0”/><字段索引=“1”词=“http://purl.org/dc/terms/bibliographicCitation”/><字段索引=“2”词=“http://rs.tdwg.org/dwc/terms/catalogNumber”/><字段索引=“3”词=“http://rs.tdwg.org/dwc/terms/collectioncode”/><字段索引=“4”词=“http://rs.tdwg.org/dwc/terms/institutchcode”/><字段索引=“5”词=“http://rs.tdwg.org/dwc/terms/typestatus”/>> < /扩展<扩展编码=“utf - 8”FieldStermifatedBy =“,”linesTerminatedBy =“\ n”fieldsEnclosedBy =“””Ignoreheaderlines =.“1”rowType =“http://rs.gbif.org/terms/1.0/nistribution”><文件><地址>distribution.csv> < /位置 files>索引=“0”/><字段索引=“1”词=“http://rs.tdwg.org/dwc/terms/countryCode”/><字段索引=“2”词=“http://rs.gbif.org/terms/1.0/threatStatus”/><字段索引=“3”词=“http://rs.tdwg.org/dwc/terms/occurrenceStatus”/>> < /扩展 archive>
4数据库示例(非规范)
MySQL 4.1
控件生成带字段的文本非常容易选择到outfile命令从MySQL。结果文件的编码取决于所使用的服务器变量和排序规则,可能需要在操作完成之前进行修改。注意MySQL将导出零值作为\ N默认。使用IFNULL ()函数,如下面的例子所示,以避免这种情况。
选择ifnull.(ID,''),ifnull.(scientific_name,''),ifnull.(数,'')成输出文件“/ tmp / dwc.txt”领域终止通过”、“(可选)封闭通过“””行终止通过'\ n'从dwc;
