首页 >> 跨学科 >> 情报文献学
关联数据质量评估研究综述
2016年12月02日 08:52 来源:《情报杂志》 作者:姜恩波 王振蒙 字号

内容摘要:[目的/意义]梳理关联数据质量评估理论和工具的发展情况,了解其发展特征,阐明质量评估对提高关联数据质量的重要性,为关联数据质量的改善与应用提供借鉴和新的思路。[方法/过程]通过文献调研,揭示关联数据当前存在较为严重的质量问题。另外,从评估体系、评估方法以及评估工具三个方面介绍国外关联数据质量评估领域的发展现状。[结果/结论]关联数据质量评估领域理论发展较快,而应用评估工具需要加速发展,并在此基础上提出了“开源众筹插件”的建议开发模式。

关键词:数据质量评估;关联数据;评估标准;评估指标;评估方法;评估工具

作者简介:

    【摘要】

    [目的/意义]梳理关联数据质量评估理论和工具的发展情况,了解其发展特征,阐明质量评估对提高关联数据质量的重要性,为关联数据质量的改善与应用提供借鉴和新的思路。[方法/过程]通过文献调研,揭示关联数据当前存在较为严重的质量问题。另外,从评估体系、评估方法以及评估工具三个方面介绍国外关联数据质量评估领域的发展现状。[结果/结论]关联数据质量评估领域理论发展较快,而应用评估工具需要加速发展,并在此基础上提出了开源众筹插件的建议开发模式。

    【关键词】

    数据质量评估;关联数据;评估标准;评估指标;评估方法;评估工具

    【作者简介】

    姜恩波,中国科学院成都文献情报中心,研究方向:网络知识组织。

    王振蒙,硕士研究生,研究方向:数字图书馆技术。

 

    1 关联数据的发展

   1.1 关联数据发展背景 关联数据(Linked Data)2006年由Tim Berners-Lee提出。从技术上看,关联数据采用RDF数据模型,利用URI(Uniform Resources Identifier,统一资源标识符)命名数据实体,通过HTTP协议获取这些数据。关联数据强调数据的机器理解,最突出的特征是信息间的关联与整合。

   近年来,关联数据数量迅猛增长。以W3CLOD云图项目为例,该项目自2007年启动以来,关联数据云图(Linked Open Data Cloud)中的数据集数量已经由最初的12个,发展到2014年的1014[1],内容覆盖了政府开放数据、出版、生命科学、媒体、空间地理等8大主题领域。与此同时,世界范围内的各机构纷纷将多年的数据建设成果以关联数据的方式发布到网络上,推动文档型网络(web of document)向数据型网络(web of data)转变。各种基于关联数据的应用也陆续出现:关联数据管理平台、语义搜索引擎、关联数据网站、关联数据浏览器等[2-5]。然而,随着数据量的快速增长以及基于关联数据应用的增多,关联数据质量问题日益成为学者和设计者重点关注的问题之一。

   影响关联数据质量的因素多种多样。有的由于数据源质量参差不齐,例如采用众包(Crowdsourcing)方式建设的资源;有的数据从半结构化或非结构化数据中抽取,例如DBpedia;有的则没有及时监测对外关联URI的有效性,有的在发布之前没有进行语法、语义的有效性、有效性验证(Validation)等。国外已经有不少学者针对关联数据状况、质量问题进行研究和分析。

   关联数据云图(Linked Data Cloud)记录了关联数据的发展轨迹,是关联数据领域的一项标志性建设成果。2011年和2014年,C.Bizer团队两次对云图中的开放数据集(2011年:295个,2014年:1014)进行了统计和分析。其中用到的指标包括:是否提供可解析的URI、对外链接的数量、通用/专用词汇表的应用、数据许可协议、数据是否提供溯源(Provenance)信息、是否提供数据集层面的元数据以及多种访问途径(SPARQL Endpoint)[6-7]

   DBpedia作为关联数据云图中的中心节点,其数据同样存在各种问题。为了改善这一状况,他们采用了人工和自动两种方式对其20个资源进行了质量评估。评估发现了多种数据质量问题[28](1)。如表1所示,在17个子类别中,只有5项是DBpedia所特有的问题,而其他的错误现象是可能出现在所有的资源中。

   http://img.ipub.exuezhe.com/jpg/G9/2016/G9AA988.jpg

   A.Hogan等学者通过机器人(MultiCrawler)对开放政府网站、DERI网站的数据进行采集,并对采集回来的近150万个RDF陈述进行了语法语义、统计分析,发现分析了在Web上发布RDF数据时容易出现的问题,涉及数据访问、核心词汇表的使用、数据类型、协议、本体等诸多方面[34]

   2012年,国内郭少友团队对关联数据云图部分数据集进行了人工和自动的测试,对其中存在的一些问题进行了汇总和统计,在此基础上,论述了“绿色关联数据”的思想[14]

   1.2 数据质量问题 数据质量(Data Quality)指的是对于特定任务(Task),数据能够满足任务需求的程度,即“fitness for use[8]。因此,数据质量对于不同的用户、不同的任务是一个变化的情况。

   数据质量问题(Data Quality Problem)指“给使用这些数据的应用带来潜在影响的一系列数据表现”(issue)[9]

   数据质量维度及指标(Data Quality Dimension and Metric)。虽然数据质量是一个变化的内容,但用于评估数据质量的指标却是客观的、中性的。质量维度反应数据所具有的内在特征,是数据的各种“面”,而指标是维度的具体化,是“面”上的“点”。例如Zaveri.A等人指出可用性(Availability)维度下的具体指标包括SPARQL Endpoint服务的可用性、RDF Dump服务的可用性、URI的可解析能力等5[9-10]

   相对于传统数据而言,关联数据在其组织方式和功能上有其特殊性,而这种特殊性也会体现在评估它所应用到的理论与工具中。

   首先,数据的关联是通过URI来实现。因此,在关联数据评估标准中,对URI的评估是必不可少的。例如URI的构成元素、URI的持久性以及URI的有效性。

   其次,关联数据的内容通过RDF数据模型来组织描述。虽然是否必须利用RDF来描述尚有争议,但是目前绝大多数发布出来的关联数据集都是以RDF这种资源描述体系来组织的。因此,基于RDF的语法、语义的检查是基于关联数据质量评估的一个重要环节。

   另外,关联数据的整合除了通过URI这种外在形式来表达外,还通过owlsameAsskosbroadeskoscloseMatch这样一些属性来表示信息源与目标的匹配程度。这些元素的出现体现出了数据间的语义关系,升级了HTML中锚(A)的单纯指向作用。所以,在评估体系统会对这些内容进行分析和统计。通常,人们认为基于语义的关联越多,该数据集能够给用户带来的信息越精确和丰富。

   最后,在关联数据的组织和描述过程中,需要用到大量的描述词汇(Vocabulary)。不同领域的词汇用于描述不同类型的信息内容。信息的深度整合依赖标准化的表达形式,也就是描述相同类型的信息尽量使用相同的描述词汇。我们可以看见,两次对关联数据云图中数据集的统计和分析,有一条重要的指标就是是否使用了“专用”的描述词汇以及“专用”的描述词汇是否与通用的领域词汇进行映射。

   因此,关联数据质量评估(Linked Data Quality Assessment)就是建立基于关联数据特性的质量标准,面向特定的用户需求,利用相关工具,对关联数据集的特定维度进行检验的过程。关联数据质量评估的应用意义首先在于帮助数据发布者提高数据质量,避免“先发布,后治理”的问题。其次,帮助应用建设者比较快速、准确地了解特定数据集在某些特性上是否满足需要。接下来本文将从关联数据质量评估标准、评估方法以及评估工具三个方面介绍该领域的进展情况。

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
696 64.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
wxgg3.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们