SPARQL和大数据以及NoSQL

如何达到一个双方的共识基础?

很显然SPARQL和其他RDF相关的技术在重叠的大数据和NoSQL的世界中会大有用武之地,但是对专注于该领域的人来说这好像还不够明显,例如本周的Strata会议基本上对RDF或SPARQL无所顾及。我看的越深入,我就觉得这个灵活的、标准化的数据模型和查询语言已经可以在上述人群努力去处理的各类问题中已经表现得相当不错。

我们语义网人士不能批评人家。如果你做了一个更好的捕鼠器,这个世界不会开辟一一条直通你家门口的路,因为他们得先知道你的捕鼠器以及它干什么干得好。这就需要营销,就是用人家的语言来描述。于是我就开始看一些关于大数据和NoSQL的材料来更好地亲近他们正在努力做的以及怎样去做的。

首先是Edd Dumbill等人精彩的电子书Planning for Big Data。一开始他就指出“那些无法满足你数据库架构的严格要求的”数据是大数据方案的候选者。在后面的“提取和清洗(Ingesting and Cleaning)”有两段引文(在从多个不同数据源采集数据的讨论之后):

一旦数据被采集,它就必须被提取On。传统的BI的说法是抽取、转换刚和装载(Extract,Transform,and Load,ETL):即把合适的信息放在对应的数据库脚本的表格中,并对特定的域进行操作处理使得他们容易处理。

大数据的一个显著特征是,这些数据往往是非结构化的。也就是说在我们开始分析他们之前, 我们是不清楚其内在信息结构的。我们当然可以进行某些转换——例如把IP地址变成城市的名称,或者使用单向的来隐藏特定的字段——但是我们还是要紧紧抓住原始数据并且在我们分析的时候来定义其结构。

对于一个具有很长时间XML背景的人来说,我知道关于"structured" vs. "unstructured"数据的说法是一个 data 具有非常相对性意义的概念——对一个人来说的结构化数据可能对另一个人来说是非结构化的,尤其前者是个XML领域的二后者是关系数据库领域的——这就是术语"semi-structured" 做为一个协调性形容词的出现缘由。我将打造一个新的术语,以期和Google hits没什么相关 "minimally structured"——如果我们手上有一个虽小但是足够用结构来作为起点并开始工作的话,那么你的数据就是最小化结构的。并且RDFS做为"边分析定义结构边分析"是非常棒的,这可以一步步来,并且OWL可以进一步往深走。

有一些最小化的结构可以被演绎并且使其显性化:例如(参考:翻译——三元组存储会取代关系型数据…的例子,省了没翻)you have data about people's genders and and about who is the parent of who,you can infer father and mother relationships (and grandfather,and aunt,and...) and even classes by defining a Grandfather class as the set of instances that have a gender of male and have children who have children. 对我而言这就是新信息的生成, 但是一个关系数据库领域的人并不这样看——他会说这只不过是把隐性的知识显性化了而已。关系数据库领域的人们花了很多精力(a lot of effort)来避免显性化第存储那些可以通过演绎得来的信息。然而关系数据库是一个相当封闭的世界,所以在一个给定的数据集合中来演绎出新玩意的机会并不是常常可以出现。来自多个数据源的RDF的累积可以非常动态,并且易于生成一个比它组成部分更广阔的空间(源于其演绎推理),进而为在不同数据组合中发现模式w差U那个早更多的机遇。另一段引文:

即使没有大量的数据类型不匹配,关系数据库的一大弱点是其脚本(schema)的静态特征。在一个快速扩张的环境下,计算的结果将会随着对信号不断侦测和抽取的过程而进化。Semi-structured数据库符合这样的灵活性要求:它们提供了足够的结构来组织数据,但在数据存储之前不要求一个具体的规范。

这对于三元组来说也是一样的,后者提供了两个世界最好的东西:不要数据脚本,你可以不断地累积数据,并且使用一个标准的查询语言来检索;如果你愿意,你还可以逐渐地增加脚本元数据(schema metadata)——通常基于查询结果 (often based on query results)来协助更进一步的查询。

NoSQL数据库通常被称为“非脚本化(schemaless)” ,因为他们不许要具备和关系数据库相关联的正规脚本。后者——通常在软件正式编写以前就要定义好——其缺失意味着非脚本化数据库将会较好地适应目前的软件开发实践如敏捷开发。从一个简单的可以工作小项目开始,不断快速迭代来响应用户输入的方式并不能与项目一开始就把所有的数据脚本设计定义的方式好很好协调。我们也无法预测数据将被怎样使用,以及随着项目的开展会有什么样的数据进一步要添加。

这里又一次对基于RDF的技术来说是十分容易处理的情况。在"开发之前就拼装大脚本"和"尽管扔掉那些减弱灵活性的脚本"的选择之外,你还可以在项目进行中需要的时候,和中间层一点加入的脚本元数据进行一道工作。

从我听到的各类型的NoSQL数据库产品,面向图的Neo4J好像是最接近三元组存储(triplestores),该产品也是对图进行存储graphs。 下面这个关于另一类NoSQL数据库种类的描述真正引起了我的注意,尽管:

Cassandra和HBase都被称为是面向列的数据库,更为恰当的名称其实应当是“稀疏行存储(sparse row store)。在这些数据库中,和关系型“表”相对等的是一个行的集合,使用一个键值来标识。每行含有一个无限制数目的列;这些列实际上是一些必要的键值用来查询该行中的各种值。列可以在任何时间加入,并且对某一给定的行来说没有使用到的列将不占据任何存储空间。不存在NULL。

这个就是 "和关系型“表”相对等"?这听起来更像是等同于被某一主题所归类的一组三元组。属性(谓语)实际上就是那些必须的供你查询的和这些主题相关的值的键值;你可以在任何时候为某个主题添加“属性名称/值”,由于它们并不依赖于某种固定的脚本,并且未被使用的属性将不占据任何存储(也就没有NULL)。

我乐意见到的,而且已经听说了一些实质性的尝试,是这些NoSQL数据库系统的SPARQL端( endpoints)。D2RQR2RML的完成的工作可以使得面向图和列的NoSQL databases都会变得简单起来——如果我对上述引文理解正确的话。在Google上归于SPARQL和 Hadoop(或者和Neo4J,HBase,Cassandra)的检索显示已经有人在讨论并且已经开始了一些编码的工作。在面向图和列的NoSQL数据库之外,另一类是面向文献的数据库, 那么AllegroGraph的利用SPARQL来访问MongoDB(interface to MongoDB)就是这个方向上一个出色的标记。我们可以怎样做来鼓励继续这个互动呢?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读752次。关系型数据库关系型数据库是一个结构化的数据库,创建在关系模型(二维表模型)基础上,一般面向于记录SQL语句(标准数据查询语言)就是一种基于关系型数据库的语言,用于执行对关系型数据库中数据的检索和操作主流的关系数据库包括Oracle、Mysql、SQL Server、Microsoft Access、DB2等非关系型数据库NoSQL(nOSQL=Not Only SQL),意思是“不仅仅是SQL”,是非关系型数据库的总称。除了主流的关系型数据库外的数据库,都认为是非关系型主流的NoSQ.._redis是非关系型数据库吗
文章浏览阅读687次,点赞2次,收藏5次。商城系统中,抢购和秒杀是很常见的营销场景,在一定时间内有大量的用户访问商场下单,主要需要解决的问题有两个:1. 高并发对数据库产生的压力;2. 竞争状态下如何解决商品库存超卖;高并发对数据库产生的压力对于第一个问题,使用缓存来处理,避免直接操作数据库,例如使用 Redis。竞争状态下如何解决商品库存超卖对于第二个问题,需要重点说明。常规写法:查询出对应商品的库存,判断库存数量否大于 0,然后执行生成订单等操作,但是在判断库存是否大于 0 处,如果在高并发下就会有问题,导致库存_php库存结余并发
文章浏览阅读1.4k次。MongoTemplate开发spring-data-mongodb提供了MongoTemplate和MongoRepository两种方式访问MongoDB,MongoRepository的方式访问较为简单,MongoTemplate方式较为灵活,这两种方式在Java对于MongoDB的运用中相辅相成。_springboot插入指定的mongodb数据库
文章浏览阅读887次,点赞10次,收藏19次。1.背景介绍1. 背景介绍NoSQL数据库是一种非关系型数据库,它的特点是可以存储非结构化的数据,并且可以处理大量的数据。HBase是一个分布式、可扩展的列式存储系统,它是基于Google的Bigtable设计的。HBase是一个开源的NoSQL数据库,它的核心功能是提供高性能的随机读写访问。在本文中,我们将对比HBase与其他NoSQL数据库,例如Redis、MongoDB、Cass...
文章浏览阅读819次。MongoDB连接失败记录_edentialmechanisn-scram-sha-1
文章浏览阅读470次。mongodb抽取数据到ES,使用ELK内部插件无法获取数据,只能试试monstache抽取mongodb数据,但是monstache需要mongodb replica set 模式才能采集数据。############monstache-compose文件。#replicas set 启动服务。# 默认备份节点不能读写,可以设置。# mydb指的是需要同步的数据库。#登录主mongodb初始化rs。#primary 创建用户。# ip地址注意要修改。# ip地址注意要修改。_monstache csdn
文章浏览阅读913次,点赞4次,收藏5次。storage:fork: trueadmin登录切换数据库注意: use 代表创建并使用,当库中没有数据时默认不显示这个库删除数据库查看表清单> show tables # 或者 > show collections表创建db.createCollection('集合名称', [options])table1字段类型描述capped布尔(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档。_mongodb5
文章浏览阅读862次。Centos7.9设置MongoDB开机自启(超全教程,一条龙)_mongodb centos开机启动脚本
文章浏览阅读1.3k次,点赞6次,收藏21次。NoSQL数据库使用场景以及架构介绍
文章浏览阅读856次,点赞21次,收藏20次。1.背景介绍1. 背景介绍NoSQL数据库是一种非关系型数据库,它的设计目标是为了解决传统关系型数据库(如MySQL、Oracle等)在处理大量不结构化数据方面的不足。NoSQL数据库可以处理大量数据,具有高性能、高可扩展性和高可用性。但是,与关系型数据库不同,NoSQL数据库没有固定的模式,数据结构也不一定是表格。在NoSQL数据库中,数据存储和查询都是基于键值对、列族、图形等不同的...
文章浏览阅读416次。NoSQL定义:非关系型、分布式、开放源码和具有横向扩展能力的下一代数据库。由c++编写的开源、高性能、无模式的基于分布式文件存储的文档型数据库特点:高性能、高可用性、高扩展性、丰富的查询支持、可替换已完场文档某个指定的数据字段应用场景:社交场景:使用mongodb存储用户信息游戏场景:用户信息,装备积分物流场景:订单信息,订单状态场景操作特点:数据量大;读写操作频繁;价值较低的数据,对事物性要求不高开源、c语言编写、默认端口号6379、key-value形式存在,存储非结构化数据。_nosql
文章浏览阅读1.5k次,点赞3次,收藏2次。Exception in thread "main" redis.clients.jedis.exceptions.JedisConnectionException: Failed to create socket. at redis.clients.jedis.DefaultJedisSocketFactory.createSocket(DefaultJedisSocketFactory.java:110) at redis.clients.jedis.Connection.connect(Conne_redis.clients.jedis.exceptions.jedisconnectionexception: failed to create so
文章浏览阅读6.5k次,点赞3次,收藏12次。readAnyDatabase(在所有数据库上都有读取数据的权限)、readWriteAnyDatabase(在所有数据库上都有读写数据的权限)、userAdminAnyDatabase(在所有数据库上都有管理user的权限)、dbAdminAnyDatabase(管理所有数据库的权限);:clusterAdmin(管理机器的最高权限)、clusterManager(管理和监控集群的权限)、clusterMonitor(监控集群的权限)、hostManager( 管理Server);_mongodb创建用户密码并授权
文章浏览阅读593次。Redis是一个基于内存的键值型NoSQL数据库,在实际生产中有着非常广泛的用处_搭建本地redis
文章浏览阅读919次。Key 的最佳实践[业务名]:[数据名]:[id]足够简短:不超过 44 字节不包含特殊字符Value 的最佳实践:合理的拆分数据,拒绝 BigKey选择合适数据结构Hash 结构的 entry 数量不要超过 1000(默认是 500,如果达到上限则底层会使用哈希表而不是 ZipList,内存占用较多)设置合理的超时时间批量处理的方案:原生的 M 操作Pipeline 批处理注意事项:批处理时不建议一次携带太多命令。Pipeline 的多个命令之间不具备原子性。_redis高级实战
文章浏览阅读1.2k次。MongoDB 递归查询_mongodb数据库 递归
文章浏览阅读1.2k次。通过实际代码例子介绍:如何通过MongoTemplate和MongoRepository操作数据库数据_springboot操作mongodb
文章浏览阅读687次,点赞7次,收藏2次。首先欢迎大家阅读此文档,本文档主要分为三个模块分别是:Redis的介绍及安装、RedisDesktopManager可视化工具的安装、主从(哨兵)模式的配置。_redis 主从配置工具
文章浏览阅读764次。天下武功,无坚不摧,唯快不破!我的名字叫 Redis,全称是 Remote Dictionary Server。有人说,组 CP,除了要了解她外,还要给机会让她了解你。那么,作为开发工程师的你,是否愿意认真阅读此心法抓住机会来了解我,运用到你的系统中提升性能。我遵守 BSD 协议,由意大利人 Salvatore Sanfilippo 使用 C 语言编写的一个基于内存实现的键值型非关系(NoSQL)..._redis 7.2 源码
文章浏览阅读2k次。MongoDB 的增删改查【1】_mongodb $inc