大数据相关 - 编程之家

大数据开发编程之家(jb51.cc)编程百科栏目主要推荐程序员常用编程技术介绍，以下是大数据开发相关编程语言，主要信息提供给程序员快速了解所需要学习的编程技术语言。

KSQL 用于 Apache Kafka 的流数据 SQL 引擎注意：项目还处于开发者预览版，请暂时勿用于生产集群中。

Trill 是 Microsoft Research 开源的高性能单通道内存流分析引擎，它基于时态数据（temporal data）和查询模型（query

简介 Sylph 被定位为大数据生态中的一站式流计算平台，您可以使用它来开发、管理、监控、运维您的流计算.

一个封装了Hadoop Client的简单、方便的API，已经在生产环境中经受日千万级别次IO操作的检验。

Rain 是一个 Rust 实现的轻巧且强大的分布式计算框架，适用于处理大规模的基于任务的管道。

SpinalTap —— 通用可靠的变更数据捕获(Change Data Capture: CDC)服务 SpinalTap 是一种可扩展、高性能、可靠、无损的变更数据捕获(CDC)服务，能够检测跨不同数据源类型的低延迟的数据突变，并将它们作为标准化事

TensorFlow on YARN (TonY) 是一个构建在 Hadoop YARN 上的 TensorFlow 框架。 TonY 可以将单节点或分布式 TensorFlow 训练作为 Hadoop 应用程序运行。此原生连接器与其他 TonY 功能一起，旨在可靠，灵活地运行

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark,

温馨提示：该项目除了使用 BSD 协议授权外，还需遵守附加的专利授权。 prophet是一个可以通过 Python 和 R 语言使用的预测工具

Ciao取“Cloud Integrated Advanced Orchestrator”首字母命名，是一款云集成化先进编排工具。通过这套新方案，企业客户能够将各类元素汇聚至单一模式当中——包括云分析（例如Hadoop或者Apache

Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员，是 Google 在2016年2月份贡献给 Apache

tinympi4j 是一款微型的 java 分布式离线计算框架, 实现原理如图：特性简单直观, 没有任何学习难度

Weld 使用 Rust 语言编写，可以使用 LLVM 编译器框架，为整个数据分析工作流生成高效的并行运行的代码。CSAIL

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在

Apache Fluo 是 Google Percolator（搜索索引）的开源实现，允许用户对存储在Apache Accumulo

Jupyter Notebook 是一个基于 Web 的交互式计算笔记本环境。 Jupyter Notebook 允许用户创建和共享各种内容，包括实时代码、方程式、可视化和叙述文本的文档。它的用途包括：数据清理和转换、数值模拟、统计建模、

Metacat Metacat 是一个联合的元数据 API 服务，可以访问 Hive、RDS、Teradata、Redshift、S3 和 Cassandra。

睿思BI-OLAP系统支持对数据表的OLAP查询，无需编写任何的代码，用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型并进行数据多维查询及可视化。

OpenMining是由Python编写的商务智能应用服务器，为商务智能中大数据的处理提供了便捷的操作，以此来提高用户挖掘商业情报的效率。

HPAT 是一个基于编译器的大数据框架，使用 Python 编写。高性能分析工具包（HPAT）是一个基于编译器的框架，用于群集/云环境中的大数据分析和机器学习，既易于使用又非常快速；它比 Apache Spark