大数据开发 - 编程之家

Koalas

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容，Koalas项目在与大数据交互时提高了数据科学家的工作效率。

http-mock-middleware

http-mock-middleware 是一个 http mock 库，或者说 ajax/websocket mock 库，它接收来自 web 前端页面的

MR4C

MR4C 是 Google 开发的 C++ 的 MapReduce 框架，你可以在 Hadoop 架构中执行本地代码。

Surus

Surus 是 Pig 和Hive 的分析集合，包括以下功能： ScorePMML - 云评测模型工具 Robust Anomaly Detection (RAD) - 健壮的 PCA 实现

PyJava

PyJava 是一个用于在 Java/Scala 和 Python 之间转换数据的库。 PyJava 引入了 Apache Arrow 作为交换数据格式，这意味着可以避免 Java/Scala 和 Python 之间的 ser/der，这可以加快通信效率。在 Java/Scala

TipDM

TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件，用户可在没有编程基础的情况下，通过拖拽的方式进行操作

Apache Geode

概览 Apache Geode 是一个数据管理平台，提供实时的、一致的、贯穿整个云架构地访问数据关键型应用.

Brooklin 为什么要开发 Brooklin？什么是 Brooklin？应用场景数据传输桥多租户变更数据捕获CDC

Brooklin 是一种近实时的大规模数据流分布式服务，LinkedIn 自 2016 年以来一直在使用这项服务，支撑每天数千个数据流和超过 2

PiFlow

PiFlow 是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：

MacroBase

MacroBase 是一个数据分析工具，利用机器学习优先处理大型数据集。具体来说，MacroBase 是一个新的分析监督引擎，旨在进行大型数据集和数据流优先处理。与传统的分析引擎不同，MacroBase

Data Accelerator

Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道：即插即用：轻松设置输入源和输出接收器，以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据，并支持

Wormhole-SPAAS

Wormhole 是一个 SPAAS（Stream Processing as a Service）平台解决方案。Wormhole 面向大数据项目的开发，运维以及管理人员，致力于简化和统一开发管理流程。当今运维是典型的大数据应用领域，Wormhole

GrimoireLab

GrimoireLab 是一个用于软件开发分析的工具集。它包括一组协调的工具，用于从支持软件开发（存储库）的系统中检索数据，将其存储在数据库中，通过计算相关指标来丰富它，并使其易于运行分析和可视化。

Apache IoTDB

IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。

Hadoop

Hadoop 是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop

Apache HBase HFileHLogFile

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

Delta Lake <strong>主要功能特性</strong>

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在

Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming

Linkis是一个打通了多个计算存储引擎如：Spark、TiSpark、Hive、Python和HBase等，对外提供统一REST/WebSocket/JDBC接口，提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。

Apache IoTDB

IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。

Apache CarbonData

Apache® CarbonData™是由华为开源贡献的大数据高效存储格式解决方案。针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持“交互式分析、详

Hudi

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL

Apache Tajo

Tajo 是一个分布式数据仓库系统，基于 Hadoop 实现，特点是低延迟、高可伸缩，提供专用查询和 ETL 工具

ROOT-framework

ROOT 是一个模块化的科学软件工具包，它是一个数据处理框架，提供了大数据处理、统计分析、可视化和存储所需的所有功能，主要使用 C++ 编写而成，同时可集成

TDW

腾讯分布式数据仓库项目，在Hadoop和hive的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法，支持PB级的存储和TB级的计算等。

gmq 3.1 源码运行3.2 执行文件运行运行一条消息结构延迟任务超时任务异步任务优先级任务5.1 延迟时间 delay5.2 执行超时时间 TTR5.3 确认机制7.1 安全退出7.2 智能定时器7.3 原子性问题7.4 redis 连接池9.1 客户端出现大量的 TIME_WAIT 状态，并且新的连接被拒绝

1. 概述 gmq是基于redis提供的特性,使用go语言开发的一个简单易用的队列；关于 redis 使用特性可以参考之前本人写过一篇很简陋的文章Redis

Crate

Crate Data 是一个开源的大规模的可伸缩的数据存储系统，无需任何系统管理需求。提供强大的搜索功能。用于存储各种表格数据、非结构化数据和二进制对象。并可通过 SQL