Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming 计算中间件

程序名称:Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming

授权协议: Apache-2.0

操作系统: 跨平台

开发语言: Java

Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming 介绍

Linkis是一个打通了多个计算存储引擎如:Spark、TiSpark、Hive、Python和HBase等,对外提供统一REST/WebSocket/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。

Linkis基于微服务架构,提供了金融级多租户隔离、资源管控、权限隔离等企业级特性,支持统一变量、UDF、函数、用户资源文件管理,具备高并发、高性能、高可用的大数据作业/请求全生命周期管理能力。

基于Linkis计算中间件的架构设计理念,在上层构建了很多的应用系统。

  • 目前已开源的有: 数据研发IDE工具Scriptis

  • 即将开源的有: 数据可视化展示工具图形化工作流工具数据质量工具

核心特点:

  • 统一作业执行服务 :一个分布式的REST/WebSocket服务,用于接收用户提交的各种脚本请求。

目前支持的计算引擎有 :Spark、Python、TiSpark、Hive和Shell等。

支持的脚本语言有 :SparkSQL、Spark Scala、Pyspark、R、Python、HQL和Shell等;

  • 资源管理服务 : 支持实时管控每个系统和用户的资源使用情况,限制系统和用户的资源使用量和并发数,并提供实时的资源动态图表,方便查看和管理系统和用户的资源;

目前已支持的资源类型 :Yarn队列资源、服务器(CPU和内存)、用户并发个数等。

  • 应用管理服务 :管理所有系统的所有用户应用,包括离线批量应用、交互式查询应用和实时流式应用,为离线和交互式应用提供强大的复用能力,并提供应用全生命周期管理,自动释放用户多余的空闲应用;

  • 统一存储服务 :通用的IO架构,能快速对接各种存储系统,提供统一调用入口,支持所有常用格式数据,集成度高,简单易用;

  • 统一上下文服务 :统一用户和系统资源文件(JAR、ZIP、Properties等),用户、系统、计算引擎的参数和变量统一管理,一处设置,处处自动引用;

  • 物料库 :系统和用户级物料管理,可分享和流转,支持全生命周期自动管理;

  • 元数据服务 :实时的库表结构和分区情况展示。

与类似系统的对比:

Linkis跟Apache Livy和Apache Zeppelin
Interpreter的定位不一样,但是由于开源社区目前尚没有同类竞品,所以这里做一个简单对比供大家参考。


文档列表

Linkis快速安装使用文档

上层前端应用的HTTP接入文档

上层前端应用的WebSocket接入文档

Linkis架构文档

更多文档,请点我访问


Architecture:


RoadMap

1. Linkis管理台

  • 用户可以查看和管理自己的Job
  • 用户可以查看和管理自己的引擎
  • 用户可以查看Yarn的资源使用情况和用户资源使用排名
  • 用户可以配置引擎的启动参数
  • 用户可以设置变量

2. 支持标签功能

  • 支持给EngineManager打标签
  • 启动引擎时,支持为引擎打标签
  • 支持通过标签访问目标引擎

3. AppGovernance应用治理实现

  • 系统级、用户级应用全生命周期管理,包括离线批量、交互式查询和实时流式应用
  • 为离线和交互式应用提供复用能力和智能切换能力
  • 智能限流、应用智能保护

4. 支持Flink和Spark Structured Streaming

如果您有任何需求,欢迎给我们提issue,我们将会及时给您回复。

Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming 官网

https://gitee.com/WeBank/Linkis

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


RedHadoop 是一个持续优化的企业级Hadoop基础软件平台,让Hadoop大数据更简单! RedHadoop大数据工场企业版是RedHadoop公司第一款产品,简称BWE(RedHadoop BigData Works
来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC
Mincemeat-node 是使用Node.js实现的极简MapReduce框架,可以快速的部署投入工作,免去Hadoop繁琐的配置,享受随心大数据。
REEF 是微软开发的一个大数据框架。 REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个
Scribe旨在帮助Facebook处理服务器上的大量数据,正像Scribe网页所述“如经常访问Facebook,请使用Scribe。”具体而言,Scribe就是一台服务器,实时收集用网站日志信息。
HTools是一款专业的Hadoop管理工具,不管您是非专业IT人士,还是多年经验的技术人员,本工具都会为您提供优质的管理服务和轻松的操作过程,
hive让大数据飞了起来,不再需要专人写MR。平常我们都可以用基于thrift的任意语言来调用hive。
MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(化简)”,和他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。
Netflix 开源了一个叫做Suro的工具,它能够在数据被发送到不同的数据平台(如Hadoop、Elasticsearch)之前,收集不同应用服务器上的事件数据,这项创新技术具备成为大数据主流实践的潜力
Apache Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持
Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop
Themis 是小米公司开发的,为 HBase 提供了跨行/跨表的事务处理,基于 Google 的 percolator.
腾讯分布式数据仓库项目,在Hadoop和hive的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法,支持PB级的存储和TB级的计算等。
Spring XD 是一个统一的,分布式,可扩展的系统用于数据摄取,实时分析,批量处理和数据导出。该项目的目标是简化大数据应用的开发。
HP Vertica 基于列存储,相比传统面向行存储的数据库具有巨大的优势。同时 Vertica 支持 MPP(massively parallel
S3mper 是通过一致的,二级索引对亚马逊 S3 索引做额外的一致性检查。 S3mper 利用面向方面编程和AspectJ 实现来引导Hadoop 文件系统实现(主要是实现
Crate Data 是一个开源的大规模的可伸缩的数据存储系统,无需任何系统管理需求。提供强大的搜索功能。用于存储各种表格数据、非结构化数据和二进制对象。并可通过 SQL
Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是Hive 的 10 倍以上。
YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数