PackOne 大数据软件栈部署与管理工具

程序名称:PackOne

授权协议: Apache

操作系统: 跨平台

开发语言: Python

PackOne 介绍

PackOne 致力于实现主流大数据软件在云端的快速弹性部署。通过对云 API 和 Apache Ambari API 的联合调用,完成
Hadoop、Spark、NiFi、PiFlow、Kylin、MangoDB、Neo4J
等流行的大数据管理/处理软件在云端的一键部署和一键伸缩。主要特性包括:

  1. 支持在空白虚拟机上完成大数据处理集群的全自动部署。
  2. 通过 Apache Ambari 对已部署的大数据软件进行状态监控、配置管理。
  3. 通过将模版集群物化为系统镜像,实现新集群的分钟级快速部署。
  4. 通过集群节点的全自动增删,实现各类大数据软件处理能力的分钟级弹性伸缩。
  5. 在同一个界面上对来自不同云的虚拟机、存储卷、镜像、模版等进行 CURD 操作。

PackOne 支持不同类型的云平台。目前版本实现了对 OpenStack 和 EVCloud 两款私有云的适配。

PackOne 可执行程序包的安装、配置、运行方式都比较简单:

一、安装

选择一台能够访问目标云的 Linux 主机 (以 Centos 7.5 为佳),依次执行:

pip install pk1
pip install -U pip setuptools

二、配置

创建一个Postgresql数据库实例,并准备好其连接信息,包括:db_user(数据库用户)、db_passwd(用户密码)、db_host(数据库主机地址)、db_port(数据库端口号)、db_name(数据库名)。然后执行:

pk1 setup --database db_user:db_passwd:db_host:db_port:db_name

(会提示设置管理员 admin 的邮箱、密码等信息。)

三、运行 PackOne 服务

pk1 start [--listening 0:11001]

四、快速上手:以 OpenStack 私有云为例

进入添加“云”的界面,输入如下图格式所示的 OpenStack 用户密钥信息。创建成功会自动导入云端的镜像、模版。然后进入 user/profiles
界面,为当前用户添加一个 profile,进入 user/balances 界面,为该 profile 在新添加的云上添加余额(大于零即可)。

  • 回到云列表界面,选择刚才新创建的云,在操作下拉框点选“bootstrap…”按钮,触发在空白虚拟机上全自动部署模版集群的后台工作流。通过 clouds/operations 界面可监控工作流的执行进度,若遇到某步操作出错,可以点按 re-run 按钮重新执行,直至成功。

  • 当工作流执行完毕后,可以在 engines/clusters 界面选择刚才创建的名为 bootstrap.<云名称>的模版集群,点按“Materialize the cluster as a scale”将其镜像化。最后,创建新集群时,可在 engines/cluster 的创建集群界面选择名为“packone.<云名称>”的 scale,实现新集群的快速创建。

五、停止PackOne服务

pk1 stop

PackOne 目前以 Apache License V2.0 协议在 Gitee 上开源,欢迎提交 Issue、PR。

PackOne 官网

https://gitee.com/opensci/packone

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


RedHadoop 是一个持续优化的企业级Hadoop基础软件平台,让Hadoop大数据更简单! RedHadoop大数据工场企业版是RedHadoop公司第一款产品,简称BWE(RedHadoop BigData Works
来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC
Mincemeat-node 是使用Node.js实现的极简MapReduce框架,可以快速的部署投入工作,免去Hadoop繁琐的配置,享受随心大数据。
REEF 是微软开发的一个大数据框架。 REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个
Scribe旨在帮助Facebook处理服务器上的大量数据,正像Scribe网页所述“如经常访问Facebook,请使用Scribe。”具体而言,Scribe就是一台服务器,实时收集用网站日志信息。
HTools是一款专业的Hadoop管理工具,不管您是非专业IT人士,还是多年经验的技术人员,本工具都会为您提供优质的管理服务和轻松的操作过程,
hive让大数据飞了起来,不再需要专人写MR。平常我们都可以用基于thrift的任意语言来调用hive。
MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(化简)”,和他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。
Netflix 开源了一个叫做Suro的工具,它能够在数据被发送到不同的数据平台(如Hadoop、Elasticsearch)之前,收集不同应用服务器上的事件数据,这项创新技术具备成为大数据主流实践的潜力
Apache Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持
Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop
Themis 是小米公司开发的,为 HBase 提供了跨行/跨表的事务处理,基于 Google 的 percolator.
腾讯分布式数据仓库项目,在Hadoop和hive的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法,支持PB级的存储和TB级的计算等。
Spring XD 是一个统一的,分布式,可扩展的系统用于数据摄取,实时分析,批量处理和数据导出。该项目的目标是简化大数据应用的开发。
HP Vertica 基于列存储,相比传统面向行存储的数据库具有巨大的优势。同时 Vertica 支持 MPP(massively parallel
S3mper 是通过一致的,二级索引对亚马逊 S3 索引做额外的一致性检查。 S3mper 利用面向方面编程和AspectJ 实现来引导Hadoop 文件系统实现(主要是实现
Crate Data 是一个开源的大规模的可伸缩的数据存储系统,无需任何系统管理需求。提供强大的搜索功能。用于存储各种表格数据、非结构化数据和二进制对象。并可通过 SQL
Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是Hive 的 10 倍以上。
YARN是新一代Hadoop资源管理器,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数