新一代大数据管家 DataSophon 1.2 重磅发版



在大数据领域,现在普遍认为是后 Hadoop 时代,CDH 的停更和闭源导致传统的 Hadoop 体系组件栈没有一个称手好用的管理工具,越来越多新一代的大数据项目也在层出不穷,同样也需要管理,并且需要适配云原生的能力。不管技术如何演进都面临组件栈管理和运维的难题,鉴于此 DataSophon 作为 Datavane 开源组织的推荐项目重磅开源。
 

新一代大数据管家DataSophon



DataSophon 是一个国产开源的大数据管理平台,在兼顾传统 Hadoop 组件的同时又支持新一代大数据组件栈,并且支持云原生的能力,致力于快速实现大数据组件部署、监控以及自动化运维管理,旨在帮助用户快速构建稳定、高效、自愈、可弹性伸缩的大数据云原生平台。项目自开源以来,得到了很大关注,社区发展迅速,近日 DataSophon 社区正式发布了 1.2.0 版本,带来了诸多改进和新功能的更新,具备更高的可用性和稳定性,欢迎大家下载使用。
 

新特性解读


1.2.0 版本,作为 DataSophon 开源之后发布的第一个版本,因此团队非常重视。在该版本全面支持了 Apache Doris,通过 DataSophon 可以便捷的部署、管理、监控 Doris。除此以外本次新增了初始化模块,可以自动完成集群环境初始化工作,避免因环境不一致导致集群安装失败的问题,还优化服务指令执行流程等,具体更新如下:
 

1. 全面支持 Doris


Apache Doris 是基于 MPP 架构的新一代开源实时数据仓库,以极速易用的特点被人们所熟知,在实时数仓和数据分析领域越发流行,本次 DataSophon 对 Doris 做了全面的支持,现在可在 DataSophon 上轻松的完成 Apache Doris 的集群部署和运维管理。

DataSophon 全面支持Apache Doris

集群部署

在 Doris 集群部署方面,本次的新版本能够自动将 Apche Doris 的 Follower、Observer、Be 等多种角色添加到集群中,全程界面化操作,动动鼠标即可完成,部署进度一目了然,大大省去了手动添加角色的麻烦,轻松实现集群的快速扩展和管理。

集群监控

对于 Apache Doris 集群的各项监控指标,也重点做了支持。您可以的在 DataSophon 中获得 Doris 集群的实时指标的各项信息,包括集群的节点数、详情、连接信息、运行状态和 CPU、JVM、内存、磁盘大小和 IO 的使用情况... 此外,您还可以查看集群的任务运行情况和其他详细信息,以便更好地了解集群的运行状况。

图片

集群运维

在集群运维方面 DataSophon 支持对 Doris 整个集群、FE、BE 节点进行启动、停止、重启等常规操作,同时支持了对 Doris FE、BE 节点进行在线扩/缩容。可以很轻松的设置 Doris 的监控指标和告警,Apache Doris 各项参数也可以很方便的进行单个或批量设置,同时提供进入Doris 的原生WebUI 的入口,DataSophon 中 提供的各种丰富的运维操作可以极大的方便用户去运维管理 Doris 。

图片


 

2. 新增多个监控指标
 

本次新增了多个生产环境中普遍关心的运维指标,旨在满足大数据集群生产环境中的关键需求。这些运维指标的引入,使得用户能够更加有效地管理大数据集群,提高集群性能,降低故障率,从而实现高效运维。主要新增指标如下:

  • HDFS 整个集群的客户端连接数。

  • NameNode 丢失的块数。

  • DataNode RPC 被调用次数。

  • DataNode RPC  队列积压长度。

  • DataNode RPC 平均处理时间。

  • ResouceManager RPC 队列平均处理时间。

  • ResouceManager RPC 队列积压长度。

  • NodeManager Container 启动个数。

  • NodeManager Container 正在运行个数。

  • NodeManager Container 初始化中个数。

  • NodeManager 磁盘损坏个数。

...

图片

图片

3. 新增初始化模块

在集群部署过程中,都需要进行集群环境初始化,例如配置主机名、配置免密登录、安装离线 yum 源等初始化环境操作。DataSophon 通过 datasophon-init 模块自动初始化安装和配置所需的依赖项,省去手动安装和配置的繁琐步骤,从而大大提高部署效率,减少因集群环境不一致导致集群安装失败的风险。

同时为了方便运维人员操作和使用,系统不仅提供了友好的用户界面还提供了二次开发接口。通过自定义扩展二次开发,可以实现与不同类型的操作系统的兼容,满足不同用户的需求。这样一来,用户可以根据自己的实际情况进行灵活的配置和部署,提高了工作效率和准确性。
 

4. 其他改进和更新
 

1、升级 SpringBoot 版本为 2.6.1。

2、新增项目启动时自动创建数据表和初始化数据功能。

3、优化服务指令执行流程,避免出现服务指令进度卡死的情况。

4、优化 Hive 默认使用 Hive on YARN 环境配置。

5、新增集群删除功能。

6、修复不选择安装的服务实例时依然生成服务指令的问题。

7、修复租户管理中租户列表分页不生效的问题。

8、修复服务角色实例警告报警状态无法恢复的问题。

9、修复租户管理租户列表和用户组列表未按集群隔离的问题。

10、修复 Doris 安装部署时,未自动生成 Doris BE 数据目录的问题。

11、修复 HDFS 安装部署时出现找不到 keystore 文件的问题。

12、 修复项目启动时出现的 "because it exists,maybe from xml file" 错误。

 

新官网上线


本次 DataSophon 上线了新官网,也完善了相关使用文档。在此感谢 Apache StreamPark 社区提供的技术支持,感谢  @songjianet、@haitaodesign 对官网的贡献。

图片

感谢贡献者


DataSophon 开源社区的发展,离不开广大用户群体的积极反馈和宣传布道,更离不开贡献者们的无私贡献,感谢对此版本做出贡献的每一位贡献者。

致谢名单(排名不分先后):

88fantasy、a19920714liou、haitaodesign、WujieRen、thomasg19930417、AllDataDC、zhaoxiaoyi、liu-hai、gtk96、lnnlab、javaht、hzluting、zhzhenqin、liugddx、zq0757、chenss-1、zhu-mingye、zhangdw123、liuxin319、whybeyoung、hitozhu、green241、chyueyi、zhegemingzimeibanquan、songjianet

加入我们


DataSophon 项目自开源以来,得到了很大关注,社区发展迅速, 越来越多的用户开始在生产环境部署使用 DataSophon,开发者也逐渐变多。如果 DataSophon 项目对您有帮助,请在 Gitee 或 Github 搜索 DataSophon 支持一下,点击 star 加关注。

我们明白项目只有真正解决问题, 给用户带来实际的价值才是立命之本,目前我们正在努力构建发展社区,我们坚信道阻且长,行则将至,竭诚欢迎广大的开发者和我们一起建设 DataSophon 项目,共同推动项目的发展。

原文地址:https://blog.csdn.net/Datavane/article/details/133375370

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。