喜报!酷克数据携手中移在线入选2023大数据“星河”数据库优秀案例

12月20日-21日,由中国信通院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会承办的“2023数据资产管理大会”在京召开。

在会上,第七届大数据“星河(Galaxy)”案例评选结果正式公布。中移在线服务有限公司(中移在线)与酷克数据联合申报的《基于云原生化的数据仓库平台,实现数据算力交付效率全面提升》项目,凭借全栈自主可控、敏捷高效、安全稳定的先进特性,成为业内首个容器化部署的大规模云原生数据仓库,荣膺2023大数据“星河”数据库优秀案例奖。

大数据“星河(Galaxy)”案例征集活动主要面向甲方落地单位,旨在通过实地生产案例与场景,总结和推广真实可用的大数据实践与经验,在国内大数据产业具有公认的行业标杆性和极高的认可度。

第七届大数据“星河(Galaxy)”案例征集包括数据库与其他五项大数据应用方向,覆盖电信、金融、政务、能源、制造等行业。案例征集自9月启动以来,受到了业界领先甲方单位与厂商的广泛关注。经过形式审查和专家评审,共评选出数据库优秀案例26个。

项目背景

中移在线营服数据处理平台建设初期采用了当时业界广泛运用的“Hadoop+MPP数据库”混搭架构作为数据仓库。随着数据量的不断增长,平台扩容和运维漫长繁琐,无法满足高时效性、高重要性应用的发展需求。

围绕集团公司赋予的“全网集中服务的提供者、渠道运营的集中支撑者、业务的后台集中处理者”的定位,中移在线向云原生技术积极布局。经过广泛的市场调研和产品比较,最终以酷克数据的存算分离、弹性并行处理(EPP)数据库产品——HashData云数仓为核心,实施Vertica全面替换,构建统一高效、敏捷智能、湖仓一体的数据体系,提供统一、多样化、面向应用、面向主题的数据服务能力,为中移在线数字化转型提供强大的数据能力底座

首先,在本项目中,中移在线采用HashData EPP数据仓库,与原有基础云平台、对象存储集成,采用容器化部署方式建立起云原生数据仓库。

传统MPP架构的数据仓库,由于数据量大,网络、IO吞吐量高,无法采用容器化部署,难以实现资源利用的效率最大化。中移在线和酷克数据的技术团队克服了网络、存储、调度、管理等方面遇到的诸多技术挑战,突破过往容器化仅用于无状态应用场景或开发测试环境的限制,采用K8S+HashData 的技术路线,在国内率先建成实际生产环境下的容器化部署大规模云原生数据仓库。

图1:基于容器化部署的云原生数据仓库解决方案

基于HashData存储、计算、元数据三者分离的架构,借助更轻量级的容器虚拟化技术,进一步扩展了云原生数据仓库平台的弹性伸缩优势,以及高可用能力、自动化运维能力和资源敏捷交付能力大幅提升了项目交付速度,降低了数据迁移和拓展难度,实现计算资源和交付效率的全面提升。

相比原有数据处理平台,基于容器化部署的HashData云数仓,具备高可用、高并发能力,计算资源可水平无限扩展、支持秒级扩缩容等能力,并且在扩缩容期间不影响业务连续性,满足不同场景业务数据计算、查询需要,实现了计算资源快速部署、高效交付的建设目标

同时,在项目实施过程中,中移在线在HashData云原生数据仓库平台计算引擎层构建起多种异构数据技术组件的生态兼容能力,采用融合分析技术,支持把核心仓库区的数据与大数据区的数据进行关联融合分析,减少数据搬迁提升加工效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。最终,通过云原生数据仓库与流处理系统、批处理系统、数据湖、对象存储的集成,实现了数据高效汇聚,以及不同存储之间数据低成本流动与透明访问,助力数据高效融通、赋能生产运营。

此外,本次项目充分发挥了HashData丰富的接口能力与各种开发语言和上下游生态软件兼容性强的特性,顺利实现了云原生数据仓库与现有报表指标工具、智能统计工具、数据洞察工具、自助分析工具、研发云平台等系统的兼容适配,面向用户提供高效的数据检索与分析能力,提升用户数据使用效率和体验。

在存量数据应用迁移方面,借助HashData云原生数据仓库引擎用户自定义函数、用户自定义数据类型的特性,保持数据库引擎间的兼容性;此外,通过HashData完善的迁移工具功能,优化迁移方案,最大程度地实现了存量数据应用的“一键式”自动迁移及验证操作,大幅缩减了迁移人力投入和整体项目周期,快速释放新平台业务价值。

图2:Vertica存量应用工具化迁移方案

项目亮点

在本项目中,中移在线采用了HashData作为构建云原生数据仓库平台的核心引擎。依托HashData强大的数据查询分析能力和云计算弹性伸缩能力,新平台在技术架构、资源交付、业务赋能等方面实现了全方位提升:

  • 数据仓库系统架构创新

HashData云数仓解决了传统数据仓库在存算耦合、弹性伸缩、元数据管理等方面的弊端,各模块之间完全解耦,并采用分布式部署,摆脱了传统MPP数据库的各种架构限制和制约,为客户提供成熟稳定的海量数据管理平台,最大限度释放数据价值。

  • 数据仓库容器化部署创新

中移在线在国内率先在实际生产环境实现了云数仓容器化大规模部署和应用。通过采用K8S+HashData技术路线,新平台具备秒级快速扩缩容、读写分离、高可用、自动化运维、资源敏捷交付等能力,快速满足业务发展需要,同时也进一步提升了资源利用率,赋能企业降本增效。

  • 灵活高效的资源隔离能力创新

基于存算分离的架构,项目实现了基础设施资源和应用解耦,可以根据计算集群的工作负载变化,灵活、动态调配计算集群资源。计算集群间性能相互隔离,资源和操作完全独立,不会产生相互竞争 CPU、内存和IO的情况,从容应对纷繁复杂的数据应用场景。

  • 应用驱动的自动缓存能力创新

HashData缓存采用LRU算法,实现了按需、自动化的缓存管理,提升了热点数据访问效率,让底层存储更高效满足上层应用需求。

  • 智能化自愈能力创新

HashData提供了管理组件实时监控整个集群的运行状态,当感知到节点故障时将自动执行不同策略下的恢复操作,实现故障自愈,保证整个数仓服务实现高可用,有效适应数仓平台从决策管理辅助系统到业务运营关键支撑平台的转变,并满足用户对平台全天候可用性的预期。

项目价值

基于容器化部署的云原生数据仓库的建成,有效支撑了中移在线打造开放式数据生态体系,推动将数据变为资产并服务于业务以数据驱动业务增长,实现数据可见、可用、可经营,驱动业务创新和数据管理提速增效:

  • 深化云原生技术应用,实现数据基础平台架构云化升级

本次云数仓平台建设,是中移在线实现整个数据基础平台架构云化升级的重要一环。利用HashData云架构的可自由伸缩、灵活调配等优势,大幅提升计算资源快速部署、高效交付能力,支撑架构创新、数据生态、相互融合的特色数据体系,赋能公司未来业务高质量发展。

  • 构建OneData数据平台,实现真正意义上的企业级统一数据视图

在本次云数仓平台的建设中,将过往分散在四套独立Vertica集群中的数据统一迁移至全辖共享的对象存储,以更低成本、更高扩展性和可靠性,实现了全部数据资产的统一数据平台纳管,建立起真正意义上的企业级统一数据视图,消除了数据孤岛,避免了数据二义性对业务分析的影响,大幅降低了数据的使用与维护成本。

  • 解耦数据应用与数据库集群资源,实现资源管理与运维管理新范式

基于HashData的松耦合架构,创新性实现了数据应用与数据库集群资源的解耦,建立起统一的数据分析算力资源池,实现资源细粒度的管理与调度,支持离线计算与在线计算任务混部,达到峰谷互补的效果,大幅提升服务器资源利用率。

  • 建立湖仓一体数据体系,实现不同组件间数据高效融通与共享协作

本次项目建立起了以HashData云数仓为核心的湖仓一体数据体系。通过外部表和连接器这两类组件,实现了面向异构计算工作资源负载下的统一多维度查询分析服务架构,支持在多种计算引擎间共用计算和存储资源,避免了大批量数据的搬迁,有效降低了整体数据链路的成本、代价和复杂性,提升加工效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。

图3:中移在线云原生化数据仓库平台湖仓一体系统集成解决方案示意图

  • 完善迁移工具功能,实现存量应用“一键式”快速高效平滑迁移

在存量数据应用迁移方面,通过HashData完善的迁移工具,最大程度实现了存量数据应用的“一键式”自动迁移及验证操作,在较短时间内完成了约600T存量数据、10万个表、2000多个ETL脚本迁移与转换工作,节省了大量人力成本。

同时,在经济效益方面,使用HashData云数仓比在原有Vertica平台基础上扩容升级节省超过千万元;采用存算分离架构以及容器化部署技术方案,硬件资源节省达到30%。

本次项目中,中移在线不仅完成了对传统技术栈的替代,更重要的是在数据仓库平台架构方面实现了技术创新。基于容器化的云原生数据仓库平台,采用全栈信创架构技术栈,支持一云多芯(X86/C86/ARM)、一库双栈(通用/信创),在实现公司数字资产管理和运营全栈自主可控的同时,也实现了数据线全面技术升级。

云原生数据仓库平台从硬件、操作系统、数据库三个维度以信创供应链为基础搭建技术架构,具备高可用、易拓展等特点,结合容器化技术,构建基础算力与存储资源可统一管理、动态调配、敏捷交付,且无对外服务故障“断点”的大数据服务体系

本次项目全栈自主可控,兼顾安全稳定与敏捷高效,实现了数据算力交付效率全面提升,为中移在线全面提升业务处理的数智化水平奠定了坚实基础,为业务效率与技术融合创新提供了有力支撑

未来,中移在线和酷克数据将积极响应国家和行业号召,围绕“数字经济、信创工程、创新驱动”的发展战略,积极推进技术架构转型升级,赋能数据高效融通,为提升线上营服能力、营销转化能力构筑强大数据融通计算底座。

公司简介

酷克数据是中国领先具备自主可控研发能力的数据仓库软件厂商,核心团队主要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计算、分布式数据库和大数据专家组成。凭借深厚的技术积累以及极具前瞻性的产品理念,HashData数据仓库已广泛应用于金融、电信运营商、能源、政府、交通物流和互联网等多个行业领先客户。

中移在线服务有限公司是中国移动在数字化时代全新设立的全资专业子公司,致力于以更高的服务效能,更优的服务质量,做数字服务的提供者和创新者,成为客户满意、社会信赖的卓越服务品质创造者。

原文地址:https://blog.csdn.net/m0_54979897/article/details/135204041

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。