宕机事件为何频发?云原生时代,需要什么样的运维保障体系?

美联储支付系统宕机、亚马逊云服务宕机、国内 B 站等互联网服务平台宕机……近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点。

随着互联网服务深度融入生产生活,软件需要完成多样化的需求,势必需要扩大系统、引入新兴技术架构,信息系统的复杂度迅速提升,这些都导致系统稳定性的挑战愈加艰巨。中国信通院云计算与大数据所马鹏玮认为,信息系统稳定性成为业内焦点已经是必然趋势。

为了帮助各行各业实现更高效的运维,为业务提供全方位的稳定性保障,近日,蚂蚁数科发布了业务智能可观测服务 BOS。在产品发布会上,蚂蚁数科的产品专家马恒洋,对传统 IT 运维存在的挑战,以及业务智能可观测产品的功能进行了全面解读。

蚂蚁集团数字行业事业部总经理余滨表示:“未来蚂蚁数科将提供更丰富的产品体系,并联合相关的生态伙伴,去服务更多企业数字化转型,让业务智能可观测的产品、技术和服务给企业带来更多价值。”

传统 IT 运维面临的四大挑战

目前各行业都在进行数字化转型,比如建设 Devops、分布式架构、容器化改造等。在享受数字化和云化带来福利后,复杂业务场景和大规模用户量,给今天的运维带来了全新挑战和更大风险压力,主要挑战如下:

业务数字化运维缺失:现阶段大多数企业偏向于应用或资源视角运维,缺少从业务视角进行运维、运营的能力。并且企业的业务场景又纷繁复杂,比如面向用户的手机银行、微信银行等,面向内部员工的财务、HR 系统, 以及面向伙伴的开放平台等。这些复杂的业务场景没办法通过传统运维手段将其量化和可视化,更无法将业务与应用系统进行关联映射;

链路的覆盖率很低:40% 左右用户体验故障是由客户端自身导致的,60% 左右是客户端调用服务端或中间件引起的,所以原先单点请求调用变成了长链路调用,任何一笔请求可能经过客户端-服务端-中间件等多个异构节点,每次出现故障时,运维人员无法快速感知调用链路上哪个环节出现异常或性能瓶颈;

运维产品多且割裂:很多企业都有购买和自建了各种监控产品,比如应用、中间件、基础资源的监控等,这些产品由不同部门使用,同样也建设了日志和链路等运维工具,但故障发生时仍需人工手动的收集信息,导致排障周期很长,比如应用出现故障时,可能是因为运行所在虚拟机异常导致的,但却是两个监控平台各自发出告警信息,无法自动关联;

运维数据无统一标准:海量运维数据不能实现数据的多维关联分析,就不能支撑上层可观测和智能运维能力,更无法实现运维数据的分析和挖掘。

上述四类挑战最终导致运维人员每天陷入到海量告警风暴中,但又无法准确发现故障;生产事故频繁出现,但又无好的观测和应急手段;并且每次故障都要拉齐相关的业务方、应用研发和运维等多方协同,效率不仅低下而且协同成本高。

如何应对这些挑战呢?传统方式是通过监控聚焦发现基础资源故障点,以运维人员为主;近年来,云原生兴起,可观测性概念与技术也得到很好的发展和传播,针对应用系统提供各种观测手段,如指标、链路、日志,可以更好去发现系统故障的根因,将系统内部白盒化和感知系统内部正在发生什么,用户也从运维扩大到应用研发。

但面对复杂的业务场景,这还远远不够。蚂蚁集团有复杂的业务场景,而每个业务完成也都会经过很多应用系统,所以业务内部在发生什么就变得很重要。蚂蚁沉淀出将业务场景可视化和数据业务语义化,以此实现业务和应用关联映射。当业务异常时,可利用智能化的观测技术手段,以此实现快速的故障定位和恢复。

业务智能可观测服务的五大能力

业务智能可观测服务 BOS(Business-Intelligent Observability Service)是基于蚂蚁大规模技术风险防控实践自研的一套运维平台,具有业务数字化运维、全息可观测定位、智能场景化防控、一体化数据分析和大规模实践等产品特性,将业务场景可视化和数据业务语义化,赋能云上/云下的异构应用开箱即用的智能可观测能力,为业务提供全方位的稳定性保障,建设业务观测新范式,让稳定更有力量。

业务智能可观测服务包含以下核心价值。

核心价值 1:业务数字化运维

蚂蚁有着上百个业务域,具有业务种类多、业务场景数量多、业务量级高等特性,所以就需要时刻检测和发现业务异常,比如流量下跌/突增、流量失败等。并且当业务异常时能够提供快速诊断的能力,所以对链路、日志和指标等观测数据,按照业务场景模型进行聚合,以此提供业务数字化运维的能力:

通过对业务链路和日志数据融合,并增加业务依赖轨迹,可构建业务多阶段模型,比如交易业务(交易创建-> 交易付款-> 交易支付成功),让业务方、研发和运维人员都能过可视化熟悉业务流程走向,并可自动感知到业务上下游依赖,以及通过业务影响面定义故障和拉齐应急;

通过对链路和日志数据融合,并增加业务语义行为,可自动聚合成业务单依赖链路,比如支付这个动作,支付业务在服务端的请求调用依赖是什么样的,当支付业务受损后,可查看对应的业务链路,识别链路中的应用服务和中间件等异常节点,将业务异常与应用异常自动关联映射;

通过将指标和日志数据融合,并增加业务语义维度,可灵活自定义配置丰富的业务指标,比如交易量和转账率等,并借助全息可观测能力去快速的发现和定位故障,提供业务连续性保证。

业务数字化运维从业务出发定位应急和可视化系统,但这需要可观测能力和数据已建设完成,我们提供一整套完整的定位充分度度量机制,去衡量可观测基础数据的完整性;并且根据业务优先级和重要性,充分的梳理每个业务,实现更广的覆业务盖率,这样就可以对平台内的业务一目了然。

核心价值 2:全息可观测定位

端到端全链路观测:提供从客户端->服务端->中间件的分布式全链路追踪能力,通过链路图、拓扑图和时序图等多种可视化方式,识别和锁定链路调用中的异常点和性能瓶颈;针对客户端应用,提供崩溃分析功能,以监控 APP 的闪退、卡死、卡顿等崩溃类事件,并及时上报 APP 对应的内存堆栈信息,方便定位问题,此外还提供启动分析、网络分析、电量分析、内存分析、H5 性能分析、小程序分析等客户端监控能力。

提供丰富服务端性能监控,可视化展现应用自身各方面运行情况,如应用的服务接口、资源使用、JVM Runtime 、端口存活等,并且将细粒度的观测数据按照单服务、机房、单元化和应用等维度聚合,实现指标的逐层下钻能力;并且真正意义上实现将指标、链路和日志等可观测数据进行超融合,比如 error 错误数可查看对应错误日志信息统计、慢接口和慢 SQL 等指标可查询对应的链路明细数据、单链路中可查看应用运行指标和关联日志。

性能诊断分析:提供 CPU 快照分析、内存快照分析、线程分析、异常分析的性能监控能力,可真实还原代码执行过程,帮助快速定位线程、堆栈等引起的程序故障。同时 Arthas 是诊断 Java 领域线上问题的利器,利用字节码增强技术,可以在不重启 JVM 进程的情况下,查看程序的运行情况。

故障定位自愈:将相关告警和异常事件按照风险维度进行聚合,提供单应用诊断、链路诊断、依赖诊断、故障决策分析能力,可快速定位到故障点,如已知风险事件,可自动触发已配置风险预案,以此实现故障自愈能力。

应用安全治理:基于插桩技术将安全策略注入到应用运行时环境,来抵御黑灰产网络攻击的应用安全防护能力,RASP 安全技术可在应用运行时检测攻击并进行自我保护,其攻击拦截防护率高达 98.7%,RT<1ms ;当服务异常时,可基于 ServiceMesh 实现服务治理的能力,并在链路和监控中观测 sidecar 节点,以此保证 sidecar 稳定性,避免对业务的影响,在服务治理界面提供丰富的观测数据融合展现;最后与应用变更流程打通,可实现对变更流量的实时观测能力。业务智能可观测服务真正实现了对应用全生命周期的防-治-变能力。

核心价值 3:一体化数据分析

业务智能可观测服务除了提供丰富的可观测数据采集能力外,还能够与第三方系统数据集成,按照符合开源 Open-telementry 标准协议的数据模型,对上报的数据进行预处理和二次计算,统一存储到高可靠的数据库中。

并对接第三方运维变更平台的元数据中心或 CMDB,将异构元数据转换为统一技术风险元数据,按照不同业务定位场景聚合为不同的影响面模型,如系统依赖影响、业务链路影响、客户资产影响等,在影响面模型上融合时序数据,构建成实时技术风险数据中台,使顶层可观测能力和底层异构数据源真正解耦。

一体化数据分析的目的并不仅仅是将数据进行统一纳管,更重要的是对数据进行关联分析,以此支撑各种技术风险场景运维,如故障诊断、根因分析、上卷下钻等。用此解决业务来源下跌、服务损耗比等故障,比如当业务异常时,我们对业务的相关变更检测、对业务相关应用诊断、和应用依赖分析等,之后将整个业务故障诊断链路上的所有异常点进行聚合推送给应急人员,以此在最短的时间内感知到故障影响面和作出应急决策,最终实现蚂蚁技术风险应急的 1-5-10 目标(即一分钟发现异常、五分钟定位问题、十分钟恢复故障)。

核心价值 4:智能场景化防控

蚂蚁内部做了很多 AIOPS 算法和工具的探索,最终沉淀出一套包含智能算法的部署、训练、回归,以及决策的打标回流完整算法能力平台。和告警模块深度结合,基于时序数据可将未出现过的突刺判定为业务异常,如突升/突降、缓升/缓降、跌零、长趋势异常、频率异常等。并给出当前点未告警的详细原因,比如同比过滤、环比过滤、同升同降过滤等;且准确率稳定> 90%, 能够识别>5%涨跌幅的异常波动,智能场景化防控帮助更多的企业实现自动化运维,释放运维人力成本。

核心价值 5:11.11 大规模实践

业务智能可观测服务作为安全生产和稳定性保障的眼睛,所以其自身的稳定性极其重要。业务智能可观测服务框架可针对不同量级观测对象,实现快速弹性扩所容。所有组件皆是蚂蚁自研,具有很强的技术兜底性保障。并且整个平台在采集、计算、存储等都具备超强高性能,以及支持多地多中心容灾部署架构,可实现 4 个 9 的金融急容灾能力,以此应对各种大规模场景,保障业务不间断。

开放兼容各类异构应用

今天越来越多的企业去建设可观测体系和产品能力,因为观测可以让企业不同部门、人员都能够获得更大的竞争优势。

对于运维工程师、研发工程师,通过全息可观测能够实现以可观测能力,将业务设计-研发-运行-运维全流程融合,端到端全链路可视化可定位调用瓶颈,一站式应用观测可快速诊断故障根因;对于项目管理者、架构师可以通过业务影响定义故障,实现多部门协作应急,提供业务场景/拓扑/链路/大盘多视图,实现业务与系统映射,打破数据孤岛,以此实现业务化运营;对于企业可以降低业务生产故障,提供更好安全稳定性保障,以此实现安全生产的目标。

业务智能可观测服务会以更加开放和兼容的形态对外提供服务。在阿里云公有云提供全套业务观测服务,可以搭配 SOFAStack 金融级云原生分布式解决方案和其他阿里云云产品一同使用,更好的享受云原生带来便捷。同样支持混合云私有化的输出,目前能够部署在阿里云飞天、vmware 虚拟机、Kubernetes 容器、openstack 等多种异构环境,并且支持国产化架构,获得了信创认证。

今天分布式和容器化应用仅占企业系统的一部分,大部分的应用系统都在云下,运行在经典虚拟机上,这些核心系统同样面临着前述运维挑战,而业务智能可观测服务能够对各种异构语言、异构技术栈的应用系统,提供开箱即用的业务观测能力,让云下的应用也享受可观测技术红利。

如果部分企业已基于开源产品进行可观测的尝试,比如 Skywalking、Prometheus 、EFK 等。业务智能可观测服务同样能够兼容,可收集开源链路产品上报的链路数据、可采集基于 prometehus 协议生成的监控指标、可对接查询 ES 的原始日志,让应用系统无缝且无成本的迁移到业务智能可观测服务上。

此外,蚂蚁数科还提供 SRE 咨询和配置服务。搭配蚂蚁 SRE 的咨询服务,可深入的调研和调了解企业运维现状,并结合蚂蚁的技术风险实践,梳理出一份针对企业自身运维发展和 SRE 体系的建设的咨询报告。除了业务智能可观测服务的产品,也提供相关的业务配置服务,根据企业的试点应用打造业务样本间,如业务场景、业务指标、业务大盘、巡检脚本、故障诊断树、预案等,并在配置过程中对企业人员进行赋能,可实现产品更好的落地和企业真正的自主可控。

目前金融行业的国有大行、股份制银行、城商行、农信社、保险领域的多家机构都已经使用业务智能可观测服务。比如宁波银行的可观测和故障诊断自愈、中华财险的混合云统一观测平台等。

蚂蚁数科是蚂蚁集团的科技业务板块,致力于将蚂蚁集团在区块链、人工智能、云计算、安全科技等领域的核心技术能力持续对外开放,为中小金融机构数字化升级、小微商家数字化经营、产业链数字化协作和跨境服务数字化转型贡献力量。

原文地址:https://www.toutiao.com/article/7134657825761919523/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


所以很多人都会选择将这些生活琐事来交给智能化产品,在众多产品中,扫拖机器人所给我们带来的便利性最强,扫地、拖地全都一气呵成,不需要人为过多干预,不过目前大多数扫拖机器人对于双手解放得不彻底。而石头作为
“昨天的经历都将成为明天的力量。” 将绝大部分精力都奉献给璃月港的刻晴,可以说是《原神》中的高人气角色了,虽然是常驻角色,并且对于普通玩家来说……刻师傅别刮了……不过作为开服就存在的角色,还有独特的剑法
最近,全球知名的通信产业盛会MWC 2024(2024世界移动通信大会)正式召开,其中,联发科以“连接AI宇宙”(Connecting the AI-verse)为主题,为大众展示出一系列在AI和移动通信技术等领域的最新突破,吸引了大量行业
今年上半年有很多值得关注的机型,其中华为最新的影像旗舰华为P70 Art也自然受到了业界不少的关注目光,目前关于这款机型的轮廓图已经在网上曝光。
目前,2024世界移动通信大会(MWC)正在西班牙巴塞罗那举行,值得一提的是,此次大会参展中国厂商非常多,包括华为、中兴、小米、荣耀等等多家厂商均在其列。
就在去年,真我推出了11 Pro+,用一个2亿像素传感器和zoom变焦功能,开启了中端手机影像的长焦大战,而后友商才姗姗来迟的跟进了2亿像素传感器。
【手机之家新闻】一年一度的MWC已经于当地时间2月26日在巴塞罗那正式开展,在本次MWC2024上全球各大厂商齐聚一堂,展出自家最新的技术与产品,其中中兴就参展本次MWC2024,并且展出了诸多面向企业端的产品,而旗下的
近日,联发科在MWC 2024(2024 世界移动通信大会)上展出了一系列令人瞩目的AI和移动通信技术突破,以“连接AI宇宙”(Connecting the AI-verse)的展厅吸引了无数业界精英和媒体的目光。特别是其现场的生成式AI技术
虽然目前国内已经有不少厂商入局折叠屏产品,但是努比亚却迟迟没有入局。不过在近日举办的MWC 2024展会上,努比亚发布了自家首款折叠屏手机——努比亚Flip,预计国内很快也会上市。
MWC 2024正在西班牙巴塞罗那举办,和往年一样,荣耀这次依旧携众多新产品、新技术参会。荣耀Magic6 Pro、荣耀Magic V2 RSR保时捷设计的机型在海外正式发布,并且还展示了魔法大模型、任意门等诸多新技术。
MWC 2024正在西班牙巴塞罗那如火如荼地举行,其中小米也参加了今年的大会,在会上发布了在国内大受欢迎的小尺寸旗舰——小米14。值得一提的是,高通公司CEO安蒙甚至亲临发布会现场为这款机型助阵。
《原神》是一直以来在机圈深受欢迎的游戏,在充满幻想的提瓦特大陆上,你可以邂逅不少性格迥异、能力独特的伙伴。而一加Ace系列一直就拥有非常强烈的电竞属性,也是畅玩《原神》的热门机型,而在本月,一加Ace 3将推
有不少网友发现,今年新机的发布时间相对于往年大幅提前,很多厂商在春节之前密集发布了自己最新的中高端机型,给人一种年后没什么新机可发了的感觉。不过魅族全新的大杯机型——魅族21 PRO非常值得期待,魅族科技也
2022年7月,小米12S Ultra正式发布,这款产品率先将1英寸大底主摄引入到移动影像领域,同时凭借鲜明的徕卡影调给人留下深刻的印象,同时这款产品也被视为了影像旗舰地位的机型。如果从那时算起,到现在差不多已经快过
随着智能手机的日益普及和智能化进程的加速,智能穿戴设备成为了人们关注的焦点。各大智能手机厂商纷纷进军智能穿戴市场,试图在这一新兴领域抢占先机。
早在去年秋天,HyperOS操作系统发布的时候,小米便勾勒出了“人车家全生态”的美好蓝图,而在这其中,小米的多终端统一战略是核心,目前已经有不少小米产品预装或者接受到了HyperOS操作系统的推送,在过去几个月的时
今年雷军将把更多的精力放在小米汽车上,所以接下来的手机业务将由刚刚兼任小米品牌总经理卢伟冰接管。同时雷军也在微博上表示小米2024年开年旗舰——小米14 Ultra即将在近期发布,并且将有卢伟冰进行讲解。另外,卢
新的一年有龙则灵,有愿必达。自1月19日起,荣耀加码“新年荣耀,一起成龙”年货节,在全国荣耀线下门店上线了“新年许愿处”、“龙运当头”等趣味活动,吸引大批消费者到店打卡许愿,戴龙头迎好运。与此同时,为了回
小米在官网微博中已经透露了关于小米14 Ultra信息,所以新机上市应该不会太晚。根据德国莱茵的官方消息,目前小米14 Ultra(型号为24030PN60G)获得了莱茵无频闪认证,表明这款手机可以有效减轻屏幕给用户带来的视觉疲
2月22日,上海广播电视台与华为举办鸿蒙合作签约仪式,宣布其官方客户端看看新闻APP将基于HarmonyOS NEXT鸿蒙星河版启动鸿蒙原生应用开发,为用户提供更加极致的新闻资讯服务体验。此次合作标志着上海广播电视台成为全国