CLS「数据加工」:实时处理腾讯会议千亿级日志

作者:hermine

导语:云原生日志服务(Cloud Log Service,CLS)是腾讯云提供的一站式日志数据解决平台,提供了从日志采集、日志存储到日志检索,图表分析、监控告警、日志投递等多项服务,协助用户通过日志来解决业务运维、服务监控、日志审计等场景问题。

2021年Q4重磅推出「数据加工」,2022.3.15前免费,欢迎大家使用该功能!

数据加工—海量日志实时处理

数据加工

首先,数据加工是什么呢?

CLS平台在采集到日志数据之后,对杂乱无章的文本日志进行归类、结构化、清洗过滤脏数据等处理,处理后的日志数据可以应用于日志的检索分析、仪表盘、告警等功能。处理原始日志的过程,就是数据加工。

对于用户而言,数据加工的目标可以是:

  • 提取结构化的数据,方便后续检索分析、生成仪表盘等。
  • 日志过滤,对日志进行减肥瘦身。丢弃不需要的日志数据,节约存储成本、流量成本。
  • 敏感数据脱敏,例如将用户的身份证、手机号码脱敏。
  • 日志分类投递,例如按照日志级别:ERROR、WARNING、INFO 将日志分类,然后分发到不同的日志主题。
  • 日志富化,根据已存在的字段值,富化出新的字段,比如0755、010、021,富化出深圳、上海、北京。

接下来,本文会重点介绍腾讯会议某内容社区头部客户的案例,在实际应用中理解数据加工的作用。

客户案例

腾讯会议——千亿日志实时处理

腾讯会议的数据服务团队需要从客户端的海量日志数据(千亿条/天) 上报中, 实时从中获取需要的部分数据, 按照规则提取和处理后进行回流分析和业务判断。

一开始, 客户调研自建大数据流处理平台来进行日志数据处理的方案。

该方案首先需要进行整个平台的搭建,并且需要解决日志采集-->Flink集群部署-->编写Java数据处理逻辑等问题。在业务接入和使用中,用户还要关注该集群的运维和性能。整个项目实施周期长,维护成本高

后来,客户了解到CLS数据加工的能力, 在体验了CLS数据加工可视化界面、了解测试了DSL函数能力后,客户选择使用CLS数据加工来完成上述需求。

用户无需关注平台建设、运维以及复杂的Flink Java编程,简单、灵活、低成本的使用数据加工功能即可完成业务需求。

自建大数据流处理平台 VS CLS数据加工

根据以上分析,我们不难看出:

在处理日志方面,比起自建大数据流处理平台,CLS数据加工具有开箱即用无建设成本、业务接入使用门槛更低、运维成本更低的优势。

在性能方面,腾讯会议的千亿日志数据压测,也凸显了CLS数据加工的性能优越

某头部内容社区平台——日志过滤

该客户的原始日志量很大,费用较高,为降低成本,客户仅想保留关键业务相关的日志。

通过CLS数据加工函数,客户可过滤掉不需要的日志,最后日志量缩减为30%,真正做到了为用户省钱。

业务流程

那具体可以节省多少费用呢?

假定原始日志100GB/天,经过数据加工的日志过滤之后,缩减为30GB/天假定客户的日志存储是30天,开启了部分键值索引,而且索引流量刚好和写入日志主题的流量相等(为方便计算),从第31天开始的费用大致如下图,费用从每100GB 122元/天下降至70.75元/天,最终下降至原始价格的59%

日志过滤前后费用对比

注:表中的价格为刊例价

操作手册

在了解了两个典型客户案例后,不妨跟随我一起进入实战演练,CLS为没有日志的同学也准备了试用功能哦。

详细操作步骤请见:

https://cloud.tencent.com/document/product/614/63940

1. 新建数据加工

数据加工的入口在腾讯云CLS控制台,填写完加工任务名称、源日志主题、目标日志主题之后,就可以进入加工语句编辑页面。

数据加工入口界面

2. 编辑加工语句

1)如果您的日志主题中有数据:新建数据加工任务之后,它会自动加载原始日志主题的数据,在编辑框中编写你的DSL加工函数语句,就可以完成实时日志流的处理。

2) 如果您暂时没有日志:下方左侧是原始日志/自定义数据两个标签页,第二标签页是自  定义数据标签页,填入JSON格式的日志,就可以试用数据加工了。

  • DSL函数生成器:可以查看DSL的解释说明、复制DSL函数的示例到自己的编辑框,修改后使用。
  • 保存数据加工任务。任务会持续运行,加工日志流,直到用户手动停止任务。

数据加工演示

下面我们来举个栗子吧。

场景描述

小王将日志采集到 CLS,是单行文本格式。现在小王想将日志结构化,从文本中提取日志时间、日志级别、操作、URL 信息,便于后续的检索分析。

场景分析

梳理一下小王的加工需求,加工思路如下:

1)使用正则提取日志时间、日志级别、URL。

2){...}中的内容是操作的详情,可以通过正则提取。

原始日志

{    "content": "[2021-11-24 11:11:08,232][328495eb-b562-478f-9d5d-3bf7e][INFO] curl -H 'Host: ' http://abc.com:8080/pc/api -d {\"version\": \"1.0\",\"user\": \"CGW\",\"password\": \"123\",\"interface\": {\"Name\": \"ListDetail\",\"para\": {\"owner\": \"1253\",\"orderField\": \"createTime\"}}}"}

DSL加工函数

fields_set("Action",regex_select(v("content"),regex="\{[^\}]+\}",index=0,group=0))
fields_set("loglevel",regex_select(v("content"),regex="\[[A-Z]{4}\]",index=0,group=0))。
fields_set("logtime",regex_select(v("content"),regex="\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}",index=0,group=0))
fields_set("Url",regex_select(v("content"),regex="([a-z]{3}).([a-z]{3}):([0-9]{4})",index=0,group=0))
fields_drop("content")

DSL加工函数详解

新建一个字段 Action,使用正则{[^}]+},匹配{...}。

fields_set("Action",regex_select(v("content"),regex="\{[^\}]+\}",index=0,group=0))

新建一个字段 loglevel,使用正则[A-Z]{4}可以匹配 INFO。

fields_set("loglevel",regex_select(v("content"),regex="\[[A-Z]{4}\]",index=0,group=0))。

新建一个字段 logtime,使用正则d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}匹配2021-11-24 11:11:08。

fields_set("logtime",regex_select(v("content"),regex="\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}",index=0,group=0))

新建一个字段 Url,使用正则[a-z]{3}.[a-z]{3}匹配 abc.com,[0-9]{4}匹配8080。

fields_set("Url",regex_select(v("content"),regex="([a-z]{3}).([a-z]{3}):([0-9]{4})",index=0,group=0))

丢弃 content 字段。

fields_drop("content")

加工结果

{"logtime":"2021-11-2411:11:08,232","loglevel":"[INFO]","Url":"abc.com:8080","Action":"{\"version\": \"1.0\",\"user\": \"CGW\",\"password\": \"123\",\"interface\": {\"Name\": \"ListDetail\",\"para\": {\"owner\": \"1253\",\"orderField\": \"createTime\"}"}

更多数据加工实战案例,可以访问腾讯云官网:

https://cloud.tencent.com/document/product/614/66375

轻松复制文档中日志样例和DSL加工函数的代码,在控制台跑一跑,你会有新发现,快来免费试用吧。

结语

数据加工为其上层的检索分析、仪表盘、告警等应用提供了结构化的日志数据,帮助您在运维场景中更加游刃有余的分析日志、排查故障、指定运维决策。

附表:DSL函数大类和举例

DSL函数大类及举例

以上就是关于「CLS数据加工」重磅功能的案例分享,如果您有更多有意思的日志实践玩法分享,欢迎投稿!

一站式日志数据解决方案平台

关注「腾讯云日志服务CLS技术交流群」,掌握最新动态,获取更多资讯!

日志服务CLS交流平台

往期文章:

【日志服务CLS】一键开启腾讯电子签的高效运维之旅

日志源解析|自建Kubernetes集群部署CLS日志服务原理及场景实现

【日志服务CLS】免费体验Demo日志:一键开启,CLS全功能开箱即用

【日志服务CLS】容器服务TKE审计日志运维场景体验

【日志服务CLS】Nginx日志数据全方位大解析

原文地址:https://cloud.tencent.com/developer/article/1928666

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340