Azure Event Hub 技术研究系列1-Event Hub入门篇

前两个系列研究了Azure IoT Hub和Azure Messaging。最近准备继续研究Azure Event Hub,即Azure的事件中心。首先,

Azure Event Hub的官方介绍:

1. Azure 事件中心是超大规模的遥测引入服务,可收集、传输和存储数以百万的事件

2. 从网站、应用和任何数据流引入云端大规模的遥测数据,进行流式处理和分析

可以看出,Azure Event Hub是一个数据的云端接入服务。我们上面的博客中讲到的Azure IoT Hub中的数据,发送到云端之后,也是使用的Azure Event Hub作为数据接入服务。

那么,在实际的应用场景中,有哪几类可以借鉴应用的场景

1. IoT设备遥测数据接入,例如,充电桩的遥测数据,接入到云端的Azure Event Hub中,接入后进行实时流式处理,数据分发等操作

2. 分布式事件中心:将跨域、跨模块、跨服务中心的事件,统一发送到Azure Event Hub中,通过事件的订阅者,集中分发处理。

3. 云端的ESB(私有云和公有云系统的集成打通),作为事件通道,Azure Messaging作为消息通道

有其他的应用场景,欢迎大家继续补充,上面列出了我们这边可以用到的一些实际应用场景。

Azure Event Hub的具体功能有哪些?

1. 每秒对数百万事件进行流式处理
Azure 事件中心是超大规模的遥测引入服务,可收集、传输和存储数以百万的事件。作为分布式流式处理平台,它为用户提供低延迟和可配置的时间保留,使用户可以将大量遥测数据引入到云中,并使用发布-订阅语义从多个应用程序中读取数据。

2. 处理相同数据流中的实时和批处理
使用事件中心存档功能,使单个流可以支持实时、基于批处理的管道,并降低解决方案的复杂性。在支持将来的实时分析和处理的平台上针对现在的批处理进行构建。事件中心存档是将数据加载到 Azure 最简单的方法。

3. 利用完全托管的平台型服务
事件中心是一种完全托管的服务,无需维护任何服务器,也无需获取任何软件许可证。定价简单且方便。事件中心可使用户专注于从遥测数据获取值,而非收集该数据。

4. 处理容量、种类和速度
大数据有很多来源,其负载分布也各不相同,例如每隔数分钟就会生成遥测数据的恒温器、每秒都会生成事件的应用程序性能计数器,以及每个客户操作时捕获捕获遥测数据的移动应用。事件中心是一种完全托管的服务,可以根据不同的负载分布以及负载高峰来采集规模具有弹性的事件。

5. 通过多语言支持进行跨平台开发
事件中心使用高级消息队列协议 (AMQP) 来实现跨平台的互操作性和二进制文件兼容性,同时还支持 HTTPS 实现数据引入。借助 Java 和 .NET 的本机客户端,可轻松开始使用事件中心,并且可以将其与流分析、Functions 和虚拟机等其他 Azure 服务集成。还有一个持续为 Apache NiFi 和 Elastic Stack 等热门平台创建新适配器和连接器的强大事件中心开源社区。

Azure Event Hub的体系结构:

Azure 事件中心是一种事件处理服务,用于提供云规模的事件与遥测引入,具有较低的延迟和较高的可靠性。 事件中心提供消息流处理功能,其特征不同于传统的企业消息传送。 事件中心功能围绕高吞吐量和事件处理方案而构建。

因此,事件中心未实现适用于消息传送实体(例如主题)的某些消息传送功能。

事件中心在命名空间级别创建,使用 AMQP 和 HTTP 作为其主要的 API 接口。

事件发布者:

向事件中心发送数据的任何实体都称为“事件发布者”。 事件发布者可以使用 HTTPSAMQP 1.0 发布事件。 事件发布者通过共享访问签名 (SAS) 令牌向事件中心表明其身份,可以使用唯一的标识,也可以使用通用的 SAS 令牌。

事件发布:

可以通过 AMQP 1.0 或 HTTPS 发布事件。 服务总线提供了一个 EventHubClient 类,使用该类可从 .NET 客户端向事件中心发送事件。 对于其他运行时和平台,你可以使用任何 AMQP 1.0 客户端,例如 Apache Qpid。 可以逐个或者批量发送事件。 单个发布(事件数据实例)限制为 256 KB,不管它是单个事件还是事件批。 发布大于此限制的事件将导致出错。 发布者最好是不知道事件中心内的分区数,而只是通过其 SAS 令牌指定“分区键”(如下一部分所述)或其标识。

 

分区:

事件中心通过分区使用者模式提供消息流式处理功能,在此模式下,每个使用者只读取消息流的特定子集或分区。 此模式支持事件处理的水平缩放,同时提供队列和主题中不可用的其他面向流的功能。
分区是事件中心内保留的有序事件。 当较新的事件到达时,它们将添加到此序列的末尾。 可以将分区视为“提交日志”。

事件中心按配置的保留时间保留数据,该时间适用于事件中心的所有分区。 事件根据特定的时间过期;无法显式删除事件。 由于分区互相独立且包含自身的数据序列,因此通常按不同速率增大。

分区数在创建时指定,必须介于 2 到 32 之间。 分区计数不可更改,因此在设置分区计数时应考虑长期规模。 分区是一种数据组织机制,与使用方应用程序中所需的下游并行度相关。 

分区中填充了一系列的事件数据,这些数据包含事件的正文、用户定义的属性包和元数据,例如,它在分区中的偏移量,以及它在流序列中的编号这一点和Kafka+ZooKeeper很像

SAS 令牌

事件中心使用在命名空间和事件中心级别提供的共享访问签名。 SAS 令牌是从 SAS 密钥生成的,它是以特定格式编码的 URL 的 SHA 哈希。 事件中心可以使用密钥(策略)的名称和令牌重新生成哈希,以便对发送者进行身份验证。 通常,为事件发布者创建的 SAS 令牌只对特定的事件中心具有发送权限。

事件使用者

从事件中心读取事件数据的任何实体称为“事件使用者”。 所有事件中心使用者通过 AMQP 1.0 会话进行连接,事件在可用时通过会话传送。 客户端不需要轮询数据可用性。

事件使用者组

事件中心的发布/订阅机制通过“使用者组”启用。 使用者组是整个事件中心的视图(状态、位置或偏移量)。 使用者组使多个消费应用程序都有各自独立的事件流视图,并按自身步调和偏移量独立读取流。

在流处理体系结构中,每个下游应用程序相当于一个使用者组。 如果你要将事件数据写入长期存储,则该存储写入器应用程序就是一个使用者组。 然后即可由另一独立的使用者组执行复杂的事件处理。 你只能通过使用者组访问分区。 每个分区一次只能有一个活动的读取者来自给定的使用者组。 事件中心内始终有一个默认的使用者组,最多可为一个标准层事件中心创建 20 个使用者组。

这个使用者组合Kafka Consumer中Group是类似的概念,但是从下面的图例看,Kafka的每个消费组 Group 都能同时消费同一Topic的消息,Azure Event Hub则不是,更多的是并行事件使用。

流偏移量 

“偏移量”是事件在分区中的位置。 可以将偏移量视为客户端游标。 偏移量是事件的字节编号。 有了该偏移量,事件使用者(读取者)便可以在事件流中指定要从其开始读取事件的点。 可以时间戳或者偏移量值的形式指定偏移量。 使用者负责在事件中心服务的外部存储其自身的偏移量值。 在分区中,每个事件都包含一个偏移量。

事件的数据结构:

  • Offset
  • 序列号
  • 正文
  • 用户属性
  • 系统属性

管理偏移量由用户负责。

 

以上即是Azure Event Hub 的一些主要的概念、体系结构和术语说明,相信搞过Kafka的小伙伴可以很快就理解了。下一篇我们将继续Azure Event Hub 的编程研究。

 

周国庆

2017/5/11

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Microsoft云包括了Azure、PowerPlatform、Microsoft365、GitHub、Dynamics365等,虽然许多企业应用程序开发领导者了解在Azure上创建应用程序的价值,但事实是您可以将整个Microsoft云作为应用程序平台.有一篇文章:在Microsoft云上构建应用程序从应用程序开发角度介绍了M
《WindowsAzurePlatform系列文章目录》 我们在使用AzureAPIManagement(APIM)实现服务网关的时候,一般都是面向互联网的。比如场景一:AzureAPIManagement保护AzureVM上部署的ApacheWebService,客户端是来自于Internet的用户。整体的数据流是:用户->I
微软免费使用一年的Azure虚拟机,默认提供了一个64G的磁盘,但是系统却只给分配了32个G,尝试了几次扩大分区,最终都导致系统崩溃了,只能重新开虚拟机,无奈,只好网上找来现成的脚本,自动调整分区大小,只需要输入想调整为多少G即可,终于成功把系统分区扩大了。更改分区大小的脚本:if[[$#-eq
2022年5月25日,Meta公司选择Azure作为战略云供应商,推进人工智能创新,深化PyTorch合作https://azure.microsoft.com/en-us/blog/meta-selects-azure-as-strategic-cloud-provider-to-advance-ai-innovation-and-deepen-pytorch-collaboration/微软致力于负责任地推进人工智能的
上篇请访问这里做一个能对标阿里云的前端APM工具(上)样本多样性问题上一小节中的实施方案是微观的,即单次性的、具体的。但是从宏观上看,我需要保证性能测试是公允的,符合大众预期的。为了达到这种效果,最简单的方式就是保证测试的多样性,让足够多人访问产生足够多的样本来,但这对于一个
一年一度的MicrosoftBuild终于来了,带来了非常非常多的新技术和功能更新。不知道各位小伙伴有没有和我一样熬夜看了开幕式和五个核心主题的全过程呢?接下来我和大家来谈一下作为开发者最应关注的七大方向技术更新。AI能力的提升1.AzureOpenAIService终于来了开发人员可
问题描述使用AzureStorageAccount的共享访问签名(ShareAccessSignature)生成的终结点,连接时遇见  TheAzureStorageendpointurlismalformed(Azure存储终结点URL格式不正确)StorageAccountSDKinpom.xml:<dependency><groupId>com.azure</groupI
Azure提供的负载均衡服务叫LoadBalancer,它工作在ISO七层模型的第四层,通过分析IP层及传输层(TCP/UDP)的流量实现基于"IP+端口"的负载均衡。AzureLoadBalancer的主要功能负载均衡基于ISO四层的负载均衡,请参考下图(此图来自互联网):端口转发通过创建入站NAT规则,
各位好,今天继续来讨论关于Azure平台的技术问题,这次我们来讨论关于监控的话题,各个云平台都会为用户预留获取监控数据的接口,Azure也不例外,拿最基础用法来说,用户可以从AzurePortal中获取所需要的监控信息,比如Azure虚拟机的磁盘IO,CPU百分比,内存等,除此之外,还可以通过定义各种action,针对
在以往我们创建高可用Web应用程序时,负载均衡器是必不可少的组件。我们都使用传统内部服务器的负载均衡器,其中我们的应用程序在N个实例上运行,负载均衡器位于这些服务器的前面,并根据某些预定义的算法和设置向后端服务器分配负载。迁移到云中,我们需要了解如何使用Azure组件实现相同的
AzureEventGrid是一个托管事件路由平台,使我们能够实时响应Azure中托管的应用程序或拥有的任何Azure资源中发生的更改。EventGrid处理来自Azure服务的内置Azure事件以及来自应用程序的自定义事件,并实时发布它们。它可以每秒动态扩展和处理数百万个事件,Azure为生产工作负载提供99.
今天来谈一谈automation中另外一个很关键的内容,也就是updatemanagement,不同于configurationmanagement,updatemanagement主要用于管理windows以及LinuxVM中的补丁内容,当然和configurationmanagement一样,updatemanagement不仅仅可以管理Windows中VM的补丁,也可以管理non-Azure
下边来谈一谈Azure中Alert更多的应用,正常来说,云厂商都会有自己的SLA保证,比如目前来说,在可用性集里的虚拟机,SLA是99.95%,这点可以从商务角度保护客户的一部分利益。但是,从技术上来说,任何云都不可能保证100%的可用性,所以有些时候也会出现一些service的outage,对用户来说,第一时间知晓这
MicrosoftAzure中提供了多种类型和大小的虚拟机,我们将通过本来来了解下微软具体提供了哪些类型和大小的虚拟机,以方便在项目过程中进行评估。类型大小说明常规用途B,Dsv3,Dv3, DSv2,Dv2,Av2, DCCPU 与内存之比平衡。适用于测试和开发、小到中型数据库和低到中等流量Web
假定我们正在运行某个应用程序,此应用程序需要用户在应用程序中提交大量图片文件,那么对于系统管理员来说手动审核这些图片是很消耗时间的,并且对于图片的审核也许并不是即时的。为了解决这一问题,这篇文章将向大家演示如何使用AzureFunction和CognitiveServices来对上传到应用程序的
中国-北京[2018.12.10]2018年12月7日,历时60余天,在超过150+的面试中,21家企业经三轮筛选晋级终审,最终14家企业在激烈的角逐中成功入选微软加速器·北京13期创新企业名单。颉一软件有幸拔得头筹,很快将与MicrosoftAzure开展深度合作,开启全面加速企业级用户数字化转型之路!微软加速器·
假定我们有某个应用程序会将文件存储到AzureBlob中,存储在Blob中的数据保存七天,七天以后需要对其进行删除。这需求可以使用AzurePowerShellRunbook来完成,但是我想看看是否可以用很少甚至没有代码来完成。经过一番探索我发现AzureLogicApp非常适合这种情况。你可以用LogicApp创
接下来继续之前给各位介绍的内容,我们接着来谈下Azureautomation中关于configurationmanagement的内容,上一篇中介绍了关于inventory的应用,通过inventory,可以快速收集Azure与非Azure服务器中的资产信息。除此之外,configurationmanagement中changetracking也是个非常实用的功能,通
安全分层方法 数据几乎所有情况下,攻击者都会攻击以下数据:存储在数据库中的数据存储在虚拟机磁盘上的数据存储在Office365等SaaS应用程序上的数据存储在云存储中的数据存储数据和控制数据访问权限的人员有责任确保数据得到恰当保护。通常情况下,存在相应法规要
生成云应用程序时需要应对的常见挑战是,如何管理代码中用于云服务身份验证的凭据。保护这些凭据是一项重要任务。理想情况下,这些凭据永远不会出现在开发者工作站上,也不会被签入源代码管理系统中。虽然AzureKeyVault可用于安全存储凭据、机密以及其他密钥,但代码需要通过KeyVa