为什么要选择Apache BookKeeper

本篇文章为大家展示了为什么要选择Apache BookKeeper,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

我将会介绍 Apache BookKeeper 一系列具有竞争力的功能,主要包括 I/O 隔离、数据分布、可扩展性与可操作性。

 I/O 隔离

可预测的低延迟对实时应用程序而言十分重要,特别是关键在线服务(例如:核心业务服务、数据库等)。以消息系统为例,在大多数消息系统中,速度较慢的 consumer 可能会导致消息积压,这有可能会进一步导致总体性能下降。

问题在于,较慢的 consumer 迫使存储系统从持久存储介质中读取数据,这会导致 I/O 抖动及页面缓存的换入换出。当存储 I/O 组件共享用于写入、追尾读、追赶读的单一路径时,就会发生这种情况。

在 BookKeeper 中,bookie(单个 BookKeeper 存储节点)旨在使用三条独立的 I/O 路径,分别用于写入、追尾读、追赶读。分离这三个路径很重要,因为写入和追尾读对可预测的低延迟有较高要求,而追赶读则对吞吐量的要求比较高。在这些工作负载之间提供物理隔离意味着 BookKeeper 能够充分利用以下几点:

  • 写入时,网络入口带宽和顺序写入带宽

  • 读取时,多个 ledger 磁盘上网络出口带宽和 IPOS(每秒输入/输出操作数)

I/O 隔离意味着 BookKeeper 能够在不妨碍其他优势的条件下,同时提供上述优势。

数据分布

建立在 BookKeeper 上的服务(比如:Apache Pulsar)将日志流作为分片 ledgers 存储在 BookKeeper 上。这些分片(ledgers)会被复制到多个 bookie。这样可以使数据存放有尽可能多的选择,从而实现高可用、流量负载均衡、运维简单等。我将从部署和运维的角度介绍一些优势。

首先,单个日志流的存储容量永远不会受到单个主机存储容量的限制。只要整个集群有足够的容量,就可以存储数据。

其次,在扩展 BookKeeper 集群时,不涉及日志流再平衡。管理员可以通过增加新设备来扩展 BookKeeper 集群。集群可以发现新的 bookie,并向其写入分片。BookKeeper 还提供了多种分布策略,包括机架感知、区域感知、基于重量的布局策略等,以实现尽可能多的布局方式。

再次,BookKeeper 能够在发生机器故障时更快、更高效地进行副本修复。当一个分片由于机器故障丢失或由于磁盘故障损坏时,BookKeeper 可以确定哪些分片需要修复(重新复制 entry 以满足副本要求),并从多个主机同时进行修复。

相比于 Apache Kafka 这样以分区为中心的系统,BookKeeper 可水平扩展的性能更具优势。在 Apache Kafka 中,日志流(又称 Kafka 分区)仅顺序存储在一部分机器上,并且扩展 Kafka 集群需要大量数据进行再平衡,而再平衡操作本身就很消耗资源、易出错,且运维复杂。

另外,在以分区为中心的系统上,损坏的单个磁盘要求系统复制整个日志流到新磁盘,以满足多副本要求。

为什么要选择Apache BookKeeper

所有的日志分片跨 N 个可能的 bookie 复制到可配置数量的 bookie 上(图示中副本数为 3)。日志分片均匀分布,以在不重新平衡的条件下实现水平扩展。

可扩展

作为一个实时日志流存储平台,能够随着流量的增加或写入系统的数据增多而进行扩展是十分重要的。Apache BookKeeper 基于以下几点实现其可扩展性:

???? Ledger / 流的数量

流可扩展性能够支持大量日志流的存储,在 ledger 或流的数量从数百增为数百万时,其他性能不受影响。实现流可伸缩性的关键在于存储格式。


如果 ledger 和流都存储在专用文件中,流伸缩性的实现就会出现问题,因为当这些文件定期从页面缓存刷新到磁盘时,I/O 会分散在磁盘上。


BookKeeper 以交错存储格式存储 ledger 和流的数据,整合来自不同 ledger 和流的 entry,并存储在大文件中,然后进行索引。这既减少了文件数量,也减少了 I/O 争用,允许 BookKeeper 为大量 ledger 和流进行扩展。

???? Bookie 的数量

Bookie 可伸缩性,即日志流存储通过添加 bookie(BookKeeper 中的存储节点)来支持迅速增加的流量。在 BookKeeper 中,bookie 之间不直接交互。这使得 BookKeeper 只需添加新机器即可扩展集群。

同样,由于 BookKeeper 在 bookie 上分发数据的方式,在扩展 BookKeeper 集群时,分区数据并不昂贵,也不会耗尽系统网络和 I/O 带宽。不管数据如何分配,这都可以增加集群的大小。

雅虎(Yahoo!)和推特(Twitter)都在使用 BookKeeper,在单个集群上有成百上千个 bookie。

???? 客户端的数量

客户端可伸展性,即日志流存储支持大量并发客户端并支持大量扇出的能力。BookKeeper 可在多处实现此功能:

  • 客户端和服务器都完全使用 Netty 来实现异步网络 I/O。所有网络 I/O 使用单个 TCP 连接进行多路复用,并且都是异步的。以很少的资源消耗实现了非常高效的管道和极高的吞吐量。

  • 复制数据到多个 bookie。在 bookie 副本间,数据是完全相同的。在 Apache Kafka 这样的系统中,客户端只能从 leader 节点读取数据。而 BookKeeper 的客户端可以从任一 bookie 副本中读取数据(这种读取可重复)。这不仅实现了较高的读可用性,还能平均分配读取流量。

  • 由于客户端能够重复地从任一 bookie 副本读取数据,应用程序可以配置更多的副本来实现更高的读取扇出。

???? 单流吞吐量

应用程序可以通过使用更多的流或增加 bookie 来提高吞吐量。另外,BookKeeper 还可以通过增加 ensemble 大小(ensemble 是用于存储给定 ledger 或流的 bookie 子集),并在 bookie 之间分段数据来调节单流吞吐量。

对于那些需要对单个流进行数据排序的有状态应用程序而言,这是至关重要的。

运维简单

Apache BookKeeper 旨在运维简单。在系统运行时,可以通过添加 bookie 节点轻易扩展容量。如果一个 bookie 节点不再自动可用,此 bookie 中包含的所有 entry 将被标记为"已复制",BookKeeper 自动恢复守护进程自动将其他可用副本中的数据再复制到新的 bookie 节点。

在运行 bookie 节点时,BookKeeper 提供只读模式。在某些情况下,例如:磁盘已满、磁盘损坏,bookie 自动变为只读模式。只读模式下,bookie 不允许写入数据,但仍可以读取流量。这种自愈性减少了许多运维上的痛点问题。

另外,BookKeeper 提供了多种管理集群的方法,包括使用管理 CLI 工具、Java 管理库、HTTP REST API 等。REST API 具有编写外挂工具或在现有工具中使用某些操作的灵活性。

安全性

Apache BookKeeper 支持可插拔的身份验证机制(http://bookkeeper.apache.org/docs/latest/security/overview/),应用程序可以使用该机制进行自身身份验证。BookKeeper 也可以配置为支持多种身份验证机制。身份验证程序的目的在于建立客户端的身份,并为客户端分配一个标识符。

该标识符可用来确定客户端被授权执行的操作。默认情况下,BookKeeper 支持两种身份验证程序:TLS、SASL。

上述内容就是为什么要选择Apache BookKeeper,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注编程之家行业资讯频道。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


可以认为OpenFeign是Feign的增强版,不同的是OpenFeign支持Spring MVC注解。OpenFeign和Feign底层都内置了Ribbon负载均衡组件,在导入OpenFeign依赖后无需专门导入Ribbon依赖,用做客户端负载均衡,去调用注册中心服务。
为进一步规范小程序交易生态、提升用户购物体验、满足用户在有交易的小程序中便捷查看订单信息的诉求,自2022年12月31日起,对于有“选择商品/服务-下单-支付”功能的小程序,需按照平台制定的规范,在小程序内设置订单中心页。开发者可通过小程序代码提审环节,或通过「设置-基础设置-小程序订单中心path设置」模块设置订单中心页path。1、 新注册或有版本迭代需求的小程序,可在提审时通过参数配置该商家小程序的订单中心页path。2、无版本迭代需求的小程序,可在小程序订单中心path设置入口进行设置。
云原生之使用Docker部署Dashdot服务器仪表盘
本文主要描述TensorFlow之回归模型的基本原理
1.漏洞描述Apache Druid 是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。Apache Druid对用户指定的HTTP InputSource没有做限制,并且Apache Druid默认管理页面是不需要认证即可访问的,可以通过将文件URL传递给HTTP InputSource来绕过。因此未经授权的远程攻击者可以通过构造恶意参数读取服务器上的任意文件,造成服务器敏感性信息泄露。2.影响版本Apache Druid <= 0.21.13...
内部类(当作类中的一个普通成员变量,只不过此成员变量是class的类型):一个Java文件中可以包含多个class,但是只能有一个public class 如果一个类定义在另一个类的内部,此时可以称之为内部类使用:创建内部类的时候,跟之前的方法不一样,需要在内部类的前面添加外部类来进行修饰 OuterClass.InnerClass innerclass = new OuterClass().new InnerClass();特点:1.内部类可以方便的访问外部类的私有属性...
本文通过解读国密的相关内容与标准,呈现了当下国内技术环境中对于国密功能支持的现状。并从 API 网关 Apache APISIX 的角度,带来有关国密的探索与功能呈现。作者:罗泽轩,Apache APISIX PMC什么是国密顾名思义,国密就是国产化的密码算法。在我们日常开发过程中会接触到各种各样的密码算法,如 RSA、SHA256 等等。为了达到更高的安全等级,许多大公司和国家会制定自己的密码算法。国密就是这样一组由中国国家密码管理局制定的密码算法。在国际形势越发复杂多变的今天,密码算法的国产化
CENTOS环境Apache最新版本httpd-2.4.54编译安装
Apache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。影响版本:Apache 2.4.0~2.4.29 存在一个解析漏洞;在解析PHP时,将被按照PHP后缀进行解析,导致绕过一些服务器的安全策略。我们查看一下配置:读取配置文件,前三行的意思是把以 结尾的文件当成 文件执行。问题就在它使用的是 符号匹配的,我们都知道这个符号在正则表达式中的意思是匹配字符串的末尾,是会匹配换行符的,那么漏洞就这样产生了。 进入容器里,打开index.php,发现如果文件后缀名为 php、
apache Hop现在好像用的人很少, 我就自己写一个问题收集的帖子吧, 后面在遇到什么问题都会在该文章上同步更新
2.启动容器ps:注意端口占用,当前部署在 8080 端口上了,确保宿主机端口未被占用,不行就换其他端口ps:用户名和密码都是 admin,一会用于登录,其他随便填5.下载一个官方提供的样例数据库【可跳过】ps:此步国内无法访问,一般下载不了,能下的就下,不能下的跳过就行了,一会配置自己的数据库7.访问登录页面ps:注意端口是上面自己配置的端口,账号密码是 admin依次点击 Settings → Database Connections点击 DATABASE 就可以配置自己的数据库了
String类的常用方法1. String类的两种实例化方式1 . 直接赋值,在堆上分配空间。String str = "hello";2 . 传统方法。通过构造方法实例化String类对象String str1 = new String("Hello");2.采用String类提供的equals方法。public boolean equals(String anotherString):成员方法 str1.equals(anotherString);eg:publi
下载下载地址http://free.safedog.cn下载的setup:安装点击下面的图标开始安装:可能会提示:尝试先打开小皮面板的Apache服务:再安装安全狗:填入服务名:如果服务名乱写的话,会提示“Apache服务名在此机器上查询不到。”我干脆关闭了这个页面,直接继续安装了。安装完成后,需要进行注册一个账户,最后看到这样的界面:查看配置:...
一、问题描述一组生产者进程和一组消费者进程共享一个初始为空、大小n的缓冲区,只有缓冲区没满时,生产者才能把资源放入缓冲区,否则必须等待;只有缓冲区不为空时,消费者才能从中取出资源,否则必须等待。由于缓冲区是临界资源,它只允许一个生产者放入资源,或一个消费者从中取出资源。二、问题分析(1)、关系分析。生产者和消费者对缓冲区互斥访问是互斥关系,同时生产者和消费者又是一个相互协作的关系,只有生产者生产之后,消费者只能才能消费,它们还是同步关系。(2)、整理思路。只有生产生产者和消费者进程,正好是这两个进程
依赖注入的英文名是Dependency Injection,简称DI。事实上这并不是什么新兴的名词,而是软件工程学当中比较古老的概念了。如果要说对于依赖注入最知名的应用,大概就是Java中的Spring框架了。Spring在刚开始其实就是一个用于处理依赖注入的框架,后来才慢慢变成了一个功能更加广泛的综合型框架。我在学生时代学习Spring时产生了和绝大多数开发者一样的疑惑,就是为什么我们要使用依赖注入呢?现在的我或许可以给出更好的答案了,一言以蔽之:解耦。耦合度过高可能会是你的项目中一个比较
<dependency><groupId>org.apache.velocity</groupId><artifactId>velocity-engine-core</artifactId><version>使用人数最多的版本</version></dependency>importorg.apache.velocity.Template;importorg.apache.velo
Java Swing皮肤包前言:一.皮肤包分享二.皮肤包的使用1.先新建一个项目。2.导入皮肤包1.先导入我们刚刚下载的jar文件,右键项目demo即可2.如果右键没有这个选项,记得调为下图模式3.点击下图蓝色圆圈处4.找到刚刚下载的jar文件,点击打开即可5.我们看一下效果,是不是比原生的好看前言:因为Java Swing自身皮肤包不是很好看,甚至有点丑,怎么让你的界面更加好看,这里就需要用到皮肤包,我发现了一个还不错的皮肤包,让你的界面美观了几个等级。废话不多说。一.皮肤包分享百度网盘分享链接:
一、前言在做Java项目开发过程中,涉及到一些数据库服务连接配置、缓存服务器连接配置等,通常情况下我们会将这些不太变动的配置信息存储在以 .properties 结尾的配置文件中。当对应的服务器地址或者账号密码信息有所变动时,我们只需要修改一下配置文件中的信息即可。同时为了让Java程序可以读取 .properties配置文件中的值,Java的JDK中提供了java.util.Properties类可以实现读取配置文件。二、Properties类Properties 类位于 java.util.Pro
Mybatis环境JDK1.8Mysql5.7maven 3.6.1IDEA回顾JDBCMysqlJava基础MavenJunitSSM框架:配置文件的最好的方式:看官网文档Mybatis1、Mybatis简介1.1 什么是Mybatis如何获得Mybatismaven仓库:中文文档:https://mybatis.org/mybatis-3/zh/index.htmlGithub:1.2 持久化数据持久化持久化就是将程序的数据在持久状态和瞬时状态转