如何解决Hadoop在Docker Swarm上访问数据节点问题
我目前正在四台计算机上设置Hadoop集群。我有一个namenode和4个datanode在运行,它们通过docker swarm overlay网络通信。
现在出现问题:当尝试从namenode外部写入HDFS时,它们会委托给datanode,因此HDFS客户端会尝试访问这些节点。但是namenode提供的datanode的地址来自docker swarm overlay网络的接口(在我的情况下为10.0.7.0/24),因此无法从外部访问。
是否有一种方法可以使namenode返回可以从外部访问的数据节点的地址?例如,使用运行数据节点的服务器的公共IP?
谢谢!
解决方法
覆盖网络(默认)中的 VIP 模式似乎有问题,显然,由于覆盖网络,这使主节点的主机名指向另一个 IP 而不是对应的 IP具有负载平衡 (source) 的行为。
阅读网络文档中的 this section 我已经解决了将 endpoint_mode
更改为 dnsrr
以防止路由网格的问题。
注意dnsrr
模式不支持ingress模式,所以需要指定host模式下的所有端口,如this section所示。请记住以下警告:
如果您希望在每个节点上运行多个服务任务(例如当 您有 5 个节点但运行 10 个副本),您不能指定静态 目标端口。要么允许 Docker 分配一个随机的高编号端口 (通过忽略已发布),或确保只有一个实例 的服务在给定节点上运行,通过使用全局服务而不是 而不是复制一个,或者使用放置约束。
这就是为什么您需要在部署时添加 mode: global
设置。这是我准备在 Docker Swarm 中运行的最终 docker-compose.yml
文件:
version: "3.6"
services:
# Master
master-node:
[...] # Extra config
ports:
- target: 8088
published: 8088
protocol: tcp
mode: host
- target: 8080
published: 8080
protocol: tcp
mode: host
[...] # Extra ports
deploy:
endpoint_mode: dnsrr
mode: global # Required by Docker Swarm to make published ports work
# Workers (here it's not necessary to change the endpoint mode)
worker:
[...] # Extra config
,
我无法使用群体覆盖网络来解决它,所以我改用了主机网络。之后,我将Hadoop配置为使用namenode和resourcemanager的公共IP,并且可以正常工作!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。