找到连接超时的原因并在对Kubernetes集群进行JMeter分布式测试中解决它的好主意

如何解决找到连接超时的原因并在对Kubernetes集群进行JMeter分布式测试中解决它的好主意

我创建了一个Kubernetes集群(两个节点),并在其中部署了两个Nginx应用程序和一个Redis服务器。

[admin@k8snode1 ~]$ kubectl get pod -owide && kubectl get service -owide
NAME                           READY   STATUS    RESTARTS   AGE    IP                NODE       NOMINATED NODE   READINESS GATES
my-nginx-585cd7685d-69gqz      1/1     Running   10         2d3h   192.168.185.245   k8snode2   <none>           <none>
my-nginx-585cd7685d-7zb9d      1/1     Running   10         2d3h   192.168.249.36    k8snode1   <none>           <none>
redis-master-7cc9b97ff-pdrmt   1/1     Running   1          14d    192.168.185.237   k8snode2   <none>           <none>
NAME         TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)                      AGE   SELECTOR
kubernetes   ClusterIP   10.96.0.1       <none>        443/TCP                      23d   <none>
my-nginx     NodePort    10.97.143.231   <none>        80:30080/TCP,443:30443/TCP   14d   app=my-nginx
redis        NodePort    10.105.99.156   <none>        6379:30826/TCP               14d   app=redis

但是,当我使用Apache JMeter进行负载测试时(在一台Windows 10计算机上,模拟800个并发用户,仅一次控制器下的1个OAuth2.0 HTTPS采样器和无限循环控制器下的13个其他HTTPS采样器) )。

Jmeter test for k8s cluster

只有800个用户,我的应用程序在第一时间就崩溃了。查看结果错误树中有太多错误。

  1. HTTP 401(未经授权)响应
  2. java.net.SocketTimeoutException(连接超时)
  3. readResponse:java.net.SocketException:套接字已关闭

首先,我关注第一个问题,即HTTP 401(未经授权)响应。我发现原因是通过以下nsenter命令而不是在两个节点上直接执行netstat -anoleptss -no state time-wait来进行大量Redis TIME_WAIT连接(15000 +)

sudo nsenter -t $(docker inspect -f {{.State.Pid}} $(docker container ls -f label=io.kubernetes.container.name=my-nginx --format={{.Names}})) -n netstat -anolept | awk 'NR>2{print $6}' | sort | uniq -c | sort -r

[admin@k8snode1 ~]$ ulimit -a
core file size          (blocks,-c) 0
data seg size           (kbytes,-d) unlimited
scheduling priority             (-e) 0
file size               (blocks,-f) unlimited
pending signals                 (-i) 23086
max locked memory       (kbytes,-l) 64
max memory size         (kbytes,-m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes,-p) 8
POSIX message queues     (bytes,-q) 819200
real-time priority              (-r) 0
stack size              (kbytes,-s) 8192
cpu time               (seconds,-t) unlimited
max user processes              (-u) 4096
virtual memory          (kbytes,-v) unlimited
file locks                      (-x) unlimited
[admin@k8snode1 ~]$ cat /proc/sys/net/ipv4/ip_local_port_range /proc/sys/net/ipv4/tcp_fin_timeout /proc/sys/net/ipv4/tcp_tw_reuse /proc/sys/net/ipv4/tcp_tw_recycle
32768   60999  # 60999 - 32768 = 28231
60
0
0

我没有使用连接池更改像nginx上游这样的代码,但是我在两个节点上更改了/proc/sys/net/ipv4/tcp_tw_recycle。结果,这些问题得到了暂时解决。

然后,我添加了一台额外的Windows 10计算机来进行分布式(远程)测试。不幸的是,前两个错误再现了,nsenter + netstat的结果中只有100〜500次TIME_WAIT。此后,我添加了一个JSR223断言来记录OAuth2响应,因为在视图结果错误树中找不到OAuth2.0 HTTPS采样器的任何错误(我不知道为什么)。此外,根据客户端侧的jmeter-server.log和服务器侧的日志,我发现nginx已为所有OAuth2请求成功将令牌保存在Redis中,但是在客户端上有3〜5个用户连接(共1600个)超时JMeter客户端。

现在,我发现了另一个命令conntrack

# Show the connection tracking table in /proc/net/ip_conntrack format

[admin@k8snode1 ~]$ sudo conntrack -L > "sudo conntrack -L $(TZ=Asia/Shanghai date '+%F %H%M%S.%N %:z (%Z)').txt"
conntrack v1.4.4 (conntrack-tools): 150808 flow entries have been shown.


[admin@k8snode1 ~]$ netstat -anolept | awk 'NR>2{print $6}' | sort | uniq -c | sort -r
(Not all processes could be identified,non-owned process info
 will not be shown,you would have to be root to see it all.)
     29 LISTEN
    204 ESTABLISHED

[admin@k8snode1 ~]$ awk '/^tcp/{print $4}' 'sudo conntrack -L.txt' | sort | uniq -c | sort -r
  94383 TIME_WAIT
   1959 SYN_SENT
    514 ESTABLISHED
     42 CLOSE
      5 FIN_WAIT
      1 CLOSE_WAIT
[admin@k8snode1 ~]$ awk '/^tcp/{print $6}' 'sudo conntrack -L.txt' | sort | uniq -c | sort -r
  82131 dst=10.23.57.12
  14598 dst=10.105.99.156
    122 dst=127.0.0.1
     24 dst=192.168.249.28
     24 dst=192.168.249.27
      4 dst=10.96.0.1
      1 dst=192.168.185.234

[admin@k8snode1 ~]$ mount -t cgroup 

根据上面给出的统计数据,一个节点上的tcp连接数量大大超过了28231(= 60999-32768),甚至是65535(= 2 ^ 16-1),真的合理吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-