linux – Apache性能在大约256个并发请求之后急剧下降

我正在运行一个流量相对较低的网站,在网站更新后每周一次访问量大幅增加.在这次飙升期间,与本周剩余时间相比,现场表现极差.服务器上的实际负载仍然非常低,可靠地在10%CPU和30%RAM下(硬件应该完全过度杀死我们实际做的事情),但由于某种原因,Apache似乎无法应对数量请求.我们在RHEL 5.7,内核2.6.18-274.7.1.el5,x86_64上运行apache 2.2.3.

尝试在ab的非工作时间重现这种行为,当超过大约256个用户时,我发现性能大幅下降.使用尽可能小的用例运行测试我可以提出(检索静态文本文件,总共223个字节)性能始终正常,245个并发请求:

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:       15   25   5.8     24      37
Processing:    15   65  22.9     76      96
Waiting:       15   64  23.0     76      96
Total:         30   90  27.4    100     125

Percentage of the requests served within a certain time (ms)
  50%    100
  66%    108
  75%    111
  80%    113
  90%    118
  95%    120
  98%    122
  99%    123
 100%    125 (longest request)

但是,当我同时提出265个同时请求时,其中一部分请求开始花费大量时间来完成:

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:       13  195 692.6     26    3028
Processing:    15   65  21.3     72     100
Waiting:       15   65  21.3     71      99
Total:         32  260 681.7    101    3058

Percentage of the requests served within a certain time (ms)
  50%    101
  66%    108
  75%    112
  80%    116
  90%    121
  95%   3028
  98%   3040
  99%   3044
 100%   3058 (longest request)

这些结果在多次运行中非常一致.由于还有其他流量进入那个盒子,我不确定硬切断的确切位置,如果有的话,但似乎可疑接近256.

当然,我认为这是由prefork中的线程限制引起的,所以我继续调整配置以使可用线程数增加一倍,并防止线程池不必要地增长和收缩:

<IfModule prefork.c>
StartServers     512
MinSpareServers  512
MaxSpareServers  512
ServerLimit      512
MaxClients       512
MaxRequestsPerChild  5000
</IfModule>

mod_status确认我现在运行512个可用线程

8 requests currently being processed,504 idle workers

但是,尝试265个同时请求仍然会产生与之前几乎相同的结果

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:       25  211 714.7     31    3034
Processing:    17   94  28.6    103     138
Waiting:       17   93  28.5    103     138
Total:         57  306 700.8    138    3071

Percentage of the requests served within a certain time (ms)
  50%    138
  66%    145
  75%    150
  80%    161
  90%    167
  95%   3066
  98%   3068
  99%   3068
 100%   3071 (longest request)

在搜索了文档(和Stack Exchange)之后,我无法进行进一步的配置设置以尝试解决这个瓶颈问题.有什么东西我不见了吗?我应该开始寻找apache之外的答案吗?有没有人见过这种行为?任何帮助将不胜感激.

编辑:

根据Ladadadada的建议,我对阿帕奇进行了调查.我尝试了-tt和-T几次,找不到任何与众不同的东西.然后我尝试对所有当前运行的apache进程运行strace -c,并得到了:

% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
 22.09    0.317836           5     62128      4833 open
 19.91    0.286388           4     65374      1896 lstat
 13.06    0.187854           0    407433           pread
 10.70    0.153862           6     27076           semop
  7.88    0.113343           3     38598           poll
  6.86    0.098694           1    100954     14380 read

(… abdridged)

如果我正确地阅读(并且忍受我,因为我不经常使用strace),系统调用都不能解释这些请求所花费的时间.在请求甚至到达工作线程之前,它几乎看起来像瓶颈.

编辑2:

有几个人建议,我在网络服务器上再次运行测试(以前测试是从中立的互联网位置运行).结果令人惊讶:

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        0   11   6.6     12      21
Processing:     5  247 971.0     10    4204
Waiting:        3  245 971.3      7    4204
Total:         16  259 973.3     21    4225

Percentage of the requests served within a certain time (ms)
  50%     21
  66%     23
  75%     24
  80%     24
  90%     26
  95%   4225
  98%   4225
  99%   4225
 100%   4225 (longest request)

底线时间类似于基于互联网的测试,但在本地运行时似乎总是有点差.更有趣的是,个人资料发生了巨大变化.然而,在大量长时间运行的请求时间用于“连接”之前,瓶颈似乎处于处理或等待状态.我不得不怀疑这可能是一个单独的问题,以前被网络限制掩盖了.

再次从与Apache主机相同的本地网络上的另一台机器运行测试,我看到了更合理的结果:

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        1    2   0.8      2       4
Processing:    13  118  99.8    205     222
Waiting:       13  118  99.7    204     222
Total:         15  121  99.7    207     225

Percentage of the requests served within a certain time (ms)
  50%    207
  66%    219
  75%    220
  80%    221
  90%    222
  95%    224
  98%    224
  99%    225
 100%    225 (longest request)

这两个测试共同提出了许多问题,但与此不同的是,现在有一个令人信服的案例可以解决在一定负载下发生的某种严重的网络瓶颈问题.我认为接下来的步骤将分别调查网络层.

解决方法

在这种情况下我会做什么
strace -f -p <PID> -tt -T -s 500 -o trace.txt

在ab测试期间,在您的一个Apache进程上,直到您捕获其中一个缓慢的响应.然后看看trace.txt.

-tt和-T选项为您提供每个系统调用的开始和持续时间的时间戳,以帮助识别慢速系统调用.

您可能会发现一个单一的慢速系统调用,例如open()或stat(),或者您可能会在其后直接调用(可能是多个)poll()调用.如果您发现在文件或网络连接上运行的那个(很可能)会在跟踪中向后查看,直到找到该文件或连接句柄.之前对相同句柄的调用应该让你知道poll()正在等待什么.

看着-c选项的好主意.您是否确保您跟踪的Apache子项在此期间至少提供了一个缓慢的请求? (我甚至不确定除了同时对所有孩子进行strace之外你会怎么做.)

不幸的是,strace并不能让我们全面了解正在运行的程序正在做什么.它只跟踪系统调用.在一个不需要向内核询问任何内容的程序中可能会发生很多事情.要确定是否发生这种情况,您可以查看每个系统调用开始的时间戳.如果你看到重大差距,那就是时间的流逝.这不容易浮动,无论如何系统调用之间总是存在小的差距.

既然你说CPU使用率很低,那么系统调用之间可能不会发生过多的事情,但值得检查.

仔细观察ab的输出:

响应时间的突然跳跃(看起来在150毫秒到3000毫秒之间没有任何响应时间)表明某个特定的超时发生在某个地方,在大约256个同时连接之上被触发.如果您的RAM或CPU周期正常IO耗尽,则可能会出现更平滑的降级.

其次,慢速ab响应表明3000ms花费在连接阶段.几乎所有人都花了大约30毫秒,但5%花了3000毫秒.这表明网络是问题所在.

你在哪里跑步?你可以在与Apache机器相同的网络上试用它吗?

要获得更多数据,请尝试在连接的两端运行tcpdump(最好在两端运行ntp,这样就可以同步两个捕获.)并查找任何tcp重新传输. Wireshark特别适合分析转储,因为它突出了不同颜色的tcp重传,使它们易于查找.

您可能还需要查看您有权访问的任何网络设备的日志.我最近遇到了一个我们的防火墙问题,它可以处理kb / s的带宽,但它无法处理它接收的每秒数据包数.它最高可达每秒140,000个数据包.你的ab运行的一些快速数学使我相信你会看到每秒大约13,000个数据包(忽略5%的慢速请求).也许这是你达到的瓶颈.这种情况发生在256左右可能纯粹是巧合.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读1.8k次,点赞63次,收藏54次。Linux下的目录权限!!!粘滞位!!!超详解!!!
文章浏览阅读1.6k次,点赞44次,收藏38次。关于Qt的安装、Windows、Linux、MacBook_mack book 安装qt
本文介绍了使用shell脚本编写一个 Hello
文章浏览阅读1.5k次,点赞37次,收藏43次。【Linux】初识Linux——了解操作系统的发展历史以及初次体验Linux编程环境
文章浏览阅读3k次,点赞34次,收藏156次。Linux超详细笔记,个人学习时很认真的记录的,觉得好的麻烦点个赞。
文章浏览阅读6.8k次,点赞109次,收藏114次。【Linux】 OpenSSH_9.3p1 升级到 OpenSSH_9.5p1(亲测无问题,建议收藏)_openssh_9.5p1
文章浏览阅读3.5k次,点赞93次,收藏78次。初识Linux中的线程,理解线程的各种概念,理解进程地址空间中的页表转换,介绍pthread线程库并理解线程库!
文章浏览阅读863次。出现此问题为Linux文件权限问题,解决方案为回到引擎目录执行命令。输入用户密码后运行./UnrealEditor。_increasing per-process limit of core file size to infinity.
文章浏览阅读2.9k次。使用文本编辑器:打开CSV文件,并使用文本编辑器(如Notepad++、Sublime Text、Visual Studio Code等)来查看文件的字符编码格式。通常在编辑器的底部状态栏或设置中可以找到当前编码的显示。请注意,上述方法并非绝对准确,特别是当文件没有明确的编码标识时。因此,如果你发现CSV文件在不同的工具或方法中显示不同的编码格式,可能需要进行进一步的分析和判断,或者尝试使用不同的编码转换方法。该命令将输出文件的MIME类型和编码信息。使用命令行工具:在命令行中,你可以使用。_shell读取csv文件逐行处理
本文介绍了如何在Linux系统中升级gcc版本,以便更好地支持C++11及以上版本的新特性。通过升级gcc,可以提升编译器的功能和性能,获得更好的开发体验。详细的步骤和方法请参考原文链接。
文章浏览阅读4.4k次,点赞6次,收藏19次。Mosquitto是一个开源的MQTT消息代理服务器。MQTT是一个轻量级的、基于发布/订阅模式的消息传输协议。 mosquitto的安装使用比较简单,可以方便的来进行一些测试。_linux mosquitto
文章浏览阅读7.2k次,点赞2次,收藏12次。Linux中,用于根目录下有一个.ssh目录,保存了ssh相关的key和一些记录文件。_~/.ssh/
文章浏览阅读4.5k次,点赞5次,收藏18次。首先需要安装 snmp ,使用下面的命令进行安装安装完毕之后,使用下面的命令查看是否安装成功当命令行显示如图即为安装成功。_snmp工具
文章浏览阅读3.5k次,点赞7次,收藏24次。本地部署和使用llama.cpp进行量化Llama2,linux和Windows平台方案,支持CPU和GPU多版本。_llama cpp gpu
文章浏览阅读1.4k次,点赞46次,收藏44次。在vim中,最为常见的有三种模式,分别是:命令模式(command mode)、插 入模式(Insert mode)和底行模式(last line mode)文件保存或退出,也可以进行文件替换,找字符串,列出行号等操作。在命令模式下,shift+: 即可进入该模 式。在进入vim后,使用 i 进入插入模式,插入模式就是vim的编辑模式,可以在vim中进行内容的编辑和修改。vim的核心模式,使用vim进入文件编辑时的最初模式,在该模式中只能移动光标和使用命令对文件内容进行编辑。
Linux常用命令大全,包括目录操作命令和文件操作命令,以及查看登录用户命令和文件内容查看命令等。
文章浏览阅读1.7k次,点赞57次,收藏50次。Yearning 简单, 高效的MYSQL 审计平台 一款MYSQL SQL语句/查询审计工具,为DBA与开发人员使用.本地部署,注重隐私,简单高效的MYSQL审计平台。下面介绍Linux 简单部署Yearning 并结合cpolar 内网穿透工具实现远程访问,破除访问限制,提高工作效率!!
文章浏览阅读1.9w次,点赞7次,收藏18次。Microsoft Edge是一款现代化的浏览器,它拥有众多功能和强大的性能,为用户带来更加流畅的浏览体验。Edge最近推出了分屏功能,支持一个窗口同时显示两个选项卡,这可以大大提高生产力和多任务处理能力。欢迎大家使用分屏及其他新功能后分享自己的使用心得与建议。首先,使用Microsoft Edge的分屏功能确实能够提高生产力,尤其是在需要同时浏览两个不同网页的情况下。分屏功能使得在一个窗口中同时显示两个选项卡,用户可以在两个网页之间快速切换,而无需打开新的窗口或使用多个浏览器窗口。_edge linux
文章浏览阅读1.8k次,点赞83次,收藏71次。C语言实现倒计时和进度条并进行演示。_linux不换行输出倒计时
文章浏览阅读1.5k次,点赞28次,收藏25次。基于嘉立创泰山派开发板,本机使用VMware+Unbuntu,编译泰山派的Linux SDK。详细教程,0基础小白可操作!内涵大量基础操作和linux基本知识。_立创泰山派sdk编译