获取网址列表的HTTP状态代码的脚本？

如何解决获取网址列表的HTTP状态代码的脚本？

| 我有需要检查的URL列表，以查看它们是否仍然有效。我想写一个为我做的bash脚本。我只需要返回的HTTP状态代码，即200、404、500等。而已。编辑请注意，如果页面上显示“找不到404”，但返回200 OK消息，则存在问题。这是配置错误的Web服务器，但您可能必须考虑这种情况。有关更多信息，请参阅检查URL是否转到包含文本“ 404”的页面。

解决方法

Curl为此具有一个特定的选项--write-out：

$ curl -o /dev/null --silent --head --write-out \'%{http_code}\\n\' <url>
200

-o /dev/null丢掉通常的输出 --silent扔掉进度表 --head发出HEAD HTTP请求，而不是GET --write-out \'%{http_code}\\n\'打印所需的状态码要将其包装在完整的Bash脚本中：

#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out \"%{http_code} $LINE\\n\" \"$LINE\"
done < url-list.txt

（以鹰眼的读者会注意到，每个URL使用一个curl过程，这会施加fork和TCP连接惩罚。如果将多个URL合并在单个curl中，这样做会更快，但是没有空间写出怪异的重复执行需要卷曲的选项。） ,

wget --spider -S \"http://url/to/be/checked\" 2>&1 | grep \"HTTP/\" | awk \'{print $2}\'

只为您打印状态代码 ,扩展Phil已经提供的答案。如果您使用xargs进行调用，那么在bash中添加并行性就可以了。这里的代码：

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out \'%{url_effective}: %{http_code}\\n\' < url.lst

-n1：仅使用一个值（来自列表）作为curl调用的参数 -P10：随时保持10个卷曲过程处于活动状态（即10个并行连接）检查卷曲手册中的write_out参数，以获取更多可以使用它提取的数据（时间等）。如果它可以帮助某人，这是我当前正在使用的电话：

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out \'%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\\n\' < url.lst | tee results.csv

它只是将一堆数据输出到一个csv文件中，该文件可以导入到任何office工具中。 ,这依赖于广泛使用的ѭ11，甚至在Alpine Linux上也几乎无处不在。

wget --server-response --spider --quiet \"${url}\" 2>&1 | awk \'NR==1{print $2}\'

解释如下： --quiet 关闭Wget \的输出。来源-wget手册页 --spider [...]它不会下载页面，只需检查它们是否在那里。 [...] 来源-wget手册页 --server-response 打印HTTP服务器发送的标头和FTP服务器发送的响应。来源-wget手册页他们对ѭ15don不说的是那些标头输出打印到标准错误（sterr），因此需要重定向到stdin。将输出发送到标准输入，我们可以将其通过管道传输到awk以提取HTTP状态代码。该代码是：第二个（$2）非空白字符组：{$2} 在标题的第一行：NR==1 而且因为我们要打印它……{print $2}。

wget --server-response --spider --quiet \"${url}\" 2>&1 | awk \'NR==1{print $2}\'

,使用ѭ23来仅获取HTTP标头（而不是整个文件）并进行解析：

$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d\' \' -f2
200

,wget -S -i *file*将为您提供文件中每个URL的标题。通过grep专门过滤状态代码。 ,由于https://mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P（来自xargs的并行作业的输出存在混合的风险），我将使用GNU Parallel而非xargs进行并行化：

cat url.lst |
  parallel -P0 -q curl -o /dev/null --silent --head --write-out \'%{url_effective}: %{http_code}\\n\' > outfile

在这种特殊情况下，使用xargs可能是安全的，因为输出是如此之短，因此使用xargs的问题在于，如果以后有人更改代码以执行更大的操作，它将不再安全。或者，如果有人读了这个问题并认为他可以用其他东西代替curl，那可能也不安全。

获取网址列表的HTTP状态代码的脚本？

如何解决获取网址列表的HTTP状态代码的脚本？

解决方法

相关推荐