获取网址列表的HTTP状态代码的脚本?

如何解决获取网址列表的HTTP状态代码的脚本?

| 我有需要检查的URL列表,以查看它们是否仍然有效。我想写一个为我做的bash脚本。 我只需要返回的HTTP状态代码,即200、404、500等。而已。 编辑请注意,如果页面上显示“找不到404”,但返回200 OK消息,则存在问题。这是配置错误的Web服务器,但您可能必须考虑这种情况。 有关更多信息,请参阅检查URL是否转到包含文本“ 404”的页面。     

解决方法

Curl为此具有一个特定的选项
--write-out
$ curl -o /dev/null --silent --head --write-out \'%{http_code}\\n\' <url>
200
-o /dev/null
丢掉通常的输出
--silent
扔掉进度表
--head
发出HEAD HTTP请求,而不是GET
--write-out \'%{http_code}\\n\'
打印所需的状态码 要将其包装在完整的Bash脚本中:
#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out \"%{http_code} $LINE\\n\" \"$LINE\"
done < url-list.txt
(以鹰眼的读者会注意到,每个URL使用一个curl过程,这会施加fork和TCP连接惩罚。如果将多个URL合并在单个curl中,这样做会更快,但是没有空间写出怪异的重复执行需要卷曲的选项。)     ,
wget --spider -S \"http://url/to/be/checked\" 2>&1 | grep \"HTTP/\" | awk \'{print $2}\'
只为您打印状态代码     ,扩展Phil已经提供的答案。如果您使用xargs进行调用,那么在bash中添加并行性就可以了。 这里的代码:
xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out \'%{url_effective}: %{http_code}\\n\' < url.lst
-n1:仅使用一个值(来自列表)作为curl调用的参数 -P10:随时保持10个卷曲过程处于活动状态(即10个并行连接) 检查卷曲手册中的
write_out
参数,以获取更多可以使用它提取的数据(时间等)。 如果它可以帮助某人,这是我当前正在使用的电话:
xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out \'%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\\n\' < url.lst | tee results.csv
它只是将一堆数据输出到一个csv文件中,该文件可以导入到任何office工具中。     ,这依赖于广泛使用的ѭ11,甚至在Alpine Linux上也几乎无处不在。
wget --server-response --spider --quiet \"${url}\" 2>&1 | awk \'NR==1{print $2}\'
解释如下:
--quiet
  关闭Wget \的输出。      来源-wget手册页
--spider
  [...]它不会下载页面,只需检查它们是否在那里。 [...]      来源-wget手册页
--server-response
  打印HTTP服务器发送的标头和FTP服务器发送的响应。      来源-wget手册页 他们对ѭ15don不说的是那些标头输出打印到标准错误(sterr),因此需要重定向到stdin。 将输出发送到标准输入,我们可以将其通过管道传输到
awk
以提取HTTP状态代码。该代码是: 第二个(
$2
)非空白字符组:
{$2}
在标题的第一行:
NR==1
而且因为我们要打印它……
{print $2}
wget --server-response --spider --quiet \"${url}\" 2>&1 | awk \'NR==1{print $2}\'
    ,使用ѭ23来仅获取HTTP标头(而不是整个文件)并进行解析:
$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d\' \' -f2
200
    ,
wget -S -i *file*
将为您提供文件中每个URL的标题。 通过
grep
专门过滤状态代码。     ,由于https://mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P(来自
xargs
的并行作业的输出存在混合的风险),我将使用GNU Parallel而非
xargs
进行并行化:
cat url.lst |
  parallel -P0 -q curl -o /dev/null --silent --head --write-out \'%{url_effective}: %{http_code}\\n\' > outfile
在这种特殊情况下,使用
xargs
可能是安全的,因为输出是如此之短,因此使用
xargs
的问题在于,如果以后有人更改代码以执行更大的操作,它将不再安全。或者,如果有人读了这个问题并认为他可以用其他东西代替
curl
,那可能也不安全。     

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-