我正在尝试下载两个网站以包含在CD中:
http://boinc.berkeley.edu/trac/wiki http://www.boinc-wiki.info
我遇到的问题是这些都是维基.所以当下载例如:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
我确实得到了很多文件,因为它也跟着像…一样的链接?action = edit …?action = diff& version = …
有人知道解决这个问题的方法吗?
我只想要当前页面,没有图像,没有差异等.
P.S:
wget -r -k -np -nv -l 1 -R jpg,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
这适用于伯克利但boinc-wiki.info仍然给我带来麻烦:/
P.P.S:
我得到了最相关的页面:
wget -r -k -nv -l 2 -R jpg,ppt http://www.boinc-wiki.info
解决方法
wget --reject-regex '(.*)\?(.*)' http://example.com
(默认情况下为–reject-type posix).根据其他评论,仅适用于最近的(> = 1.14)版本的wget.
请注意,似乎每个wget调用只能使用–reject-regex一次.也就是说,你必须使用|如果你想选择几个正则表达式,在单个正则表达式中:
wget --reject-regex 'expr1|expr2|…' http://example.com
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。