如何解决刮除网站上由混淆的JS代码生成的数据
我正在使用生锈工具scraper抓取网站,以供学习,并计划使用neon-bindings将其导出到节点模块。
当我抓取网站上加载的图像的网址列表时,我注意到脚本标记中有一个“打包”功能
eval(function(p,a,c,k,e,d) {
...
}(...))
从this的答案中,我了解到这是一个解压缩JS代码的函数。
因此,我使用this工具来解压缩代码,我得到了:
var newImgs = [
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/1_8773.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/2_2594.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/3_9540.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/4_1324.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/5_1520.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/6_3015.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/7_6748.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/8_4063.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/9_1616.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/10_2885.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/11_6712.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/12_4984.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/13_5132.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/14_4691.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1','http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/15_9655.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1'
]
其中确切包含了我想要的数据,但是我不知道如何使它生锈。
有什么方法可以从锈迹斑斑的JS代码中获取数据?
我打算进行网页抓取的页面:http://m.dm5.com/m1039483/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。