Node.js抓取中文网页乱码问题和解决方法

Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码

代码如下:

request(url,function (err,res,body) { console.log(body) })

可以使用 来解决

安装

代码如下:
同时我们顺带把 user-agent 修改一下,以防网站屏蔽:
代码如下:

function request (url,callback) { var options = { url: url, encoding: null, headers: headers } originRequest(options,callback) }

request(url,body) { var html = iconv.decode(body,'gb2312') console.log(html) })

乱码问题解决

使用 cheerio 解析 HTML

可以简单粗暴的理解为服务器端 jQuery 选择器,有了它,比正则要更加直观许多

安装

代码如下:
输出如下
代码如下:
那么问题来了,$('h1').html() 输出的代码是经过 Unicode 编码的,网易变成了网易,给我们的字符处理带来了一些麻烦

解决 cheerio .html() 「乱码」问题

查阅可知,可以关闭这个转换实体编码的功能
代码如下:
改成
代码如下:
即可,完整代码如下:
代码如下:

var url = 'http://www.163.com'

request(url,'gb2312') var $ = cheerio.load(html,{decodeEntities: false}) console.log($('h1').text()) console.log($('h1').html()) })

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


kindeditor4.x代码高亮功能默认使用的是prettify插件,prettify是Google提供的一款源代码语法高亮着色器,它提供一种简单的形式来着色HTML页面上的程序代码,实现方式如下: 首先在编辑器里面插入javascript代码: 确定后会在编辑器插入这样的代码: <pre
这一篇我将介绍如何让kindeditor4.x整合SyntaxHighlighter代码高亮,因为SyntaxHighlighter的应用非常广泛,所以将kindeditor默认的prettify替换为SyntaxHighlighter代码高亮插件 上一篇“让kindeditor显示高亮代码”中已经
js如何实现弹出form提交表单?(图文+视频)
js怎么获取复选框选中的值
js如何实现倒计时跳转页面
如何用js控制图片放大缩小
JS怎么获取当前时间戳
JS如何判断对象是否为数组
JS怎么获取图片当前宽高
JS对象如何转为json格式字符串
JS怎么获取图片原始宽高
怎么在click事件中调用多个js函数
js如何往数组中添加新元素
js如何拆分字符串
JS怎么对数组内元素进行求和
JS如何判断屏幕大小
js怎么解析json数据
js如何实时获取浏览器窗口大小
原生JS实现别踩白块小游戏(五)
原生JS实现别踩白块小游戏(一)