如何解决Javascript:下载并与另一个页面互动
|| 我想做一些基本的脚本,我正在尝试用javascript做。我想基本上下载一个wikiquote页面并将其抓取。 最好的方法是什么?我如何获得该页面?我试图通过jQuery.get()做到这一点$.get(\'http://en.wikiquote.org/wiki/Last_words\',function(data) { console.log(data); })
但是日志只是一些错误对象,控制台显示
XMLHttpRequest无法加载
http://en.wikiquote.org/wiki/Last_words。
原产null为不允许
访问控制允许来源。
zh.wikiquote.org/wiki/Last_words
获取http://en.wikiquote.org/wiki/Last_words
未定义(未定义)
所以我想我没有采取正确的方法。我该怎么办?
此外,一旦我下载了文件,可以使用哪些工具进行遍历? XPath?正则表达式?有没有一种方法可以从中生成DOM模型并附加jquery?
一个有趣的可能性是某种程度上只是打开一个小的弹出窗口,该弹出窗口会下载页面,然后运行我的脚本来刮取页面并返回数据。我知道这听起来很像脚本注入。甚至有可能以友好的方式做到这一点吗?
解决方法
假设您将自己限制为在浏览器中运行的JavaScript,以及与运行脚本的页面不在同一主机上的文档,则不能。
Same Origin安全策略使这成为不可能。如果没有它,则网页可以从用户可以访问的任何站点(包括LAN站点)请求数据,包括其ip地址,其cookie以及任何其他可能用于身份验证的数据。 (您所有的银行业务都属于我们)。
, WikiQuote公开了一个API。您可以使用JSONP向API发出请求,并获取所有预先准备好并可以使用的数据:
document.body.appendChild(document.createElement(\"script\")).src =
\"http://en.wikiquote.org/w/api.php?action=query&titles=Last_words\" +
\"&prop=revisions&rvlimit=1&rvprop=content&format=json&callback=handleQuote\";
function handleQuote(quote)
{
// quote is the response from wikiquote
}
请注意,响应以Wiki标记而不是html的形式返回。如果您要这样做,则必须进行一些解析才能获取html。编辑:使用action=parse&page=Last_words
获取html。
您可以在浏览器中预览JSON响应,方法是将format
参数从preview4ѭ更改为response5ѭ并将其粘贴到浏览器中:
Wiki标记:
http://en.wikiquote.org/w/api.php?action=query&titles=Last_words&prop=revisions&rvlimit=1&rvprop=content&format=jsonfm&callback=handleQuote
HTML:
http://en.wikiquote.org/w/api.php?action=parse&page=Last_words&format=jsonfm&callback=handleQuote
编辑:我真的只回答了您问题的一半(或更少)。至于一旦获得数据后如何与之交互,jQuery使它变得简单。如果将html字符串传递给$()
,则jQuery会为您构造元素。然后,您可以通过jQuery或DOM方法访问它:
var paragraphs = $(someHTML).find(\"p\");
通过JavaScript从任何域获取HTML的一种简单方法是将ajax请求发送到为您请求文档的本地服务器页面。您可以编写一个通用处理程序ashx页面,内容如下:
public void ProcessRequest(HttpContext context)
{
string url = Request.QueryString[\"url\"];
if (Uri.IsWellFormedUriString(url,UriKind.Absolute))
{
context.Response.Write(new WebClient().DownloadString(url));
}
}
然后用jQuery调用它:
var url = encodeURIComponent(\"http://en.wikiquote.org/wiki/Last_words\");
$.get(\"fetch.ashx?url=\" + url,function (response)
{
var $response = $(response);
});
编辑:较新的浏览器通过实现跨域资源共享(CORS),确实支持通过JavaScript进行某些跨域数据检索。 FireFox和Chrome通过XMLHttpRequest
支持CORS。 IE8和IE9通过XDomainRequest
支持CORS。问题是服务器还必须支持CORS。简而言之,服务器必须包含一个响应头“ѭ12”,以便客户端处理响应。可悲的是,似乎Wikiquote没有在响应中发送该标头。这是有关CORS内部的大量文章。
, XMLHttpRequest
不能用于跨域请求。您可以使用iframe
加载页面并尝试从中获取详细信息,但是我建议在服务器端进行此操作(使用DOM或SAX解析器来回答您的其他问题),因为用JavaScript显然不是很优雅。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。