nokogiri - 编程之家

ruby-on-rails – 防止Nokogiri逃脱角色？

我创建了一个文本节点并插入到我的文档中,如下所示： #<Nokogiri::XML::Text:0x3fcce081481c "<%= stylesheet_link_tag 'style'%>">]> 当我尝试使用以下方法保存文档时： File.open('ng.html', 'w+'){|f| f << page.to_html} 我在实际文档中得到了这个： <%= stylesheet

ruby-on-rails – 如何使用Nokogiri导航DOM

我正在尝试填充变量parent_element_h1和parent_element_h2.任何人都可以帮我使用 Nokogiri来获取我需要的信息到这些变量中吗？ require 'rubygems' require 'nokogiri' value = Nokogiri::HTML.parse(<<-HTML_END) "<html> <body> <p id='par

ruby-on-rails – 如何使用Nokogiri编写一个巨大的XML文件？

我有一个Rails应用程序,它在报告功能中使用delayed_job来运行一些非常大的报告.其中一个生成了一个庞大的 XML文件,它可能需要几天时间才能编写代码.我认为,在互联网上看到令人印象深刻的基准测试后,Nokogiri可以为我们带来一些非常重要的性能提升. 但是,我能找到的唯一例子包括使用Nokogiri Builder创建一个xml对象,然后使用.to_xml来编写整个事物.但是我的邮政

设置标签属性,并使用nokogiri builder(ruby)向标签添加纯文本内容

我正在尝试使用Nokogiri构建 XML,并在标签中包含属性和纯文本.所以我试图得到这个： <?xml version="1.0"?> <Transaction requestName="OrderRequest"> <Option b="hive">hello</Option> </Transaction> 使用构建器我有这个： builder = Nokogiri::XML::Build

ruby-on-rails – Nokogiri不会让我捆绑安装在Rails中

我已经看到这个问题,并尝试了我看过的所有建议. 我有一个新的macbook,我正在寻找一个现有的应用程序.当我克隆应用程序时,它不会捆绑安装,像Rails没有安装,即使它在其他目录中工作. 我尝试从gemfile中删除版本号并删除gemfile.lock.我尝试捆绑更新.我在osx 10.9.4,rails 4.1.5和ruby 2.1.1. 我得到的错误： An error occurred w

ruby – 在Nokogiri中.at_css到.css之间有什么区别？

我找不到明确的直接答案,但在Nokogiri中.at_css和.css之间有什么区别？ Nokogiri具有搜索和查找所有内容的同义词,以及find-the-first-one方法. search,/,xpath和css全部搜索访问者的每次出现并返回NodeSet. at,%,at_xpath和at_css搜索第一次发生并返回一个Node.这就是为什么文档说他们相当于说搜索(‘// some /

ruby – Nokogiri xpath()’或’运算符？

有没有办法使用Nokogiri的xpath()完成以下操作？ doc.xpath("//pod[@id=or('anid','anotherid')]") 试试doc.xpath(“// pod [@ id =’anid’或@ id =’anotherid’]”)

在Ruby中使用Nokogiri解析HTML

使用此 HTML代码： <div class="one"> ..... </div> <div class="one"> ..... </div> <div class="one"> ..... </div> <div class="one"> ..... </div> 我如何选择Nokogiri的第二或第三个div,其类是一个？ page.css('div.one')[1] #

ruby – 在Nokogiri中使用XPath按属性值选择元素

所以,如果我有这段代码 <body> <div class="red"> <a href="http://www.example.com>Example</a> </div> </body> 我知道我想获得一个属性为“class”且值为“red”的元素,但我不知道它位于何处. 如果我使用XPath,这段代码是对的吗？ dir = "http://www.domain.com" do

ruby – 使用open-uri和nokogiri在完全加载之前读取HTML

我正在使用open-uri和nokogiri和 ruby来做一些简单的webcraw. 有一个问题,有时html在完全加载之前被读取.在这种情况下,我无法获取加载图标和导航栏以外的任何内容. 告诉open-uri或nokogiri等到页面完全加载的最佳方法是什么？目前我的脚本看起来像： require 'nokogiri' require 'open-uri' url = "https://w

ruby – 使用Nokogiri和XPath获取具有多个属性的节点

我正在尝试使用Nokogiri来解析一个带有一些相当古怪的标记的 HTML文件.具体来说,我正在尝试抓取同时定义了id,多个类和样式的div.标记看起来像这样： <div id="foo"> <div id="bar" class="baz bang" style="display: block;"> <h2>title</h2> <dl> List of stuf

如何用Nokogiri漂亮打印HTML？

我在Ruby中编写了一个网页爬虫，我正在使用Nokogiri :: HTML来解析页面。我需要打印页面，同时在IRB中混乱我注意到一个pretty_print方法。然而，它需要一个参数，我无法弄清楚它想要什么。我的抓取工具正在缓存网页的HTML并将其写入本地机器上的文件。我想“漂亮打印”HTML，以便在我这样做时看起来很好，格式正确。通过“漂亮的打印”HTML页面，我认为你的意思是想要用适当的

红宝石 – 如何使诺基里不转换到空间

我获取一个HTML片段 "<li>市场价" 其中包含“& nbsp;”，但是在调用了Nokogiri NodeSet的to_s之后，它变成了 "<li>市场价" ，我想保留原来的html片段，并尝试设置：save_with选项为to_s方法，但失败。有人遇到同样的问题，给我帮忙吗？先谢谢你。我遇到了类似的情况，我出来的是一个黑客，但似乎运作良好。 nbsp = No

html – Nokogiri和Xpath：找到两个标签之间的所有文本

我不确定这是语法问题还是版本差异,但我似乎无法解决这个问题.我想从h2标签中取出(非关闭)td内的数据到h3标签.以下是HTML的外观. <td valign="top" width="350"> <br><h2>NameIWant</h2><br> <br>Town<br> PhoneNumber<br> <a href="mailto:emailIwant@n

html – 带nokogiri的条带样式属性

我正在使用nokogiri擦除一个html页面,我想删除所有的样式属性. 我该如何实现？ (我不使用rails,所以我不能使用它的消毒方法,我不想使用消毒宝石’因为我想黑名单删除不是白名单) html = open(url) doc = Nokogiri::HTML(html.read) doc.css('.post').each do |post| puts post.to_s end =>

HTML – 如何使用Nokogiri解析Google搜索结果？

我需要帮助从Google搜索结果中提取网址,并被告知要使用Nokogiri.我安装了它并阅读了Nokogiri文档,但不知道从哪里开始 – 这对我来说都是希腊语. 我知道我要找的是每个结果的URL,每个结果都存在于< cite>之间.标签.到目前为止,我能够弄清楚如何做的是拉取搜索结果,但我只是不知道如何从文件中提取特定数据.这是我所拥有的极少量代码： serp = Nokogiri::HTML(

选择html标签的xpath？

选择html标签的xpath？ <select> <option value="first option"> 1 </option> <option value="second option"> 2 </option> <option value="third option"> 3 </option> </select> 以下就足够了 html/body/form/select[@name='op

html – nokogiri多个css类

如何选择具有两个类的html元素？例如,如何选择元素< p>在一个HTML文档中(给定它有两个css类)class =’class1 class2′. 我试图使用以下内容： > doc.xpath(“// p [@ class〜= class1 class2′]”) > doc.xpath(“// p [@ class〜=’class1′] | [@ class〜=’class2′]”) > d

javascript – 如何在JS更改DOM后刮掉一些东西？

我正在使用Mechanize,虽然如果Mechanize不能这样做,我会对Nokogiri开放. 我想在加载所有脚本之后将页面刮掉,而不是事先加载. 我怎么能这样做？ Nokogiri和Mechanize不是完整的Web浏览器,也不在浏览器模型DOM中运行 JavaScript.您希望使用类似于 Watir或 Selenium的内容,这些内容允许您使用Ruby来控制实际的Web浏览器.