nokogiri专题提供nokogiri的最新资讯内容,帮你更好的了解nokogiri。
我创建了一个文本节点并插入到我的文档中,如下所示: #<Nokogiri::XML::Text:0x3fcce081481c "<%= stylesheet_link_tag 'style'%>">]> 当我尝试使用以下方法保存文档时: File.open('ng.html', 'w+'){|f| f << page.to_html} 我在实际文档中得到了这个: <%= stylesheet
我正在尝试填充变量parent_element_h1和parent_element_h2.任何人都可以帮我使用 Nokogiri来获取我需要的信息到这些变量中吗? require 'rubygems' require 'nokogiri' value = Nokogiri::HTML.parse(<<-HTML_END) "<html> <body> <p id='par
我有一个Rails应用程序,它在报告功能中使用delayed_job来运行一些非常大的报告.其中一个生成了一个庞大的 XML文件,它可能需要几天时间才能编写代码.我认为,在互联网上看到令人印象深刻的基准测试后,Nokogiri可以为我们带来一些非常重要的性能提升. 但是,我能找到的唯一例子包括使用Nokogiri Builder创建一个xml对象,然后使用.to_xml来编写整个事物.但是我的邮政
我正在尝试使用Nokogiri构建 XML,并在标签中包含属性和纯文本.所以我试图得到这个: <?xml version="1.0"?> <Transaction requestName="OrderRequest"> <Option b="hive">hello</Option> </Transaction> 使用构建器我有这个: builder = Nokogiri::XML::Build
我已经看到这个问题,并尝试了我看过的所有建议. 我有一个新的macbook,我正在寻找一个现有的应用程序.当我克隆应用程序时,它不会捆绑安装,像Rails没有安装,即使它在其他目录中工作. 我尝试从gemfile中删除版本号并删除gemfile.lock.我尝试捆绑更新.我在osx 10.9.4,rails 4.1.5和ruby 2.1.1. 我得到的错误: An error occurred w
我找不到明确的直接答案,但在Nokogiri中.at_css和.css之间有什么区别? Nokogiri具有搜索和查找所有内容的同义词,以及find-the-first-one方法. search,/,xpath和css全部搜索访问者的每次出现并返回NodeSet. at,%,at_xpath和at_css搜索第一次发生并返回一个Node.这就是为什么文档说他们相当于说搜索(‘// some /
有没有办法使用Nokogiri的xpath()完成以下操作? doc.xpath("//pod[@id=or('anid','anotherid')]") 试试doc.xpath(“// pod [@ id =’anid’或@ id =’anotherid’]”)
使用此 HTML代码: <div class="one"> ..... </div> <div class="one"> ..... </div> <div class="one"> ..... </div> <div class="one"> ..... </div> 我如何选择Nokogiri的第二或第三个div,其类是一个? page.css('div.one')[1] #
所以,如果我有这段代码 <body> <div class="red"> <a href="http://www.example.com>Example</a> </div> </body> 我知道我想获得一个属性为“class”且值为“red”的元素,但我不知道它位于何处. 如果我使用XPath,这段代码是对的吗? dir = "http://www.domain.com" do
我正在使用open-uri和nokogiri和 ruby来做一些简单的webcraw. 有一个问题,有时html在完全加载之前被读取.在这种情况下,我无法获取加载图标和导航栏以外的任何内容. 告诉open-uri或nokogiri等到页面完全加载的最佳方法是什么? 目前我的脚本看起来像: require 'nokogiri' require 'open-uri' url = "https://w
我正在尝试使用Nokogiri来解析一个带有一些相当古怪的标记的 HTML文件.具体来说,我正在尝试抓取同时定义了id,多个类和样式的div.标记看起来像这样: <div id="foo"> <div id="bar" class="baz bang" style="display: block;"> <h2>title</h2> <dl> List of stuf
我在Ruby中编写了一个网页爬虫,我正在使用Nokogiri :: HTML来解析页面。我需要打印页面,同时在IRB中混乱我注意到一个pretty_print方法。然而,它需要一个参数,我无法弄清楚它想要什么。 我的抓取工具正在缓存网页的HTML并将其写入本地机器上的文件。我想“漂亮打印”HTML,以便在我这样做时看起来很好,格式正确。 通过“漂亮的打印”HTML页面,我认为你的意思是想要用适当的
我获取一个HTML片段 "<li>市场价" 其中包含“& nbsp;”,但是在调用了Nokogiri NodeSet的to_s之后,它变成了 "<li>市 场 价" ,我想保留原来的html片段,并尝试设置:save_with选项为to_s方法,但失败。 有人遇到同样的问题,给我帮忙吗?先谢谢你。 我遇到了类似的情况,我出来的是一个黑客,但似乎运作良好。 nbsp = No
我不确定这是语法问题还是版本差异,但我似乎无法解决这个问题.我想从h2标签中取出(非关闭)td内的数据到h3标签.以下是HTML的外观. <td valign="top" width="350"> <br><h2>NameIWant</h2><br> <br>Town<br> PhoneNumber<br> <a href="mailto:emailIwant@n
我正在使用nokogiri擦除一个html页面,我想删除所有的样式属性. 我该如何实现? (我不使用rails,所以我不能使用它的消毒方法,我不想使用消毒宝石’因为我想黑名单删除不是白名单) html = open(url) doc = Nokogiri::HTML(html.read) doc.css('.post').each do |post| puts post.to_s end =>
我需要帮助从Google搜索结果中提取网址,并被告知要使用Nokogiri.我安装了它并阅读了Nokogiri文档,但不知道从哪里开始 – 这对我来说都是希腊语. 我知道我要找的是每个结果的URL,每个结果都存在于< cite>之间.标签.到目前为止,我能够弄清楚如何做的是拉取搜索结果,但我只是不知道如何从文件中提取特定数据.这是我所拥有的极少量代码: serp = Nokogiri::HTML(
选择html标签的xpath? <select> <option value="first option"> 1 </option> <option value="second option"> 2 </option> <option value="third option"> 3 </option> </select> 以下就足够了 html/body/form/select[@name='op
如何选择具有两个类的html元素? 例如,如何选择元素< p>在一个HTML文档中(给定它有两个css类)class =’class1 class2′. 我试图使用以下内容: > doc.xpath(“// p [@ class〜= class1 class2′]”) > doc.xpath(“// p [@ class〜=’class1′] | [@ class〜=’class2′]”) > d
我正在使用Mechanize,虽然如果Mechanize不能这样做,我会对Nokogiri开放. 我想在加载所有脚本之后将页面刮掉,而不是事先加载. 我怎么能这样做? Nokogiri和Mechanize不是完整的Web浏览器,也不在浏览器模型DOM中运行 JavaScript.您希望使用类似于 Watir或 Selenium的内容,这些内容允许您使用Ruby来控制实际的Web浏览器.