Perl,如何从url并行获取数据?

我需要从许多Web数据提供程序中获取一些数据,这些数据提供程序不公开任何服务,因此我必须编写类似这样的内容,例如使用WWW :: Mechanize:
use WWW::Mechanize;
@urls = ('http://www.first.data.provider.com','http://www.second.data.provider.com','http://www.third.data.provider.com');
%results = {};
foreach my $url (@urls) {
 $mech = WWW::Mechanize->new();
 $mech->get($url);
 $mech->form_number(1);
 $mech->set_fields('user' => 'myuser',pass => 'mypass');
 $resp = $mech->submit();
 $results{$url} = parse($resp->content());
}
consume(%results);

是否有一些(可能是简单的;-)方式将数据提取到一个共同的%结果变量,同时,即:并行地,来自所有提供者?

解决方法

Perl中应避免使用线程.使用线程主要是为了
在Windows上模拟UNIX样式的fork;除此之外,它毫无意义.

(如果你关心,实现使这个事实非常清楚.在perl中,
解释器是PerlInterpreter对象.线程的方式
工作是通过制作一堆线程,然后创建一个全新的
每个线程中的PerlInterpreter对象.线程绝对分享
什么都没有,甚至比儿童过程更少;叉子给你
copy-on-write,但是使用线程,所有复制都在Perl中完成
空间!慢!)

如果你想在同一个过程中同时做很多事情,那么
在Perl中这样做的方法就是使用事件循环
EV,
Event,或
POE,或使用Coro. (您可以
也可以根据AnyEvent API编写代码
你使用任何事件循环.这是我更喜欢的.)差异
两者之间是你如何编写代码.

AnyEvent(和EV,事件,
POE等等强制您在面向回调的过程中编写代码
样式.而不是控制从上到下流动,控制在一个
延续传递风格.函数不返回值,它们调用
其他功能及其结果.这允许您运行许多IO
并行操作 – 当给定的IO操作产生时
结果,将调用处理这些结果的函数.什么时候
另一个IO操作完成后,将调用该函数.和
等等.

这种方法的缺点是你必须重写你的
码.所以有一个名为Coro的模块可以让Perl成为现实
(用户空间)线程,允许您从上到下编写代码,
但仍然是非阻塞的. (这样做的缺点是它
大量修改了Perl的内部结构.但它似乎工作得很好.)

所以,因为我们不想重写
WWW::Mechanize
今晚,我们将使用Coro. Coro带有一个名为的模块
Coro::LWP将会
拨打LWP的所有电话都是
无阻塞.它将阻止当前线程(Coro中的“coroutine”)
lingo),但它不会阻止任何其他线程.这意味着你可以做
一次性提出大量请求,并在结果出现时处理结果
可用. Coro比您的网络连接更好地扩展;
每个协程只使用几k内存,所以很容易有几十个
成千上万的人.

考虑到这一点,让我们看一些代码.这是一个开始的程序
三个并行的HTTP请求,并打印每个请求的长度
响应.它与您正在做的相似,减去实际值
处理;但你可以把你的代码放在我们计算的地方
长度和它将工作相同.

我们将从通常的Perl脚本样板开始:

#!/usr/bin/env perl

use strict;
use warnings;

然后我们将加载Coro特定的模块:

use Coro;
use Coro::LWP;
use EV;

Coro在幕后使用事件循环;它会为你挑选一个
你想要,但我们只是明确指定EV.这是最好的活动
循环.

然后我们将加载我们工作所需的模块,这只是:

use WWW::Mechanize;

现在我们准备编写我们的程序了.首先,我们需要一个URL列表:

my @urls = (
    'http://www.google.com/','http://www.jrock.us/','http://stackoverflow.com/',);

然后我们需要一个函数来生成一个线程并完成我们的工作.做一个
在Coro上的新线程,你称async像async {body;的
线;去这里}.这将创建一个线程,启动它,和
继续该计划的其余部分.

sub start_thread($) {
    my $url = shift;
    return async {
        say "Starting $url";
        my $mech = WWW::Mechanize->new;
        $mech->get($url);
        printf "Done with $url,%d bytes\n",length $mech->content;
    };
}

所以这是我们计划的核心.我们只是提出正常的LWP计划
在异步内部,它将神奇地非阻塞.得到块,
但其他协同程序将在等待它获取数据时运行
来自网络.

现在我们只需要启动线程:

start_thread $_ for @urls;

最后,我们想要开始处理事件:

EV::loop;

就是这样.当你运行它时,你会看到一些输出,如:

Starting http://www.google.com/
Starting http://www.jrock.us/
Starting http://stackoverflow.com/
Done with http://www.jrock.us/,5456 bytes
Done with http://www.google.com/,9802 bytes
Done with http://stackoverflow.com/,194555 bytes

正如您所看到的,请求是并行进行的,而您没有
求助于线程!

更新

您在原始帖子中提到要限制并行运行的HTTP请求数.一种方法是使用信号量,
Coro::Semaphore在科罗.

信号量就像一个计数器.当您想使用信号量保护的资源时,您可以“降低”信号量.这会减少计数器并继续运行程序.但是如果当你试图降低信号量时计数器为零,你的线程/协同程序将进入睡眠状态,直到它不为零.当计数再次上升时,您的线程将在信号量下唤醒并继续.最后,当您使用信号量保护的资源时,您“上调”信号量并为其他线程提供运行的机会.

这使您可以控制对共享资源的访问,例如“发出HTTP请求”.

您需要做的就是创建HTTP请求线程将共享的信号量:

my $sem = Coro::Semaphore->new(5);

5意味着“让我们在阻止之前’向下’调用’5次”,换句话说,“让5个并发的HTTP请求”.

在我们添加任何代码之前,让我们谈谈可能出现的问题.可能发生的一件坏事是一个线程“向下” – 信号量,但从来没有“向上” – 当它完成时它.然后没有什么可以使用那个资源,你的程序可能最终什么都不做.有很多方法可以实现.如果你写了一些代码,比如$sem-> down;做一点事; $sem-> up,你可能觉得安全,但是如果“做某事”会引发异常怎么办?那么信号量就会被遗忘,这很糟糕.

幸运的是,Perl可以很容易地拥有范围Guard对象,当持有对象的变量超出范围时,它将自动运行代码.我们可以将代码设置为$sem-> up,然后我们将永远不必担心在我们不打算时持有资源.

Coro :: Semaphore集成了守卫的概念,这意味着你可以说我的$guard = $sem->守卫,并且当控制器离开你叫守卫的范围时,它会自动向下移动信号量并向上移动.

考虑到这一点,我们要做的就是限制并行请求的数量是保护我们使用HTTP的协同程序顶部的信号量:

async {
    say "Waiting for semaphore";
    my $guard = $sem->guard;
    say "Starting";
    ...;
    return result;
}

处理意见:

如果您不希望您的程序永远存在,那么有一些选择.一种是在另一个线程中运行事件循环,然后在每个工作线程上加入.这使您可以将结果从线程传递到主程序:

async { EV::loop };

# start all threads
my @running = map { start_thread $_ } @urls;

# wait for each one to return
my @results = map { $_->join } @running;

for my $result (@results) {
    say $result->[0],': ',$result->[1];
}

您的线程可以返回如下结果:

sub start_thread($) {
    return async {
        ...;
        return [$url,length $mech->content];
    }
}

这是在数据结构中收集所有结果的一种方法.如果您不想返回内容,请记住所有协同程序共享状态.所以你可以把:

my %results;

在程序的顶部,让每个协同程序更新结果:

async {
    ...;
    $results{$url} = 'whatever';
};

当所有协程都运行完毕后,您的哈希将填充结果.但是,您必须加入每个协程才能知道答案何时准备就绪.

最后,如果您将此作为Web服务的一部分,您应该使用一个像coroine一样的Web服务器,如Corona.这将在协程中运行每个HTTP请求,允许您并行处理多个HTTP请求,此外还有能够并行发送HTTP请求.这将很好地利用内存,CPU和网络资源,并且很容易维护!

(你基本上可以将我们的程序从上面切换到处理HTTP请求的协同程序;可以创建新的协同程序并在协程内加入.)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


1. 如何去重 #!/usr/bin/perl use strict; my %hash; while(<>){ chomp; print "$_n" unless
最近写了一个perl脚本,实现的功能是将表格中其中两列的数据进行拼凑,然后将拼凑后的数据用“|”连接在一起。表格内容如下: 员工号码员工姓名职位入职日期1001张三销售1980/12/17 0:00:
表的数据字典格式如下:如果手动写MySQL建表语句,确认麻烦,还不能保证书写一定正确。写了个Perl脚本,可快速构造MySQL脚本语句。脚本如下:#!/usr/bin/perluse strict;m
巡检类工作经常会出具日报,最近在原有日报的基础上又新增了一个表的数据量统计日报,主要是针对数据库中使用较频繁,数据量又较大的31张表。该日报有两个sheet组成,第一个sheet是数据填写,第二个sh
在实际生产环境中,常常需要从后台日志中截取报文,报文的形式类似于.........一个后台日志有多个报文,每个报文可由操作流水唯一确定。以前用AWK写过一个,程序如下:beginline=`awk &
最近写的一个perl程序,通过关键词匹配统计其出现的频率,让人领略到perl正则表达式的强大,程序如下:#!/usr/bin/perluse strict;my (%hash,%hash1,@arra
忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架(巧的是 PerlBuzz 最近也有一篇相关的讨论帖),于是乎,决定在我自己的 blog 上也贴一下 :) 原生 CGI/FastCGI 的 web app 对于较小的应用非常合适,但稍复杂一些就有些痛苦,但运行效率是最高的 ;) 如果是自己用 Perl 开发高性能的站,多推荐之。 Catalyst, CGI::A
bless有两个参数:对象的引用、类的名称。 类的名称是一个字符串,代表了类的类型信息,这是理解bless的关键。 所谓bless就是把 类型信息 赋予 实例变量。 程序包括5个文件: person.pm :实现了person类 dog.pm :实现了dog类 bless.pl : 正确的使用bless bless.wrong.pl : 错误的使用bless bless.cc : 使用C++语言实
gb2312转Utf的方法: use Encode; my $str = "中文"; $str_cnsoftware = encode("utf-8", decode("gb2312", $str));   Utf转 gb2312的方法: use Encode; my $str = "utf8中文"; $str_cnsoftware = encode("gb2312", decode("utf-8
  perl 计算硬盘利用率, 以%来查看硬盘资源是否存在IO消耗cpu资源情况; 部份代码参考了iostat源码;     #!/usr/bin/perl use Time::HiRes qw(gettimeofday); use POSIX; $SLEEPTIME=3; sub getDiskUtl() { $clock_ticks = POSIX::sysconf( &POSIX::_SC_
1 简单变量 Perl 的 Hello World 是怎么写的呢?请看下面的程序: #!/usr/bin/perl print "Hello World" 这个程序和前面 BASH 的 Hello World 程序几乎相同,只是第一行换成了 #!/usr/bin/perl ,还有显示的时候用的是 print,而不是 echo。有了前面 BASH 基础和 C 语言的基础,许多 Perl 的知识可以很
本文介绍Perl的Perl的简单语法,包括基本输入输出、分支循环控制结构、函数、常用系统调用和文件操作,以及进程管理几部分。 1 基本输入输出 在 BASH 脚本程序中,我们用 read var 来实现从键盘的输入,用 echo $var 来实现输出。那么在 Perl 中将有一点变化。Perl 中将标准输入用关键词 表示;标准输出用 表示,标准错误输出用 表示。故而从标准输入读取数据可以写成: $
正则表达式是 Perl 语言的一大特色,也是 Perl 程序中的一点难点,不过如果大家能够很好的掌握他,就可以轻易地用正则表达式来完成字符串处理的任务,当然在 CGI 程序设计中就更能得心应手了。下面我们列出一些正则表达式书写时的一些基本语法规则。 1 正则表达式的三种形式 首先我们应该知道 Perl 程序中,正则表达式有三种存在形式,他们分别是: 匹配:m/<regexp>/ (还可以简写为 /
在学习Perl和Shell时,有很多人可能会问这样一个问题,到底先学习哪个或者学习哪个更好! 每个人都有自己的想法,以下是个人愚见,请多多指教! Perl是larry wall为解决日常工作中的一个编程问题而产生的,它最初的主要功能是用于分析基于文本的数据和生成这些数据的统计和结果;尽管初衷很简单,但是后来发展了很多特点: 1、Perl是一种借鉴了awk、C、sed、shell、C++、Java等
Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解一些常用的参数. (重点提示:在window下执行命令行程序的方式为 : perl -e "some code", 注意:是双引号啊,不是单引号,linux下执行时单引号) Safety Net Options 在使用 Perl 尝试一些聪明( 或 stupid) 的想法时, 错误难免会发生. 有经验的 P
转自: http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像perl代码,而不是像C或者BASIC代码,最好的办法就是去了解perl的内置变量。perl可以通过这些内置变量可以控制程序运行时的诸多方面。 本文中,我们一起领略一下众多内置变量在文件的输入输出控制上的出色表现。 行计数 我决定写这篇文章的一个原因就是,当我发现
2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # 2005 - 2007 # BackConnectShell + Rootlab t00l # priv8! # 3sk0rbut0@gmail.com # # Backconnect by data cha0s (modifica
转自: http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像perl代码,而不是像C或者BASIC代码,最好的办法就是去了解perl的内置变量。perl可以通过这些内置变量可以控制程序运行时的诸多方面。 本文中,我们一起领略一下众多内置变量在文件的输入输出控制上的出色表现。 行计数 我决定写这篇文章的一个原因就是,当我发现
黑莓 手机 屏幕发展历程对比 blackberry 各型号屏幕大小   黑莓手 机 一直在不断发展且新机型 也在不断上市. 因此,不同黑莓机型的屏幕分辨率也在不断变化着. 总的来说,屏幕分辨率一直在提高并且越来越清晰.我们对所有的黑莓 机型的屏幕分辨率做了个对比.~51blackberry ~com     可能大家特别感兴趣是新发布的黑莓机型,它的分辨率也是黑莓 机型中前所未有的.   黑莓 b
      公司里没有我用惯的UltraEdit的lisence了, 只能无奈转向开源的Notepad++, 找了半天才知道配置运行Perl的办法。         1,用Notepad++打开.pl文件,         2, F5或者Run->Run,打开运行窗口,在下面的框框里输入:Perl -w "$(FULL_CURRENT_PATH)", 然后Save,保存成一个命令就行,名字比如叫R