PHP使用QPM实现多进程并行任务处理程序

斟酌用PHP实现以下场景: 有1个抓站的URL列表保存在队列里,后台程序读取这个队列,然后转交给子进程去抓取HTML寄存到文件里。 为了提高效力,允许多任务并行履行,但为了不机器负载太高,限制了最大的并行任务数(为了测试方便,我们把这个数设为3),当队列中取到 END标记时,程序结束运行。

这个场景用QPM的Supervisor::taskFactoryMode()实现,非常简单。

QPM全名是 Quick Process Management Module for PHP. PHP 是强大的web开发语言,以致于大家常常忘记PHP 可以用来开发硬朗的命令行(CLI)程序以致于daemon程序。 而编写daemon程序免不了与各种进程管理打交道。QPM正式为简化进程管理而开发的类库。QPM的项目地址是:https://github.com/Comos/qpm

为了,简化测试环境,我们可以用1个文本文件来摹拟队列的数据。完全的例子文件看这里:spider_task_factory_data.txt

http://news.sina.com.cn/
http://news.ifeng.com/
http://news.163.com/
http://news.sohu.com/
http://ent.sina.com.cn/
http://ent.ifeng.com/
...
END

使用QPM的taskFactoryMode之前,我们需要准备1个TaskFactory类。 我们将其命名为 SpiderTaskFactory,SpdierTaskFactory 的工厂方法fetchTask 正常返回 Runnable的子类的实例。当碰到END或文件结束,则throw StopSignal,这样程序就会终止。

以下是组装 Supervisor 并履行的代码片断。完全的例子见:spider_task_factory.php

//如果没有从参数指定输入,把spider_task_factory_data.txt作为数据源
$input = isset($argv[1]) ? $argv[1] : __DIR__.'/spider_task_factory_data.txt';

$spiderTaskFactory = new SpiderTaskFactory($input);
$config = [
//指定taskFactory对象和工厂方法
'factoryMethod'=>[$spiderTaskFactory, 'fetchTask'],
//指定最大并发数量为3
'quantity' => 3,
];
//启动Supervisor
qpmsupervisorSupervisor::taskFactoryMode($config)->start();

SpiderTaskFactory 的实现以下:

/**
* 任务工厂,必须实现 fetchTask方法。
* 该方法正常返回
*
*/

class SpiderTaskFactory {
private $_fh;
public function __construct($input) {
$this->_input = $input;
$this->_fh = fopen($input, 'r');
if ($this->_fh === false) {
throw new Exception('fopen failed:'.$input);
}
}
public function fetchTask() {
while (true) {
if (feof($this->_fh)) {
throw new qpmsupervisorStopSignal();
}
$line = trim(fgets($this->_fh));
if ($line == 'END') {
throw new qpmsupervisorStopSignal();
}

if (empty($line)) {
continue;
}

break;
}

return new SpiderTask($line);
}
}

SpiderTask 的实现以下:

/**
* 在子进程中履行任务的类
* 必须实现 qpmprocessRunnable 接口
*/

class SpiderTask implements qpmprocessRunnable {
private $_target;

public function __construct($target) {
$this->_target = $target;
}
//在子进程中履行的部份
public function run() {
$r = @file_get_contents($this->_target);
if ($r===false) {
throw new Exception('fail to crawl url:'.$this->_target);
}
file_put_contents($this->getLocalFilename(), $r);
}

private function getLocalFilename() {
$filename = str_replace('/', '~', $this->_target);
$filename = str_replace(':', '_', $filename);
$filename = $filename.'-'.date('YmdHis');
return __DIR__.'/_spider/'.$filename.'.html';
}
}

真实的生产环境,用队列替换文件输入,便可实现持久运行的生产者/消费者模型的程序。

波比源码 – 精品源码模版分享 | www.bobi11.com
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 本站源码并不保证全部能正常使用,仅供有技术基础的人学习研究,请谨慎下载
8. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!

波比源码 » PHP使用QPM实现多进程并行任务处理程序

发表评论

Hi, 如果你对这款模板有疑问,可以跟我联系哦!

联系站长
赞助VIP 享更多特权,建议使用 QQ 登录
喜欢我嘛?喜欢就按“ctrl+D”收藏我吧!♡