【原创】小偷程序:进入页面详情并获取数据
<?php
//打开列表页面
$url=‘http://www.cmstop.com/news/’;
$listPage=file_get_contents($url);
//抓取页面的超链接
$pattern=‘/<ul class=”txt-list-a lh-56 cor-333 fz-18″>(.*?)<\/ul>/s’;
//正则匹配操作
preg_match_all($pattern,$listPage,$match);
//ECHO $match[0][0];
// 获取超链接部分
$pattern=‘/<a(?:.*?)href=”(.*?)”(?:.*?)>(?:.*?)<\/a>/’;
preg_match_all($pattern,$match[0][0],$match);
$allPage=$match[1];
//print_r($match);
$pageNo=1;
//打开所有获取的超链接页面
foreach($allPage as $value){
//循环打开页面 匹配处标题和内容
$page=file_get_contents($value);
//定义标题正则和内容正则
$titlePattern=‘/<title>(.*?)<\/title>/i’;
$contentPattern=‘/<div class=”cont”>(.*?)<!– 页脚 –>/is’;
preg_match($titlePattern,$page,$titleMatch);
preg_match($contentPattern,$page,$pageMatch);
//将读取的内容写入文件
file_put_contents($pageNo.‘.html’,$pageMatch[1]);
$pageNo++;
}
//匹配每个页面的内容和标题存储起来
?>