【原创】小偷程序:进入页面详情并获取数据

【原创】小偷程序:进入页面详情并获取数据

<?php
//打开列表页面
$url=‘http://www.cmstop.com/news/’;
$listPage=file_get_contents($url);
//抓取页面的超链接
$pattern=‘/<ul class=”txt-list-a lh-56 cor-333 fz-18″>(.*?)<\/ul>/s’;
//正则匹配操作
preg_match_all($pattern,$listPage,$match);
//ECHO  $match[0][0];
// 获取超链接部分
$pattern=‘/<a(?:.*?)href=”(.*?)”(?:.*?)>(?:.*?)<\/a>/’;
preg_match_all($pattern,$match[0][0],$match);
$allPage=$match[1];
//print_r($match);
$pageNo=1;
//打开所有获取的超链接页面
foreach($allPage as $value){
    //循环打开页面  匹配处标题和内容
    $page=file_get_contents($value);
   
    //定义标题正则和内容正则
    $titlePattern=‘/<title>(.*?)<\/title>/i’;
    $contentPattern=‘/<div class=”cont”>(.*?)<!– 页脚 –>/is’;
   
    preg_match($titlePattern,$page,$titleMatch);
    preg_match($contentPattern,$page,$pageMatch);
   
    //将读取的内容写入文件
    file_put_contents($pageNo.‘.html’,$pageMatch[1]);
    $pageNo++;
}
//匹配每个页面的内容和标题存储起来
?>

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据