0

0

php正则与数据采集详解

小云云

小云云

发布时间:2018-03-21 16:23:59

|

3350人浏览过

|

来源于php中文网

原创

  • PHP正则表达式主要用于字符串的模式分割、匹配、查找及替换操作。使用正则表达式在某些简单的环境下可能效率不高,
    因此如何更好的使用PHP正则表达式需要综合考虑。
    PHP正则表达式的定义:
    用于描述字符排列和匹配模式的一种语法规则。
    PHP中的正则函数:
    PHP中有两套正则函数,两者功能差不多,分别为:
    一套是由PCRE(Perl Compatible Regular Expression)库提供的。使用“preg_”为前缀命名的函数;
    一套由POSIX(Portable Operating System Interface of Unix )扩展提供的。使用以“ereg_”为前缀命名的函数;
    (POSIX的正则函数库,自PHP 5.3以后,就不在推荐使用,从PHP6以后,就将被移除)
    由于POSIX正则即将推出历史舞台,并且PCRE和perl的形式差不多,更利于我们在perl和php之间切换,所以这里重点介绍PCRE正则的使用。
    PCRE正则表达式
    PCRE全称为Perl Compatible Regular Expression,意思是Perl兼容正则表达式。
    在PCRE中,通常将模式表达式(即正则表达式)包含在两个反斜线“/”之间,如“/apple/”。
    正则中重要的几个概念有:元字符、转义、模式单元(重复)、反义、引用和断言,这些概念都javascript中轻松的理解和掌握。
     preg_filter —正则表达式搜索和替换
     preg_filter("正则", "替换","目标");
     preg_grep ( string $pattern , array $input [, int $flags = 0 ] )
     preg_match — 执行一个正则表达式匹配
     preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )
     preg_match_all — 全局正则表达式匹配
     preg_replace — 执行一个正则表达式的搜索和替换
     preg_split — 通过一个正则表达式分隔字符串
    常用的元字符(Meta-character):
    元字符     说明
    \A       匹配字符串串首的原子
    \Z       匹配字符串串尾的原子
    \b       匹配单词的边界     /\bis/   匹配头为is的字符串   /is\b/   匹配尾为is的字符串   /\bis\b/ 定界
    \B       匹配除单词边界之外的任意字符   /\Bis/   匹配单词“This”中的“is”
    \d     匹配一个数字;等价于[0-9]
    \D     匹配除数字以外任何一个字符;等价于[^0-9]
    \w     匹配一个英文字母、数字或下划线;等价于[0-9a-zA-Z_]
    \W     匹配除英文字母、数字和下划线以外任何一个字符;等价于[^0-9a-zA-Z_]
    \s     匹配一个空白字符;等价于[\f\t\v]
    \S     匹配除空白字符以外任何一个字符;等价于[^\f\t\v]
    \f     匹配一个换页符等价于 \x0c 或 \cL
           匹配一个换行符;等价于 \x0a 或 \cJ
           匹配一个回车符等价于\x0d 或 \cM
    \t     匹配一个制表符;等价于 \x09\或\cl
    \v     匹配一个垂直制表符;等价于\x0b或\ck
    \oNN   匹配一个八进制数字
    \xNN   匹配一个十六进制数字
    \cC    匹配一个控制字符
    模式修正符(Pattern Modifiers):
    模式修正符在忽略大小写、匹配多行中使用特别多,掌握了这一个修正符,往往能解决我们遇到的很多问题。
    i     -可同时匹配大小写字母
    M     -将字符串视为多行
    S     -将字符串视为单行,换行符做普通字符看待,使“.”匹配任何字符
    X     -模式中的空白忽略不计  
    U     -匹配到最近的字符串
    e     -将替换的字符串作为表达使用
    格式:/apple/i匹配“apple”或“Apple”等,忽略大小写。     /i
    匹配
    字符     说明
    \    将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n”匹配换行符。序列“\\”匹配“\”,“\(”匹配“(”。
    ^    匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“\n”或“\r”之后的位置匹配。
    $    匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与“\n”或“\r”之前的位置匹配。
    *   零次或多次匹配前面的字符或子表达式。例如,zo* 匹配“z”和“zoo”。* 等效于 {0,}。
    +   一次或多次匹配前面的字符或子表达式。例如,“zo+”与“zo”和“zoo”匹配,但与“z”不匹配。+ 等效于 {1,}。
    ?   零次或一次匹配前面的字符或子表达式。例如,“do(es)?”匹配“do”或“does”中的“do”。? 等效于 {0,1}。
    {n}      n 是非负整数。正好匹配 n 次。例如,“o{2}”与“Bob”中的“o”不匹配,但与“food”中的两个“o”匹配。
    {n,}     n 是非负整数。至少匹配 n 次。例如,“o{2,}”不匹配“Bob”中的“o”,而匹配“foooood”中的所有 o。“o{1,}”等效于“o+”。“o{0,}”等效于“o*”。
    {n,m}    M 和 n 是非负整数,其中 n ?       当此字符紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串“oooo”中,“o+?”只匹配单个“o”,而“o+”匹配所有“o”。
    .       匹配除“\n”之外的任何单个字符。若要匹配包括“\n”在内的任意字符,请使用诸如“[\s\S]”之类的模式。
    []      匹配[]里面的任意一个
    [^ ]    匹配非[]里面的任意一个
    一、什么是数据采集
    几年前,除几个大门户网站以外,基本上都是个人网站。资讯分散,内容也并不多。
    几年后,商业网站越来越多,资讯需要大量集中,即便有足够的财力聘请大量的文字编辑,
    也未必能满足无时无刻变化的信息资源。
    咨讯采集已成了让所有网站经营者青睐的技术。
    二、数据采集的思路:
    采集程序的思路很简单大体可以分为以下几个步骤:
         1、获取远程文件源代码(file_get_contents或用fopen 或则用fsocket实现http协议的get,或者php 的curl扩展或者php的其他第三方开源类)
              注:最好不要使用file_get_contents和fopen,会遇见你想象不到的问题,用fsocket实现http协议的get,现在大多数的网站都使用了防采集技术,采集内容的时候用信息抽取技术。
          2、分析代码得到自己想要的内容(这里用正则匹配)。
        3、依据得到的内容进行下载入库等操作。
          4、 依据你的网页排版,显示数据
    三、分享一下个人的采集心得:
    1.不采那些作防盗链了的站,其实可以作假来路但是这样的站采集成本太高
    2.采集尽量快的站,最好在本地进行采集
    3.采集时有很多时候可以先把一部分数据存入数据库,等以后进行下一步的处理。
    4.采集的时候一定要作好出错处理,我一般都是如果采集三次没有成功就跳过。
    以前经常就因为一条内容不能采就卡在那里一直的采。
    5.入库前一定要作好判断,检查内容的合法,过滤不必要的字符串。
    四、分享一个链接地址 :正则表达式在线测试
    http://tool.chinaz.com/regex
    五:分享一些常用的php正则
     匹配中文字符的正则表达式: [\u4e00-\u9fa5]
     匹配双字节字符(包括汉字在内): [^\x00-\xff]
     匹配HTML标记的正则表达式: /.*|/
     匹配IP地址的正则表达式  /(\d+)\.(\d+)\.(\d+)\.(\d+)/g
     匹配Email地址的正则表达式: \w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
     匹配网址URL的正则表达式: http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
     匹配信息中的图片链接:  /(s|S)(r|R)(c|C)*=*('|")?(w||/|.)+('|"| *|>)?/
     用正则表达式从URL地址中提取文件名:/(.*\/)([^\.]+).*/ig
     中国电话号码验证 /((d{3,4})|d{3,4}-)?d{7,8}(-d{3})*/
     中国邮政编码验证 /d{6}/
     电子邮件验证 /w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*/
     身份证验证 /d{18}|d{15}/
    常用数字验证  /d{n}/ n为规定长度   /d{n,m}/ n到m的长度范围
    非法字符验证
    匹配非法字符如: & / ' |
    正则表达式 [^&/|'\]+
    日期验证
    匹配形式如:20030718,030718
    范围:1900--2099
    正则表达式((((19){1}|(20){1})d{2})|d{2})[01]{1}d{1}[0-3]{1}d{1}

相关推荐:

PHP正则判断字符串中是否包含中文字符的方法实例

PHP正则表达式的总结

php正则表达式处理方法

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

php

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
excel制作动态图表教程
excel制作动态图表教程

本专题整合了excel制作动态图表相关教程,阅读专题下面的文章了解更多详细教程。

20

2025.12.29

freeok看剧入口合集
freeok看剧入口合集

本专题整合了freeok看剧入口网址,阅读下面的文章了解更多网址。

65

2025.12.29

俄罗斯搜索引擎Yandex最新官方入口网址
俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com;用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2025.12.29

python中def的用法大全
python中def的用法大全

def关键字用于在Python中定义函数。其基本语法包括函数名、参数列表、文档字符串和返回值。使用def可以定义无参数、单参数、多参数、默认参数和可变参数的函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

16

2025.12.29

python改成中文版教程大全
python改成中文版教程大全

Python界面可通过以下方法改为中文版:修改系统语言环境:更改系统语言为“中文(简体)”。使用 IDE 修改:在 PyCharm 等 IDE 中更改语言设置为“中文”。使用 IDLE 修改:在 IDLE 中修改语言为“Chinese”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

16

2025.12.29

C++的Top K问题怎么解决
C++的Top K问题怎么解决

TopK问题可通过优先队列、partial_sort和nth_element解决:优先队列维护大小为K的堆,适合流式数据;partial_sort对前K个元素排序,适用于需有序结果且K较小的场景;nth_element基于快速选择,平均时间复杂度O(n),效率最高但不保证前K内部有序。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

12

2025.12.29

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

134

2025.12.29

抖音网页版入口在哪(最新版)
抖音网页版入口在哪(最新版)

抖音网页版可通过官网https://www.douyin.com进入,打开浏览器输入网址后,可选择扫码或账号登录,登录后同步移动端数据,未登录仅可浏览部分推荐内容。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

63

2025.12.29

快手直播回放在哪看教程
快手直播回放在哪看教程

快手直播回放需主播开启功能才可观看,主要通过三种路径查看:一是从“我”主页进入“关注”标签再进主播主页的“直播”分类;二是通过“历史记录”中的“直播”标签页找回;三是进入“个人信息查阅与下载”里的“直播回放”选项。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

18

2025.12.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 6.3万人学习

Django 教程
Django 教程

共28课时 | 2.6万人学习

Excel 教程
Excel 教程

共162课时 | 10万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号