圆月山庄资源网 Design By www.vgjia.com
学习python爬虫时遇到了一个问题,书上有示例如下:
import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*)are(.*"htmlcode">matchObj=re.match(r'(.*)are(.*"htmlcode">import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*)are(.*"matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2)) print("matchObj.group(3):", matchObj.group(3)) else: print('No match!\n')得到的结果是:
matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2):
matchObj.group(3): smarter than dogs
可见第二个括号里的内容被默认为空了,然后删去那个?,可以看到结果变成:
matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2): smarter than dogs
matchObj.group(3):
那么这是否就意味着?的默认值很可能是0次,那?这个符号到底有什么用呢
仔细想来这个说法并不是很严谨。尝试使用单独的."htmlcode">
import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*) are(.*)"matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2))也能在组别2中正常提取到are之后的字符内容,但稍微改动一下将?放到第二个括号内,
就什么也提取不到,同时导致group(0)中匹配的字符到Cats are就截止了(也就是第二个括号匹配失败)。
令人感到奇怪的是,如果将上面的代码改成
import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*) are (.*)+',line) if matchObj: print("matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2))也就是仅仅将?改为+,虽然能成功匹配整个line但group(2)中没有内容,
如果把+放到第二个括号中就会产生报错,匹配失败。
那么是否可以认为.*"htmlcode">
import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*) are (.*r).*',line) if matchObj: print("matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2)) #print("matchObj.group(3):", matchObj.group(3)) else: print('No match!\n')为了泛用性尝试了一下把r改成‘ '但是得到的结果是‘smarter than '。于是尝试把.换成表示任意字母的
[a-zA-Z],成功提取出了单个smarter,代码如下:
import re line='Cats are smarter than dogs' matchObj=re.match(r'(.*) are ([a-zA-Z]* ).*',line) if matchObj: print("matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2)) #print("matchObj.group(3):", matchObj.group(3)) else: print('No match!\n')
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
更新日志
2024年11月01日
2024年11月01日
- BuceadorVoltio-Satelite(2024)[24-48]FLAC
- VilmPribyl-SmetanaDalibor(2024)[24Bit-WAV]
- 高通骁龙8至尊版亮相:性能领先A18 Pro达到40%,更有多项首发
- 2024骁龙峰会:自研Oryon CPU登陆手机、汽车丨骁龙8至尊版、骁龙至尊版汽车平台
- 稀有度拉满!首款小马宝莉背卡引爆网络热梗
- 群星《全糖少爷1 影视原声带》[320K/MP3][98.36MB]
- 群星《全糖少爷1 影视原声带》[FLAC/分轨][420.97MB]
- 群星《老家伙 电视原声带》[320K/MP3][71.23MB]
- 林忆莲.1987-灰色【SONY】【WAV+CUE】
- 黎明.1995-天地豪情·一生最爱就是你【宝丽金】【WAV+CUE】
- 林以乐.2024-素颜的样子【相信音乐】【FLAC分轨】
- 王识贤.2005-男人泪【华特】【WAV+CUE】
- 群星.2006-美丽心民谣【野火乐集】【WAV+CUE】
- 陈明真.1990-变心的翅膀【华星】【WAV+CUE】
- 群星《庆余年第二季 影视原声带》[320K/MP3][29.6MB]