编程学习 - Python 入门指南

Python 入门教程 0.为什么选择 Python 入门？ 1.安装 2.print 3.IDE 4.输入 5.变量 6.bool 7.if 8.while 9.random 10.变量2 11.逻辑判断 12.for循环 13.字符串 14.字符串格式化 15.循环的嵌套 16.字符串格式化2 17.类型转换 18.bool类型转换 19.函数 20.命令行常用命令 21.函数的参数 22.函数应用示例 23.if, elif, else 24.if的嵌套 25.初探list 26.操作list 27.list切片 28.字符串的分割 29.连接list 30.字符串的索引和切片 31.读文件 32.写文件 33.处理文件中的数据 34.break 35.continue 36.异常处理 37.字典 38.模块 39.用文件保存游戏（1） 40.用文件保存游戏（2） 41.用文件保存游戏（3） 42.函数的默认参数 43.查天气（1） 44.查天气（2） 45.查天气（3） 46.面向对象（1） 47.面向对象（2） 48.面向对象（3） 49.面向对象（4） 50.and-or技巧 51.元组 52.数学运算 53.真值表 54.正则表达式（1） 55.正则表达式（2） 56.正则表达式（3） 57.正则表达式（4） 58.正则表达式（5） 59.随机数 60.计时 61.调试程序 62.python 2 到 3 的新手坑 63.python shell 64.列表解析 65.函数的参数传递（1） 66.函数的参数传递（2） 67.函数的参数传递（3） 68.lambda 表达式 69.变量的作用域 70.map 函数 71.reduce 函数 72.多线程

【Python 第55课】正则表达式（2）

有同学问起昨天那段测试代码里的问题，我来简单说一下。

r"hi"

这里字符串前面加了r，是raw的意思，它表示对字符串不进行转义。为什么要加这个？你可以试试print "\bhi"和r"\bhi"的区别。

>>> print ("\bhi")
hi
>>> print (r"\bhi")
\bhi

可以看到，不加r的话，\b就没有了。因为python的字符串碰到“\”就会转义它后面的字符。如果你想在字符串里打“\”，则必须要打“\\”。

>>> print ("\\bhi")
\bhi

这样的话，我们的正则表达式里就会多出很多“\”，让本来就已经复杂的字符串混乱得像五仁月饼一般。但加上了“r”，就表示不要去转义字符串中的任何字符，保持它的原样。

re.findall(r"hi", text)

re是python里的正则表达式模块。findall是其中一个方法，用来按照提供的正则表达式，去匹配文本中的所有符合条件的字符串。返回结果是一个包含所有匹配的list。

今天主要说两个符号“.”和“*”，顺带说下“\S”和“?”。

“.”在正则表达式中表示除换行符以外的任意字符。在上节课提供的那段例子文本中：

Hi, I am Shirley Hilton. I am his wife.

如果我们用“i.”去匹配，就会得到

['i,', 'ir', 'il', 'is', 'if']

你若是暴力一点，也可以直接用“.”去匹配，看看会得到什么。

与“.”类似的一个符号是“\S”，它表示的是不是空白符的任意字符。注意是大写字符S。

在很多搜索中，会用“?”表示任意一个字符，“*”表示任意数量连续字符，这种被称为通配符。但在正则表达式中，任意字符是用“.”表示，而“*”则不是表示字符，而是表示数量：它表示前面的字符可以重复任意多次（包括0次），只要满足这样的条件，都会被表达式匹配上。

结合前面的“.*”，用“I.*e”去匹配，想一下会得到什么结果？

['I am Shirley Hilton. I am his wife']

是不是跟你想的有些不一样？也许你会以为是

['I am Shirle', 'I am his wife']

这是因为“*”在匹配时，会匹配尽可能长的结果。如果你想让他匹配到最短的就停止，需要用“.*?”。如“I.*?e”，就会得到第二种结果。这种匹配方式被称为懒惰匹配，而原本尽可能长的方式被称为贪婪匹配。

最后留一道习题：

从下面一段文本中，匹配出所有s开头，e结尾的单词。

site sea sue sweet see case sse ssee loses

来源：Crossin的编程教室