社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python 炫技操作:五种 Python 转义表示法

Python编程时光 • 3 年前 • 493 次点击  
点击上方“Python编程时光”,选择“加为星标
第一时间关注Python技术干货!


大家好,我是明哥。

这篇文章在昨天的头条其实已经发过,但是由于是挺早之前仓促而写的,发之前也没有好好的检查内容,导致有一些内容有一些问题,这也很正常,谁写的代码没有点 bug,文章也是类似。

但是我还是怕误导我的一些读者,所以第一时间将文章做了删除处理。

下班回家后我立马认真的校稿一遍,对一些错误的内容进行了更正,同时也补充了不少新的内容进来,对比昨天的版本,更加系统了。

相信对于不少同学来说,即使是非常不起眼的 转义, 本篇文章也是能学到不少东西的。

好了,以下是文章的正文。




1. 为什么要有转义?

ASCII 表中一共有 128 个字符。这里面有我们非常熟悉的字母、数字、标点符号,这些都可以从我们的键盘中输出。除此之外,还有一些非常特殊的字符,这些字符,我通常很难用键盘上的找到,比如制表符、响铃这种。

为了能将那些特殊字符都能写入到字符串变量中,就规定了一个用于转义的字符 \ ,有了这个字符,你在字符串中看的字符,print 出来后就不一定你原来看到的了。

举个例子

>>> msg = "hello\013world\013hello\013python"
>>> print(msg)
hello
     world
          hello
               python
>>> 

是不是有点神奇?变成阶梯状的输出了。

那个 \013 又是什么意思呢?

  • \ 是转义符号,上面已经说过

  • 013 是 ASCII 编码的八进制表示,注意前面是  0 且不可省略,而不是字母 o

把八进制的 13 转成 10 进制后是 11

对照查看 ASCII 码表,11 对应的是一个垂直定位符号,这就能解释,为什么是阶梯状的输出字符串。

2. 转义的 5 种表示法

ASCII 有 128 个字符,如果用 八进制表示,至少得有三位数,才能将其全部表示。这就是为什么说上面的首位 0 不能省略的原因,即使现在用不上,我也得把它空出来。

而如果使用十六进制,只要两位数就其 ASCII 的字符全部表示出来。同时为了避免和八进制的混淆起来,所以在 \ 后面要加上英文字母 x 表示十六进制,后面再接两位十六进制的数值。

  • \ 开头并接三位 0-7 的数值,表示 8 进制

  • \x 开头并接两位 0-f 的数值,表示 16进制

因此,当我定义一个字符串的值为 hello + 回车 + world 时,就有了多种方法:

# 第一种方法:8进制
>>> msg = "hello\012world"
>>> print(msg)
hello
world
>>> 

# 第二种方法:16 进制
>>> msg = "hello\x0aworld"
>>> print(msg)
hello
world
>>> 

通常我们很难记得住一个字符的 ASCII 编号,即使真记住了,也要去转换成八进制或者16进制,实在是太难了。

因此对于一些常用并且比较特殊字符,我们习惯用另一种类似别名的方式,比如使用 \n 表示换行,它与 \012\x0a 是等价的。

与此类似的表示法,还有如下这些

于是,要实现 hello + 回车 + world ,就有了第三种方法

# 第三种方法:使用类似别名的方法
>>> msg = "hello\nworld"
>>> print(msg)
hello
world
>>> 

到目前为止,我们掌握了 三种转义的表示法。

已经非常难得了,让我们的脑洞再大一点吧,接下来再介绍两种。

ASCII 码表所能表示字符实在太有限了,想打印一个中文汉字,抱歉,你得借助 Unicode 码。

Unicode 编码由 4 个16进制数值组合而成

>>> print("\u4E2D")

什么?我为什么知道 的 unicode 是 \u4E2D?像下面这样打印就知道啦

# Python 2.7
>>> a = u"中"
>>> a
u'\u4e2d'

由此,要实现 hello + 回车 + world ,就有了第四种方法。

# 第四种方法:使用 unicode ,\u000a 表示换行
>>> print('hello\u000aworld')
hello
world

看到这里,你是不是以为要结束啦?

不,还没有。下面还有一种。

Unicode 编码其实还可以由 8 个32进制数值组合而成,为了以前面的区分开来,这里用 \U 开头。

# 第五种方法:使用 unicode ,\U0000000A 表示换行
>>> print('hello\U0000000Aworld')
hello
world

好啦,目前我们掌握了五种转义的表示法。

总结一下:

  1. \开头并接三位 0-7 的数值(八进制)     --- 可以表示所有ASCII 字符

  2. \x 开头并接两位 0-f 的数值(十六进制)  --- 可以表示所有ASCII 字符

  3. \u 开头并接四位 0-f 的数值(十六进制)  --- 可以表示所有 Unicode 字符

  4. \U 开头并接八位 0-f 的数值(三十二进制))  --- 可以表示所有 Unicode 字符

  5. \ 开头后接除 x、u、U 之外的特定字符     --- 仅可表示部分字符

为什么标题说,转义也可以炫技呢?

试想一下,假如你的同事,在打印日志时,使用这种 unicode 编码,然后你在定位问题的时候使用这个关键词去搜,却发现什么都搜不到?这就扑街了。


虽然这种行为真的很 sb,但在某些人看来也许是非常牛逼的操作呢?


五种转义的表示法到这里就介绍完成,接下来是更多转义相关的内容,也是非常有意思的内容,有兴趣的可以继续往下看。

3. raw 字符串

当一个字符串中具有转义的字符时,我们使用 print 打印后,正常情况下,输出的不是我们原来在字符串中看到的那样子。

那如果我们需要输出 hello\nworld ,不希望 Python 将 \n 转义成 换行符呢?

这种情况下,你可以在定义时将字符串定义成 raw 字符串,只要在字符串前面加个 r 或者 R 即可。

>>> print(r"hello\nworld")
hello\nworld
>>> 
>>> print(R"hello\nworld")
hello\nworld

然而,不是所有时候都可以加 r 的,比如当你的字符串是由某个程序/函数返回给你的,而不是你自己生成的

# 假设这个是外来数据,返回 "hello\nworld"
>>> body = spider()
>>> print(body)
hello
world

这个时候打印它,\n 就是换行打印。

4. 使用 repr

对于上面那种无法使用 r 的情况,可以试一下 repr 来解决这个需求:

>>> body = repr(spider())
>>> print(body)
'hello\nworld'

经过 repr 函数的处理后,为让 print 后的结果,接近字符串本身的样子,它实际上做了两件事

  1. \ 变为了 \\

  2. 在字符串的首尾添加 ' 或者 "

你可以在 Python Shell 下敲入 变量 回车,就可以能看出端倪。

首尾是添加 ' 还是 " ,取决于你原字符串。

>>> body="hello\nworld"
>>> repr(body)
"'hello\\nworld'"
>>> 
>>> 
>>> body='hello\nworld'
>>> repr(body)
"'hello\\nworld'"

5. 使用 string_escape

如果你还在使用 Python 2 ,其实还可以使用另一种方法。

那就是使用 string.encode('string_escape') 的方法,它同样可以达到 repr 的效果

>>> "hello\nworld".encode('string_escape')
'hello\\nworld'
>>> 

6. 查看原生字符串

综上,想查看原生字符串有两种方法:

  1. 如果你在 Python Shell 交互模式下,那么敲击变量回车

  2. 如果不在 Python Shell 交互模式下,可先使用 repr 处理一下,再使用 print 打印

>>> body="hello\nworld"
>>> 
>>> body
'hello\nworld'
>>> 
>>> print(repr(body))
'hello\nworld'
>>> 

7. 恢复转义:转成原字符串

经过 repr 处理过或者 \\ 取消转义过的字符串,有没有办法再回退出去,变成原先的有转义的字符串呢?

答案是:有。

如果你使用 Python 2,可以这样:

>>> body="hello\\nworld"
>>> 
>>> body
'hello\\nworld'
>>> 
>>> body.decode('string_escape')
'hello\nworld'
>>> 

如果你使用 Python 3 ,可以这样:

>>> body="hello\\nworld"
>>> 
>>> body       
'hello\\nworld'
>>> 
>>> bytes(body, "utf-8").decode("unicode_escape")
'hello\nworld'
>>> 

什么?还要区分 Python 2 和 Python 3?太麻烦了吧。

明哥教你用一种可以兼容 Python 2 和 Python 3 的写法。

首先是在 Python 2 中的输出




    
>>> import codecs 
>>> body="hello\\nworld"
>>> 
>>> codecs.decode(body, 'unicode_escape')
u'hello\nworld'
>>>

然后再看看 Python 3 中的输出

>>> import codecs
>>> body="hello\\nworld"
>>> 
>>> codecs.decode(body, 'unicode_escape')
'hello\nworld'
>>> 

可以看到 Pyhton 2 中的输出 有一个 u ,而 Python 3 的输出没有了 u,但无论如何 ,他们都取消了转义。

以上,就是我为大家整理的关于 Python 中转义的全部内容了,整理的过程,不断的发现新知识,帮助到大家的同时,自己也对转义的一些内容有了更深的理解。

也无意间整理出来转义的五种表示法,因此本篇文章就勉强被我纳入了 Python 炫技操作系列。本系列的文章,你可以点下面的链接进行查看。

Python 炫技操作(01):条件语句的七种写法

Python 炫技操作(02):合并字典的七种方法

Python 炫技操作(03):连接列表的八种方法

Python 炫技操作(04):海象运算符的三种方法

Python 炫技操作(05):花式导包的八种方法

Python 炫技操作(06):判断是否包含子串的七种方法

Python 炫技操作(07):模块重载的五种方法

如果本文对你有些许帮助,不如给明哥 来个四连  ~ 比心


文末福利

明哥整理了 21 张 Python 代码速查表,每一张都是国外的大师总结的,非常实用 ~


还有 2 张高清的 PyCharm 快捷键一览图,一张 Windows ,一张 Mac,放在桌面上,需要的时候打开一查,非常方便。。


怎么获取呢?


添加明哥微信,备注 "速查表" 和 "快捷键" 获取


- EOF -


推荐阅读  点击标题可跳转

第一次把 Python 的切片理解得如此透彻

10 个“疯狂”的 Python 项目创意

一行代码让 pandas 的 apply 速度飙到极致!

原来 collections 这么好用!!

献给Python开发人员的25个最佳GitHub代码库!

导入父文件夹中的模块并读取当前文件夹内的资源




得本文对你有帮助?请分享给更多人

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/99305
 
493 次点击