在互联网上发现了这一点,它似乎工作得很好。
#!/usr/bin/env python # -*- encoding: utf8 -*- import re sample = u'I am from ç¾å½ãWe should be friends. æåã' for n in re.findall(ur'[\u4e00-\u9fff]+',sample): print n
输出:
ç¾å½ æå