python去掉中文文本中所有的标点符号-SofaSofa

我有一段文本

“ 文本聚类：使用聚类方法，对词汇，片段，段落或文件进行分组和归类。”

去除标点符号之后的效果是

“ 文本聚类使用聚类方法对词汇片段段落或文件进行分组和归类”

用python如何实现这样的效果？谢谢

剪叔 2017-11-21 09:43

试试下面这个

import re
print(re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）：]+".decode("utf8"), "".decode("utf8"), s.decode("utf8")))

染盘 2017-11-27 10:37

可以直接用正则表达式

import re

s = ' 文本聚类：使用聚类方法，对词汇，片段，段落或文件进行分组和归类。'
print(re.sub('\W', '', s))

双枪伽利略 2017-11-23 14:53

谢谢您的回复，这个\W是什么意思？根据您的代码，我最后print出来的是个空字符串 - 剪叔 2017-11-25 14:55

可以用python的正则表达

Lydia 2017-11-23 14:25

python去掉中文文本中所有的标点符号