我有一段文本
“ 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。”
去除标点符号之后的效果是
“ 文本聚类使用聚类方法对词汇片段段落或文件进行分组和归类”
用python如何实现这样的效果?谢谢
3个回答
试试下面这个
import re
print(re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():]+".decode("utf8"), "".decode("utf8"), s.decode("utf8")))
可以直接用正则表达式
import re
s = ' 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。'
print(re.sub('\W', '', s))
SofaSofa数据科学社区DS面试题库 DS面经
谢谢您的回复,这个\W是什么意思?根据您的代码,我最后print出来的是个空字符串
-
剪叔
2017-11-25 14:55