python去掉中文文本中所有的标点符号

  统计/机器学习 自然语言处理 数据预处理 Python    浏览次数:15998        分享
0

我有一段文本

“ 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。”

去除标点符号之后的效果是

“ 文本聚类使用聚类方法对词汇片段段落或文件进行分组和归类”


用python如何实现这样的效果?谢谢



 

剪叔   2017-11-21 09:43



   3个回答 
8

试试下面这个

import re
print(re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():]+".decode("utf8"), "".decode("utf8"), s.decode("utf8")))


SofaSofa数据科学社区DS面试题库 DS面经

染盘   2017-11-27 10:37

2

可以直接用正则表达式

import re

s = ' 文本聚类:使用聚类方法,对词汇,片段,段落或文件进行分组和归类。'
print(re.sub('\W', '', s))
SofaSofa数据科学社区DS面试题库 DS面经

双枪伽利略   2017-11-23 14:53

谢谢您的回复,这个\W是什么意思?根据您的代码,我最后print出来的是个空字符串 - 剪叔   2017-11-25 14:55
1

可以用python的正则表达


SofaSofa数据科学社区DS面试题库 DS面经

Lydia   2017-11-23 14:25



  相关讨论

自定义CountVectorizera中默认的英语stop_words

求python里得到n-grams的包?

如何对中文部分进行独热处理(one-hot)

请问NLP中这种编码方式有没有什么术语?

机器学习中文数据的训练集的预处理

怎么理解nlp里的good-turing smooth?

python里实现词云的package

如何用python统计一个txt文本的行数

wordcloud安装报错error: Microsoft Visual C++ 14.0 is required

bert里cls和sep分别是什么意思?

  随便看看

线性可分是什么意思?

sklearn中的predict_proba方法的返回值的意义

怎么计算(估计)ROC AUC的置信区间?

sklearn可以用gpu加速吗?

主成分分析法(PCA)算是黑盒算法吗?