python随机打乱文本

  统计/机器学习 深度学习 自然语言处理 数据预处理 Python    浏览次数:6957        分享
0

最近在做深度学习  决定拿cnn做做  但是 照网上很多例子来做 有一个疑问 解决不了  就是 一个txt文件里面的行 怎么去打乱

 

anTiamo   2018-04-22 22:23



   3个回答 
3

举个例子,假如我有一个文件a.txt,然后按行来读取。

# 读取a.txt
>>> with open('a.txt') as f:
        content = f.readlines()
>>> content
['Today is good.\n', 'Tomorrow is good.\n', 'Yesterday was bad.\n', 'See you.']
>>>
# 打乱content中的顺序
>>> import random
>>> random.shuffle(content)
>>> content
['Yesterday was bad.\n', 'See you.', 'Today is good.\n', 'Tomorrow is good.\n']


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-04-24 09:29

1

你意思是划分数据集?sklearn中有

from sklearn.model_selection import train_test_split

可以随机划分数据集。


如果不是划分数据集。那么可以使用random随机函数,就可以打乱行数了。多使用python

SofaSofa数据科学社区DS面试题库 DS面经

data2world   2018-04-23 17:22

0
如果你指的是将原本样本顺序打乱,dataframe读进来,shuffle。random(data),具体可百度SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-04-24 09:00



  相关讨论

text CNN的输入训练样本有什么要求?

收集了一批网站的html源码,想对html进行特征提取,或者分类,请问有什么比较好的方法推荐?

请问汉字CNN识别,怎么做标签呢?

不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定

python去掉中文文本中所有的标点符号

求python里得到n-grams的包?

自定义CountVectorizera中默认的英语stop_words

如何对中文部分进行独热处理(one-hot)

机器学习中文数据的训练集的预处理

怎么理解nlp里的good-turing smooth?

  随便看看

sklearn训练classifier的时候报错Unknown label type

python去掉中文文本中所有的标点符号

随机森林(random forest)和支持向量机(SVM)各有什么优劣

为什么自然常数e等于阶乘的倒数的和?

二元分类问题中经常提到的TP,TN,FN,FP都是什么意思?