pd.read_csv报错Error tokenizing data,如何跳过错误的行?

  统计/机器学习 Python I/O    浏览次数:5226        分享
0

我用pandas read_csv读取

data= pd.read_csv('data.txt', sep='\t')

报错如下

ParserError: Error tokenizing data. C error: Expected 6 fields in line 2571, saw 7

就是说第2571行数据有错。因为我数据量比较大,所以想直接跳过这一行,有什么办法可以快速跳过报错的行吗?

 

xiaojr   2020-06-11 20:26



   1个回答 
3

设置error_bad_lines参数为False,可以跳过所有有错误的行

data= pd.read_csv('data.txt', sep='\t', error_bad_lines=False)

不过通常要谨慎,因为如果文件中错误的行很多,你可能需要查看文件类型或者格式是否正确,而不是通过跳过错误的行

SofaSofa数据科学社区DS面试题库 DS面经

sasa   2020-06-14 00:11



  相关讨论

pd.read_csv出现ParserError: Error tokenizing data. C error: Expected 2 fields in line 3, saw 3

pandas读取csv中指定的某些列

将pandas DataFrame保存成本地txt并删去列名

pandas读取文件的前几行

python或者pandas读取excel xlsx文件中指定的一个sheet

pandas读取csv文件遇到UnicodeDecodeError

pandas读取文件夹中所有的csv文件

怎么用pandas直接读取被压缩成zip的csv文件?

pandas dataframe存入csv文件时怎么忽略dataframe中的index?

pandas怎么读入tsv格式的数据

  随便看看

回归问题中R方可以小于0吗?

推荐系统算法里的cold start是什么意思?

如何清空pandas dataframe里的全部数据但是保留列名?

不用洛必达法则证明sin x比上x的极限是1

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别