Linux的wc统计行数
用什么判断换行?
问题如下:
用sqoop在mysql中导出一个表,表中带有富文本格式。
将导出的文本提取前100w行进行处理,head提取前100w行放入文本。
wc看到是100w行数据。
用Hadoop框架进行Map-Reduce处理,结果看到输入文件比100w多1000多行。
换用命令 sort [filename] | uniq | wc -l去重之后统计,结果则不足100w行
用什么判断换行?
问题如下:
用sqoop在mysql中导出一个表,表中带有富文本格式。
将导出的文本提取前100w行进行处理,head提取前100w行放入文本。
wc看到是100w行数据。
用Hadoop框架进行Map-Reduce处理,结果看到输入文件比100w多1000多行。
换用命令 sort [filename] | uniq | wc -l去重之后统计,结果则不足100w行