数据格式都是 gzip 压缩,都没法切分,只能一个线程读一个文件,很多时候小文件早就处理完了,但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable
1
alya 2020-03-11 15:13:13 +08:00
换 snappy
|
2
kex0916 2020-03-12 09:33:25 +08:00
可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
|