最近在看 spark ,写了一些东西,但对于 spark 这套东西了解的还是太少,求各位 dalao 指导
现在的情况是这样的:
我有 40G 左右的文本文件需要处理并分析:
我现在用的鲁莽的方法:
sc.wholeTextFiles--读完
map--让这些处理的中间结果存到 mongodb 中
reduce--再从 mongodb 中读东西进行分析
因为中间结果是很多数组有些复杂,所以我才想用 mongodb 存
我的疑问是这样的:
听说从本地直接读文件效率很低,要把这些文件先 put 到 hdfs 上吗?
spark 似乎提供了类似 mongodb 的可用的数据库?用它这个更好?
现在的情况是这样的:
我有 40G 左右的文本文件需要处理并分析:
我现在用的鲁莽的方法:
sc.wholeTextFiles--读完
map--让这些处理的中间结果存到 mongodb 中
reduce--再从 mongodb 中读东西进行分析
因为中间结果是很多数组有些复杂,所以我才想用 mongodb 存
我的疑问是这样的:
听说从本地直接读文件效率很低,要把这些文件先 put 到 hdfs 上吗?
spark 似乎提供了类似 mongodb 的可用的数据库?用它这个更好?