- 把資料存在記憶體裡,hadoop是存在硬碟
- 從hadoop改造而來的
- Spark可以獨立作業,不需要加這個加那個的
- 支援 python 與 scala
但 hadoop 目前較普及,spark還要努力
yahoo 工程師說 : Spark 可以很快判斷廣告適合那個訪客
spark 是用 logistic regression (er …. 我尚不懂)
hadoop 運算一次就要讀一次硬碟 (~~~是喔!!?)
參考http://wired.tw/2013/07/11/yahoo_amazon_amplab_spark/index.html
留言
spark 有cache方法,可以缓存上个过程的数据,多次调用同样的数据就不用重复计算了。 “分散式檔案系統”应该不对,而是计算框架
原來如此啊 :)