1. 把資料存在記憶體裡,hadoop是存在硬碟
  2. 從hadoop改造而來的
  3. Spark可以獨立作業,不需要加這個加那個的
  4. 支援 python 與 scala

但 hadoop 目前較普及,spark還要努力

yahoo 工程師說 : Spark 可以很快判斷廣告適合那個訪客

spark 是用 logistic regression  (er …. 我尚不懂)

hadoop 運算一次就要讀一次硬碟 (~~~是喔!!?)

參考http://wired.tw/2013/07/11/yahoo_amazon_amplab_spark/index.html

Related posts 相關文章
Apache Spark 比 Hadoop 快,好用!
More...
Intel 所入股 (18%) 的 Cloudera 是一家使用 Apache Hadoop 的公司
More...
新一代開源分散式系統,Hadoop 新成員 Cloudera 的 Impala
More...
hadoop是什麼,big data 新名詞?
More...

作者

留言

spark 有cache方法,可以缓存上个过程的数据,多次调用同样的数据就不用重复计算了。 “分散式檔案系統”应该不对,而是计算框架

撰寫回覆或留言

發佈留言必須填寫的電子郵件地址不會公開。