線上服務(wù)咨詢
Article/文章
記錄成長點滴 分享您我感悟
您當前位置>首頁 > 知識 > 網(wǎng)站建設(shè)
大數(shù)據(jù)計算新貴SPARK在騰訊雅虎優(yōu)酷成功應(yīng)用分析
發(fā)表時間:2019-07-30 16:52:38
文章來源:沈陽軟件開發(fā)
標簽:網(wǎng)站建設(shè) 小程序開發(fā) 小程序制作 微信小程序開發(fā) 公眾號開發(fā) 微信公眾號開發(fā) 網(wǎng)頁設(shè)計 網(wǎng)站優(yōu)化 網(wǎng)站排名 網(wǎng)站設(shè)計 微信小程序設(shè)計 小程序定制 微信小程序定制
瀏覽次數(shù):0
Park是Apache的頂級開源項目。有關(guān)項目主頁,請參閱http://spark.apache.org。迭代計算,交互式查詢計算和批量流量計算等相關(guān)子項目,如Shark,Spark Streaming,MLbase,GraphX,SparkR等。自13年以來,Spark一直舉辦自己的Spark Summit會議,會議地址為http://spark-summit.org。 Amplab Labs已經(jīng)建立了一個獨立的公司Databricks,以支持Spark的開發(fā)。
為了滿足挖掘分析和交互式實時查詢的計算需求,騰訊大數(shù)據(jù)使用Spark平臺支持挖掘分析計算,交互式實時查詢計算以及允許誤差范圍的快速查詢計算。目前,騰訊大數(shù)據(jù)已超過200個單位。 Spark集群并獨立維護Spark和Shark分支。 Spark集群已經(jīng)穩(wěn)定運行了2年。我們積累了大量的案例和運營經(jīng)驗能力。此外,多種服務(wù)的大數(shù)據(jù)查詢和分析應(yīng)用程序已在線且穩(wěn)定。在SQL查詢性能方面,它通常比MapReduce高2倍多。使用內(nèi)存計算和內(nèi)存表功能,性能至少是10倍。在迭代計算和挖掘分析中,強烈建議將小時和日級模型訓練轉(zhuǎn)換為Spark的分鐘級訓練,而簡單的編程接口使得算法實現(xiàn)在時間成本和代碼大小方面遠高于MR。
Spark VS MapReduce
盡管MapReduce適用于大多數(shù)批處理,并且是大數(shù)據(jù)時代企業(yè)大數(shù)據(jù)處理的首選技術(shù),但由于以下限制,它在某些情況下并非最佳:
缺乏對迭代計算和DAG操作的支持。隨機處理多種類別和著陸,MR之間的數(shù)據(jù)需要落入Hdfs文件系統(tǒng)在許多方面,Spark彌補了MapReduce的缺點,MapReduce優(yōu)于MapReduce,更有效的迭代操作和更低的作業(yè)延遲。它的主要優(yōu)點包括:
為支持DAG圖的分布式并行計算提供一組編程框架。減少多次計算之間的開銷。寫入Hdfs的開銷提供了一種Cache機制來支持IO,這需要迭代迭代或多個數(shù)據(jù)共享來減少數(shù)據(jù)讀取。 Overhead使用多線程池模型來減少task匯海的打開,避免在shuffle期間進行不必要的排序操作,并減少磁盤IO操作。廣泛的數(shù)據(jù)集操作類型由于其設(shè)計約束,MapReduce僅適用于離線計算。實時查詢和迭代計算仍然存在很大的不足。隨著業(yè)務(wù)的發(fā)展,業(yè)界對實時查詢和迭代分析的需求更多,僅依靠MapReduce。該框架不再能夠滿足業(yè)務(wù)需求。由于其可擴展性,基于內(nèi)存的計算等,Spark可以直接在Hadoop上以任何格式讀寫數(shù)據(jù),并成為滿足業(yè)務(wù)需求的最佳候選者。
應(yīng)用Spark的成功故事
目前,大數(shù)據(jù)主要用于互聯(lián)網(wǎng)公司的廣告,報告,推薦系統(tǒng)和其他服務(wù)。在廣告業(yè)務(wù)中,需要大數(shù)據(jù)進行應(yīng)用分析,效果分析,定位優(yōu)化等。在推薦系統(tǒng)中,需要大數(shù)據(jù)優(yōu)化相關(guān)排名,個性化推薦和熱點點擊分析。
這些應(yīng)用場景的一般特征是大的計算復雜性和高效率要求。 Spark滿足了這些要求,該項目得到了開源社區(qū)的廣泛關(guān)注和贊譽。在過去兩年中,它已發(fā)展成為大數(shù)據(jù)處理領(lǐng)域最受歡迎的開源項目。
本章將列出在國內(nèi)外應(yīng)用Spark的成功案例。
1.騰訊
Wide Point是最早使用Spark的應(yīng)用程序之一。騰訊大數(shù)據(jù)精確推薦具有Spark快速迭代的優(yōu)勢,圍繞“數(shù)據(jù)+算法+系統(tǒng)”技術(shù)解決方案,實現(xiàn)“數(shù)據(jù)實時采集,算法實時訓練,系統(tǒng)實時預測”全程處理并行高維算法,最后,它成功應(yīng)用于廣泛的pCTR傳送系統(tǒng),支持數(shù)百億的日常請求。
基于日志數(shù)據(jù),快速查詢系統(tǒng)服務(wù)建立在Spark上。 Shark利用其快速查詢和內(nèi)存表來進行日志數(shù)據(jù)的即席查詢。在性能方面,它通常比Hive高2-10倍。如果使用內(nèi)存表的功能,性能將比Hive快100倍。
2.雅虎
雅虎在Audience Expansion中將Spark用于應(yīng)用程序。受眾群體擴展是廣告客戶找到目標用戶的一種方式:首先,廣告客戶提供觀看廣告和購買產(chǎn)品的樣本客戶,并學習如何找到更多潛在用戶并定位他們。雅虎使用的算法是邏輯回歸。同時,由于某些SQL工作負載需要更高的服務(wù)質(zhì)量,因此添加了專門用于Shark的大型內(nèi)存集群來替換商業(yè)BI/OLAP工具,進行報表/儀表板和交互式/即席查詢,同時與桌面BI工具對接。目前在雅虎部署的Spark集群有112個節(jié)點和9.2TB的內(nèi)存。
3.淘寶
阿里搜索和廣告業(yè)務(wù),最初使用Mahout或自編MR來解決復雜的機器學習,導致效率低下且代碼不易保護。淘寶技術(shù)團隊使用Spark來解決具有高計算復雜度的多次迭代和算法的機器學習算法。將Spark應(yīng)用于淘寶的推薦相關(guān)算法,它也解決了Graphx的許多生產(chǎn)問題,包括以下計算場景:基于度分布的中心節(jié)點發(fā)現(xiàn),基于最大連通圖的社區(qū)發(fā)現(xiàn),基于三角計數(shù)的關(guān)系測量,基于用戶隨機游走的屬性傳播等。
4.優(yōu)酷土豆
優(yōu)酷在使用Hadoop集群時遇到的突出問題包括:首先是BI,分析師需要等待很長時間才能在提交任務(wù)后獲得結(jié)果;二是大數(shù)據(jù)的計算,例如在進行一些模擬廣告時,計算量非常大,效率要求也比較高。最后,機器學習和圖形計算的迭代操作也需要大量資源并且非常慢。
最后,這些應(yīng)用場景不適合在MapReduce中處理。相比之下,發(fā)現(xiàn)Spark性能比MapReduce好得多。首先,交互式查詢響應(yīng)速度快,性能比Hadoop高幾倍;模擬廣告投放計算效率高,延遲?。ㄅchadoop相比,順序減少至少一個數(shù)量級);機器學習和圖形計算等迭代計算大大減少了網(wǎng)絡(luò)傳輸和數(shù)據(jù)。登陸等,大大提高了計算性能。目前,Spark廣泛使用了優(yōu)酷土豆的視頻推薦(圖形計算)和廣告業(yè)務(wù)。
網(wǎng)站建設(shè),小程序開發(fā),小程序制作,微信小程序開發(fā),公眾號開發(fā),微信公眾號開發(fā),網(wǎng)頁設(shè)計,網(wǎng)站優(yōu)化,網(wǎng)站排名,網(wǎng)站設(shè)計,微信小程序設(shè)計,小程序定制,微信小程序定制