Apachespark，Apache_汽車知識網

7月25日，阿里云飛天大數據平臺亮相阿里云峰會上海站，擁有中國唯一自主研發的計算引擎，是全球集群規模最大的計算平臺，最大可擴展至10萬臺計算集群，支撐海量數據存儲和計算。在民生服務領域，飛天大數據平臺已經“最多跑一次”、城市大腦等場景中，協助政府優化服務模式，實現更智能便捷的服務能力，保障信息安全。

Apachespark

數據顯示，目前飛天大數據平臺可擴展至10萬臺計算集群，集群規模全球第一。單日數據處理量從2015年100PB、2016年180PB、2017年320PB，到2018年超過600PB，Apache，僅用三年時間提升5倍。，

在浙江，飛天大數據平臺支撐下，“最多跑一次”打通與老百姓辦事最密切相關的100個事項70多億條數據，老百姓甚至有可能一次都不跑。在杭州，城市大腦實時指揮1300個紅綠燈路口、200多名交警，spark，從2016年到2018年，杭州從全國最擁堵城市排行榜上下跌52名。

原來需要跑5個窗口、耗時2天才能拿到的新生兒出生證，現在只需在手機上動動手指，填9項信息，一個出生證就辦好了；原來看一次病排隊付幾次費，現在可以看完回家再付錢……這樣的場景正在越來越多的城市變為現實，背后有飛天大數據平臺的支撐。

n.火花;火星;電火花;(指品質或感情)一星，絲毫，一丁點。averysmallburningpieceofmaterialthatisproducedbysththatisburningorbyhittingtwohardsubstancestogether。Asparkisatinybrightpieceofburningmaterialthatfliesupfromsomethingtha。

據了解，該平臺的研發源自阿里巴巴的自身實踐。十年前，新興互聯網業態蓬勃發展，中小企業在阿里巴巴電商平臺上爆發式增長，商家第一次具備直接觸達消費者的普惠渠道，激發龐大的消費者需求，海量數據擊垮傳統IT架構。在此背景下，阿里巴巴開始探索全新的技術來支撐爆發式增長的數據存儲和計算需求。

大部分企業的慣例是直接使用國際開源的數據計算框架Hadoop。在阿里巴巴內部，也曾出現過激烈的爭論，究竟是直接使用開源Hadoop，還是從每一行代碼寫起，自主研發一個大數據平臺。

Apache Spark是基于內存的分布式數據分析平臺，旨在解決快速批處理分析任務、迭代機器學習任務、交互查詢以及圖處理任務。其最主要的特點在于，Spark使用了RDD或者說彈性分布式數據集。 RDD非常適合用于計算的流水線式并行操作。RDD。

當時，電子商務蓬勃發展，人類社會從未有過如此規模的商業交易在一個互聯網平臺上進行，如果用Hadoop搭建的大數據平臺，必將在不久的未來再次遇到挑戰，更別提為外部企業提供服務，成為普惠的IT基礎設施。

Apachespark

也正是因為這一堅持，才有了今天中國唯一自主研發的飛天大數據平臺。過去十年，飛天大數據平臺打破了多個記錄：2013年，突破了單集群內5000臺服務器同時計算的局限，如今單集群已超過1萬臺的規模；2015年，打破計算界奧運會SortBenchmark的4個世界紀錄，用不到7分鐘便完成了100TB的數據排序，刷新了ApacheSpark 23.4分鐘的紀錄。

Apache Fink是一種大規模的數據處理工具，它以大數據量的低數據延遲和高容錯性快速處理大數據。它的定義特征是它能夠實時處理流數據。Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎，是一種與 Hadoop 相似的開源。