Spark RDD
Spark RDD(英語:Resilient Distributed Dataset,彈性分散式資料集)是一種資料儲存集合。只能由它支援的資料來源或是由其他RDD經過一定的轉換(Transformation)來產生。在RDD上可以執行的操作有兩種轉換(Transformation)和行動(Action),每個 RDD 都記錄了自己是如何由持久化儲存中的源資料計算得出的,即其血統(Lineage)。
開發者 | 加州大學柏克萊分校AMPLab, Databricks |
---|---|
程式語言 | Scala |
作業系統 | 跨平台 |
網站 | spark |
轉換
- map(func):返回一個新的分散式資料集,由每個原元素經過func函式處理後的新元素組成
- filter(func):返回一個新的資料集,由經過func函式處理後返回值為true的原元素組成
- flatMap(func):類似於map,但是每一個輸入元素,會被對映為0個或多個輸出元素,因此,func函式的返回值是一個seq,而不是單一元素
行動
- reduce(func):通過函式func聚集資料集中的所有元素,這個函式必須是關聯性的,確保可以被正確的並行執行
- collect():在driver的程式中,以陣列的形式,返回資料集的所有元素,這通常會在使用filter或者其它操作後,返回一個足夠小的資料子集再使用
依賴
- 寬依賴:父RDD中的分片可能被子 RDD 中的多個分片所依賴
- 窄依賴:父RDD的每個分片至多被子 RDD 中的一個分片所依賴