国产一区二区精品-国产一区二区精品久-国产一区二区精品久久-国产一区二区精品久久91-免费毛片播放-免费毛片基地

<span id="gk7k9"></span>

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發

HTML5

物聯網

云計算

Python

軟件測試

網絡安全

大數據

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區塊鏈

產品經理

商業插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數據視頻教程物聯網視頻教程 Unity視頻教程網絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業內訓高校合作學科共建
就業服務
就業服務雙選會上門招聘人才定制促就業行動
認證考試
PMP培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯系我們

當前位置：首頁 > 應聘面試 > 大數據面試題 > 批次累加

批次累加

來源：千鋒教育

發布人：wjy

時間： 2022-09-02 15:35:53 1662104153

UpdataStateBykey updataStateBykey是特殊的reduceByKey，相當于oldValue+reduceByKey(newValue1,newValue2)，通過傳入一個updateFunc來實現批次間數據累加的操作。

實現它必須設置checkPoint路徑，updataStateBykey會自動將每次計算的結果持久化到磁盤，批次間的數據則是緩存在內存中。

缺點：大量占用內存，大量產生小文件 MapwithState mapwithState是spark1.6新增的累加操作，目前還在測試中，它的原理網上查不到，只知道是updataStateBykey的升級版，效率提升10倍。

缺點：資料不全，社區很小不建議使用狀態流累加操作，建議用窗口+第三方存儲(redis)來達到同樣的效果。

Spark Streaming中的updateStateByKey和mapWithState的區別和使用。

UpdateStateByKey：統計全局的key的狀態，但是就算沒有數據輸入，他也會在每一個批次的時候返回之前的key的狀態。

這樣的缺點就是，如果數據量太大的話，而且我們需要checkpoint數據，這樣會占用較大的存儲。

如果要使用updateStateByKey,就需要設置一個checkpoint目錄（updateStateByKey自己是無法保存key的狀態的），開啟checkpoint機制。因為key的state是在內存維護的，如果宕機，則重啟之后之前維護的狀態就沒有了，所以要長期保存它的話需要啟用checkpoint，以便恢復數據。

MapWithState：也是用于全局統計key的狀態，但是它如果沒有數據輸入，便不會返回之前的key的狀態，有一點增量的感覺。

這樣做的好處是，我們可以只關心那些已經發生變化的key，對于沒有數據輸入，則不會返回那些沒有變化的key的數據。

這樣即使數據量很大，checkpoint也不會像updateStateByKey那樣，占用太多的存儲。

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

大數據面試題：4個人過橋，最短需要多長時間？

下一篇

SparkStreaming一個批次有多久？一個批次有多少條數據？

免費打包獲取

相關推薦HOT

內部表和外部表（重點）

hive外部表是使用external關鍵字并指定一個hdfs目錄創建的表。hive內部表在創建時會在對應hive目錄下創建相應的文件夾，外部表則以指定文件夾為...詳情>>

2022-09-02 17:21:00

Flink checkpoint和savepoint區別

Checkpoint是為runtime準備的，Savepoint 是為用戶準備的。Checkpoint 機制的目標在于保證Flink作業意外崩潰重啟不影響exactly once 準確性，通...詳情>>

2022-09-02 16:59:22

State：指一個具體的Task/Operator的狀態。State可以被記錄，在失敗的情況下數據還可以恢復，Flink中有兩種基本類型的State： Keyed State， Op...詳情>>

2022-09-02 16:59:19

Flink反壓機制？

Flink 內部是基于producer-consumer模型來進行消息傳遞的，Flink的反壓設計也是基于這個模型。Flink 使用了高效有界的分布式阻塞隊列，就像 Jav...詳情>>

2022-09-02 16:59:16

大數據面數據：Flink Allowed Lateness & Side OutPut？

雖說水位線(Watermark)表明早于它的事件不應該再出現，但是接收到水位線以前的的消息是不可避免的，這就是所謂的遲到事件。實際上遲到事件是亂...詳情>>

2022-09-02 16:59:00

熱門推薦

大數據kafka常見面試題——如何搭建kafka？

大數據kafka常見面試題——kafka中如何避免重復消費

大數據面試題之多種方法創建dataframe

大數據Hadoop面試題——Hadoop干什么用的？

大數據行業2年工作經驗的面試題有哪些？

大數據kafka面試題——kafka和flume的區別是什么？

大數據部署Kafka面試題解析：實時同步Kafka

大數據部署Kafka面試題：Kafka的部署與管理

大數據面試中關于kafka原理的面試題

揭秘大數據面試必考面試題：快速掌握關鍵知識！

技術干貨更多>>

如何實現服務器負載均衡

2023-12-06

linux有哪些優勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區別

2023-12-06

如何搭建基于容器的深度學習環境

2023-12-06

職場就業更多>>

網絡安全軟件開發的就業前景

2023-12-09

學會python工程師后的就業前景

2023-12-09

學會java工程師后的就業前景

2023-12-09

云計算技術就業前景以及發展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業前景
查看就業前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業服務
畢業推薦就業
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

<fieldset id="u7qwq"></fieldset>

<bdo id="u7qwq"><option id="u7qwq"></option></bdo>

<tfoot id="u7qwq"><pre id="u7qwq"></pre></tfoot><mark id="u7qwq"><acronym id="u7qwq"><fieldset id="u7qwq"></fieldset></acronym></mark>

<ol id="u7qwq"><optgroup id="u7qwq"></optgroup></ol>