国产一区二区精品-国产一区二区精品久-国产一区二区精品久久-国产一区二区精品久久91-免费毛片播放-免费毛片基地

<mark id="3hkq2"><label id="3hkq2"></label></mark>

<fieldset id="3hkq2"></fieldset>

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發

HTML5

物聯網

云計算

Python

軟件測試

網絡安全

大數據

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區塊鏈

產品經理

商業插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數據視頻教程物聯網視頻教程 Unity視頻教程網絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業內訓高校合作學科共建
就業服務
就業服務雙選會上門招聘人才定制促就業行動
認證考試
PMP培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯系我們

當前位置：首頁 > 應聘面試 > 大數據面試題 > Spark讀取MySQL大表超時問題

Spark讀取MySQL大表超時問題

來源：千鋒教育

發布人：syq

時間： 2022-08-11 16:45:06 1660207506

　　場景為Spark讀取一張MySQL表(innodb引擎)，數據量8000萬，無自增ID，業務中一個字段為(訂單ID)主鍵。要將該表數據讀取后寫入到HDFS。下面將詳細介紹Spark讀取MySQL大表超時問題。

　　# 直接使用Spark提供的JDBC分區數據選項 partitionColumn，lowerBound，upperBound

　　* 不可行，partitionColumn要求是數值類型，這個表中并沒有雖有一些數值類型字段，但是并不合適，因為字段值非遞增，不容易設定分區的上下界限，這就很容易造成數據傾斜。

　　# 采用 predicates 方式，定義一個劃分數據的數組規則

　　* 使用limit 做分頁將數據劃分為60個分區，同時優化limit查詢，用主鍵做子查詢的方式優化。雖然經過了查詢優化，但是運行時，依然遇到讀取超時錯誤。問題原因是JDBC socketTimeout 設置了3分鐘，但是某些task讀取mysql時，并沒有在3分鐘內返回數據，是一個慢查詢。在這個場景下解決方式就是調大socketTimeout值就可以了，調成了10分鐘。

　　* 這里要注意的是一定要對limit做優化，使用子查詢或者join方式，根據主鍵查詢做分頁。例如下

　　`select * from table_name where id >= (select id from table_name order by id limit 100000, 1) limit 20000`.

　　* 如果你直接使用 `select * from table_name limit 100000,20000 `的方式。mysql會查詢出來 120000條數據，然后再扔掉100000條數據，這是完全沒有意義的，會有大量無意義IO操作，影響性能。

　　更多關于大數據培訓的問題，歡迎咨詢千鋒教育在線名師，如果想要了解我們的師資、課程、項目實操的話可以點擊咨詢課程顧問，獲取試聽資格來試聽我們的課程，在線零距離接觸千鋒教育大咖名師，讓你輕松從入門到精通。

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

大數據面試題：寫讀流程、數據flush、數據合并

下一篇

Spark Structured Streaming 優勢

免費打包獲取

相關推薦HOT

內部表和外部表（重點）

hive外部表是使用external關鍵字并指定一個hdfs目錄創建的表。hive內部表在創建時會在對應hive目錄下創建相應的文件夾，外部表則以指定文件夾為...詳情>>

2022-09-02 17:21:00

Flink checkpoint和savepoint區別

Checkpoint是為runtime準備的，Savepoint 是為用戶準備的。Checkpoint 機制的目標在于保證Flink作業意外崩潰重啟不影響exactly once 準確性，通...詳情>>

2022-09-02 16:59:22

State：指一個具體的Task/Operator的狀態。State可以被記錄，在失敗的情況下數據還可以恢復，Flink中有兩種基本類型的State： Keyed State， Op...詳情>>

2022-09-02 16:59:19

Flink反壓機制？

Flink 內部是基于producer-consumer模型來進行消息傳遞的，Flink的反壓設計也是基于這個模型。Flink 使用了高效有界的分布式阻塞隊列，就像 Jav...詳情>>

2022-09-02 16:59:16

大數據面數據：Flink Allowed Lateness & Side OutPut？

雖說水位線(Watermark)表明早于它的事件不應該再出現，但是接收到水位線以前的的消息是不可避免的，這就是所謂的遲到事件。實際上遲到事件是亂...詳情>>

2022-09-02 16:59:00

熱門推薦

大數據kafka常見面試題——如何搭建kafka？

大數據kafka常見面試題——kafka中如何避免重復消費

大數據面試題之多種方法創建dataframe

大數據Hadoop面試題——Hadoop干什么用的？

大數據行業2年工作經驗的面試題有哪些？

大數據kafka面試題——kafka和flume的區別是什么？

大數據部署Kafka面試題解析：實時同步Kafka

大數據部署Kafka面試題：Kafka的部署與管理

大數據面試中關于kafka原理的面試題

揭秘大數據面試必考面試題：快速掌握關鍵知識！

技術干貨更多>>

如何實現服務器負載均衡

2023-12-06

linux有哪些優勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區別

2023-12-06

如何搭建基于容器的深度學習環境

2023-12-06

職場就業更多>>

網絡安全軟件開發的就業前景

2023-12-09

學會python工程師后的就業前景

2023-12-09

學會java工程師后的就業前景

2023-12-09

云計算技術就業前景以及發展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業前景
查看就業前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業服務
畢業推薦就業
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站