Sqoop安裝部署比較簡單,讀者可以通過以下步驟來輕松部署Sqoop工具。
1.基礎軟件包準備
官方網站上發行的Sqoop版本分為Sqoop 1和Sqoop 2,這兩個是完全不同的版本,不兼容。
提示:Sqoop 2并不是Sqoop 1的升級版,它們底層架構不同,互不兼容。Sqoop 2的架構稍復雜,配置部署比較煩瑣,這里推薦使用Sqoop 1來快速進行實戰演練。
2.部署
(1)將下載好的軟件包解壓到指定位置。操作命令如下:
(2)軟件包解壓完成后,可以進行Sqoop環境配置。操作命令如下:
在完成環境變量配置后,在終端輸入以下命令時當前配置的環境變量立即生效。操作命令如下:
(3)修改Sqoop1腳本。
在sqoop-env.sh腳本文件中,修改環境變量路徑。變更內容如下:
(4)加載驅動包。在將關系型數據庫(RDBMS)的數據導入到Hadoop的分布式文件系統(HDFS)時,需要加載數據庫驅動包。
這里以MySQL數據庫為例。在MySQL官方網站下載MySQL驅動包(mysql-connector-java-5.1.32-bin.jar),并將下載好的JAR文件復制一份到Sqoop1的lib文件夾下。這樣在執行Sqoop1腳本將MySQL數據庫中的數據導入到Hadoop的分布式文件系統(HDFS)中時,就不會出現找不到MySQL驅動或者MySQL驅動不可用的異常。
提示:選擇和MySQL數據庫版本相對應的驅動進行下載。
3.Sqoop 1的命令參數
使用Sqoop1腳本命令進行數據導入和導出時,涉及import和export命令。以MySQL數據庫為例,表1和表2分別為import和export命令的各個參數。
表1 Sqoop 1版本的import命令
表2 Sqoop 1版本的export命令