用sqoop将mysql的数据导入到hive表中

168主编 发表于 2019-3-31 17:37:46

1：先将mysql一张表的数据用sqoop导入到hdfs中准备一张表 https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207135000269-1632119096.pnghttps://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207135008972-1842557537.png 需求将 bbs_product 表中的前100条数据导导出来只要idbrand_id和 name 这3个字段数据存在 hdfs 目录 /user/xuyou/sqoop/imp_bbs_product_sannpy_下
bin/sqoop import \
--connect jdbc:mysql://172.16.71.27:3306/babasport \
--username root \
--password root \
--query 'select id, brand_id,name from bbs_product where $CONDITIONS LIMIT 100' \
--target-dir /user/xuyou/sqoop/imp_bbs_product_sannpy_ \
--delete-target-dir \
--num-mappers 1 \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--fields-terminated-by '\t'

https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207140042519-1472710869.png ps：如果导出的数据库是mysql则可以添加一个属性--direct
1 bin/sqoop import \
2 --connect jdbc:mysql://172.16.71.27:3306/babasport \
3 --username root \
4 --password root \
5 --query 'select id, brand_id,name from bbs_productwhere $CONDITIONS LIMIT 100' \
6 --target-dir /user/xuyou/sqoop/imp_bbs_product_sannpy_ \
7 --delete-target-dir \
8 --num-mappers 1 \
9 --compress \
10 --compression-codec org.apache.hadoop.io.compress.SnappyCodec \
11 --direct \
12 --fields-terminated-by '\t'
加了 direct 属性在导出mysql数据库表中的数据会快一点执行的是mysq自带的导出功能第一次执行所需要的时间 https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207144241816-545359348.png 第二次执行所需要的时间（加了direct属性） https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207144215456-1974009802.png 执行成功https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207140217128-1281711792.png2：启动hive 在hive中创建一张表
1 drop table if exists default.hive_bbs_product_snappy ;
2 create table default.hive_bbs_product_snappy(
3 　id int,
4 　brand_id int,
5 name string
6 )
7 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207140559222-705352359.png 3：将hdfs中的数据导入到hive中1 load data inpath '/user/xuyou/sqoop/imp_bbs_product_sannpy_' into table default.hive_bbs_product_snappy ;
https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207140749409-867188315.png 4：查询hive_bbs_product_snappy 表 1 select * from hive_bbs_product_snappy;
https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207141405144-1029922802.png 此时hdfs 中原数据没有了https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207141533316-1093772589.png 然后进入hive的hdfs存储位置发现 https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207151128613-1930429310.png 注意：sqoop 提供了直接将mysql数据导入 hive的功能底层步骤就是以上步骤创建一个文件touch test.sql 编辑文件vi test.sql
1 use default;
2 drop table if exists default.hive_bbs_product_snappy ;
3 create table default.hive_bbs_product_snappy(
4 id int,
5 brand_id int,
6 name string
7 )
8 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207151642519-904255196.png 在启动hive的时候执行 sql脚本bin/hive -f /opt/cdh-5.3.6/sqoop-1.4.5-cdh5.3.6/test.sql
https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207152404113-1512252595.png https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207152427425-215154409.png 执行sqoop直接导入hive的功能
1 bin/sqoop import \
2 --connect jdbc:mysql://172.16.71.27:3306/babasport \
3 --username root \
4 --password root \
5 --table bbs_product \
6 --fields-terminated-by '\t' \
7 --delete-target-dir \
8 --num-mappers 1 \
9 --hive-import \
10 --hive-database default \
11 --hive-table hive_bbs_product_snappy
看日志输出可以看出在执行map任务之后又执行了load data https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207152902316-1313691027.png 查询 hive 数据https://images2017.cnblogs.com/blog/1144510/201712/1144510-20171207152930316-1157884887.png

页: [1]

168大数据's Archiver

用sqoop将mysql的数据导入到hive表中