Sqoop多map条件查询导入hdfs.md

多map条件查询导入hdfs

1
2
3
4
5
6
7
8
9
10
sqoop import \
--connect 数据库连接字符串 \
--username 数据库用户名 \
--password 数据库密码 \
--target-dir hdfs位置 \
--delete-target-dir \ # 这个就是把目录删了,不然mapreduce会执行失败
--fields-terminated-by "\t" \ # 使用什么分隔符
--num-mappers 3 \
--split-by 切分数依据 \
--query ' SQL语句 and $CONDITIONS '

–num-mappers 3这个是总共的Map数,Yarn会进行资源调度,看每台机的承受能力

$CONDITIONS使用 $CONDITIONS 的好处是,它允许 Sqoop 在执行导入时动态地处理这些分片相关的条件,而无需你在查询中硬编码这些逻辑。这样,你可以专注于编写查询本身,而将分片和并发处理的细节留给 Sqoop 管理