Sqoop【常用命令】

tech2024-11-03  22

连接数据库相关命令

--connect 关系型数据库连接 --username 关系型数据库连接用户名 --password 关系型数据库连接密码 --table 关系型数据库表 --query 自定义sql查询,sql结束要加$CONDITIONS --direct 快速模式,使用mysql自带的mysqldump导出数据 --driver 手动指定要使用的JDBC驱动程序类

hdfs相关命令

--export-dir 从hdfs导出时的源目录 --target-dir 导入到hdfs时的目标目录 --delete-target-dir 如果hdfs的目录已经存在,则先删除 --split-by 如果-m参数不为1,一定要加上该参数而且最好是数值类型,否则会报错 -m 指定map的数量,也是生成文件的数量 --hadoop-mapred-home 覆写$ HADOOP_MAPRED_HOME --append 将数据追加到HDFS中的现有数据集 --as-avrodatafile 将数据导入Avro数据文件 --as-sequencefile 将数据导入到SequenceFiles --as-textfile 以纯文本格式导入数据(默认) --where 导入期间使用的WHERE子句

hive相关命令

--hive-overwrite 覆盖之前的分区写入数据 --hive-drop-import-delims 导入hive的数据某列中如果有换行符或者回车键可以删除 --hive-table hive的表 --hive-database hive的数据库 --hive-partition-key hive的分区字段 --hive-partition-value hive的分区值 --hive-home <dir> 覆写 $HIVE_HOME --create-hive-table 如果设置,则目标配置单元将使作业失败 --hive-drop-import-delims 导入到Hive时,从字符串字段中 删除\ n,\ r和\ 01。 --hive-partition-key 要分区的配置单元字段的名称被分片。

增量进口

--check-column 指定在确定要导入的行时要检查的列。(该列的类型不应为CHAR / NCHAR / VARCHAR / VARNCHAR / LONGVARCHAR / LONGNVARCHAR) --incremental 指定Sqoop如何确定哪些行是新的。 --last-value 指定上一次导入中检查列的最大值。

输出行格式参数

--fields-terminated-by 设置字段分隔符。 --lines-terminated-by 设置行尾字符

输入解析参数

--input-fields-terminated-by <char> 设置输入字段分隔符 --input-lines-terminated-by <char> 设置输入的行尾字符

hbase参数

--column-family <family> 设置导入的目标列族 --hbase-create-table 如果指定,请创建缺少的HBase表 --hbase-row-key <col> 指定将哪个输入列用作行键 --hbase-table <table-name> 指定要用作目标而不是HDFS的HBase表 --hbase-bulkload 启用批量加载
最新回复(0)