Impala学习笔记一

tech2022-10-30  113

Impala是由Cloudera公司开发的新型的查询系统。Impala适用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询执行引擎,是一个开源软件,由C++和Java编写的。和hadoop的SQL引擎比较,它提高了高性能和低延迟。相比较Hive查询引擎来说,用户可以更快的使用SQL与HDFS和HBASE进行交互查询。Impala可以读取Hadoop使用的几乎所有的文件格式:Parquet,Avro,RDFile等与Hive相比不同的还有,Impala不是基于MR算法,从而减少了MapReduce的延迟,所以使得Impala查询速度更加的快,比Hive快很多。Impala支持内存中的数据处理,它访问或者分析存储在Hadoop数据节点上的数据,而无需数据移动。Impala为HDFS中的数据提供了更快的访问。Impala使用的是Hive的元数据,ODBC驱动程序和SQL语法。Impala使用的与Hive相同的查询语言,元数据和用户界面。Impala是一个管理,分析存储在Hadoop上的数据的一个工具。Impala 的缺点是不提供任何对序列化和反序列化的支持,且只能读取文本文件,而不能读取二进制文件;每当新的记录或者文件被添加到HDFS中的数据目录时,该表需要被刷新。Hive适用的场景一般是跑批量数据,而Impala是实时交互场景更适用。
最新回复(0)