Impala学习笔记一

tech2022-10-30 244

Impala是由Cloudera公司开发的新型的查询系统。Impala适用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询执行引擎，是一个开源软件，由C++和Java编写的。和hadoop的SQL引擎比较，它提高了高性能和低延迟。相比较Hive查询引擎来说，用户可以更快的使用SQL与HDFS和HBASE进行交互查询。Impala可以读取Hadoop使用的几乎所有的文件格式：Parquet，Avro，RDFile等与Hive相比不同的还有，Impala不是基于MR算法，从而减少了MapReduce的延迟，所以使得Impala查询速度更加的快，比Hive快很多。Impala支持内存中的数据处理，它访问或者分析存储在Hadoop数据节点上的数据，而无需数据移动。Impala为HDFS中的数据提供了更快的访问。Impala使用的是Hive的元数据，ODBC驱动程序和SQL语法。Impala使用的与Hive相同的查询语言，元数据和用户界面。Impala是一个管理，分析存储在Hadoop上的数据的一个工具。Impala 的缺点是不提供任何对序列化和反序列化的支持，且只能读取文本文件，而不能读取二进制文件；每当新的记录或者文件被添加到HDFS中的数据目录时，该表需要被刷新。Hive适用的场景一般是跑批量数据，而Impala是实时交互场景更适用。

最新回复(0)