【创新项目探索】大数据服务omnidata-hive-connector介绍

omnidata-hive-connector介绍

omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务，从而实现近数据计算，减少网络带宽，提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。

OmniData架构

OmniData是算子下推的总称。OmniData主要由以下四个部分组成：
1. OmniData Client属于开源的部分，为不同的引擎提供相应的插件。对于Hive引擎，omnidata-hive-connector作为OmniData Client，并通过HAF注解和编译插件能力，实现自动下推任务到存储节点的OmniData Server中。
2. Haf Host为lib库，部署在计算节点，对外提供任务卸载的能力，把任务下推到Haf Offload。
3. Haf Offload为lib库，部署在存储节点提供任务执行的能力，用来执行OmniData Server的作业。
4. OmniData Server提供算子下推的执行能力，接收Haf Host下推下来的任务。

omnidata-hive-connector功能

1. 实现将Hive的Filter、Aggregation和Limit算子下推到存储节点进行计算，提前将数据过滤，降低网络传输数据量，提升性能。

2. 实现插件化的方式注册给Hive，以松耦合的方式实现算子的下推，可通过特性开关激活或使能。

3. 实现HDFS/Ceph文件系统的下推。

4. 实现Orc/Parquet文件存储格式的下推。

5. 实现Hive内置UDF（cast、instr、length、lower、replace、substr和upper）的下推。

omnidata-hive-connector应用场景

在大数据组件Hive典型硬件配置的存算分离场景下，分别运行标准测试用例TPC-H和omnidata-hive-connector。

可以看出运行omnidata-hive-connector后，10条SQL性能平均提升40%以上。

omnidata-hive-connector主要优化方法

1. 基于数据选择率，做到动态的下推。

omnidata-hive-connector通过Hive统计信息计算数据选择率（选择率越低，过滤的数据量越多），通过参数设置下推的选择率阈值，omnidata-hive-connector就能够动态地将选择率低于阈值的算子推到存储节点上执行，实现存储节点在本地读取数据进行计算，再将计算过滤之后的数据集通过网络返回到计算节点，提升网络传输效率，优化性能。除了数据选择率，还会根据算子是否支持，剩余资源是否足够等条件进行判断。