hive sql—collect_list—内部元素排序

需求：每个uid，有很多对应的dates(时间)，每个dates 都对应一个分数(score)，我们需要按uid分组，将score 按dates升序排序，将dates 和score放在一个列表。

数据集如下：

原始数据集，如果直接使用collect_list，结果如下(日期没有排序)：

使用以下的方法能解决问题(也有其他方法比较麻烦，这里不赘述)：

详细sql：

select 
    uid,
    collect_list(dates) as dates_list,
    collect_list(score) as score_list
from 
(
    select 
        *
    from 
        base_data
    distribute by uid sort by uid, dates asc
)t0
group by uid
;

sql详解：

这段 Hive SQL 语句中，使用了 distribute by 和 sort by 语句进行分布和排序，然后使用 collect_list 函数对每个分组中的元素进行收集，最后按照 uid 进行分组，返回每个 uid 对应的日期和得分数组。

具体来说，这个语句中的子查询使用 distribute by uid sort by uid, dates asc 语句将数据按照 uid 和 dates 字段进行分布和排序，然后返回排序后的结果。在外层查询中，使用 collect_list 函数分别将每个 uid 分组中的 dates 和 score 字段收集到一个数组中。最后，使用 group by uid 对结果进行分组，返回每个 uid 对应的日期和得分数组。

需要注意的是，这里使用了 asc 关键字将 dates 字段按照升序排序。如果不指定排序方式，默认是升序排序。如果需要按照降序排序，可以使用 desc 关键字，例如 sort by uid, dates desc。

另外，需要注意的是，如果某个 uid 对应的记录较多，导致对应的数组很大，可能会占用较多的内存。因此，在使用 collect_list 函数时需要注意控制数组大小。可以使用 limit 子句限制每个数组的大小，例如 collect_list(dates) as dates_list limit 100，表示每个数组最多包含前100条记录。

文章来源地址https://uudwc.com/A/ABaXB