在数据分析和处理的过程中,尤其是在使用 sql 进行查询时,排名函数(ranking functions)是一个非常重要的工具。apache hive 和其他数据库系统都提供了一些排名函数,常见的包括 row_number()、rank() 和 dense_rank()。虽然这三个函数都可以用于为结果集中的行分配一个排名,但它们的工作原理和返回结果却各不相同。本文将深入探讨这三个函数的区别、使用场景以及实例演示。
row_number()、rank() 和 dense_rank()是排名函数,也叫分组排序函数。即可以对查询结果集进行分组后进行排序,对结果集的每一行分配一个编号。例如:对考试成绩按科目进行分组,然后按分数排序,获取前5名。
row_number()、rank() 和 dense_rank()这三个函数在mysql8.0、hive、oracle都是支持的
一、函数定义
1.1、row_number()
row_number() 函数用于为结果集中的每一行分配一个唯一的序号
。无论是否存在重复值,row_number() 返回的序号都是连续的。这个函数常用于需要唯一行号的场景。
基本语法:
row_number() over (partition by column1 order by column2)
- partition by:指定如何将结果集分组。
- order by:指定每个分组内的排序规则。
1.2、rank()
rank() 函数与 row_number() 类似,也用于对结果集中的行进行排名,但在处理重复值时表现不同。rank() 会为相同的值分配相同的排名,并在随后排名中跳过相应的名次
。
基本语法:
rank() over (partition by column1 order by column2)
1.3、dense_rank()
dense_rank() 函数也是用于排名的,其与 rank() 的主要区别在于处理重复值时的行为。dense_rank() 为相同的值分配相同的排名,但不会跳过名次
。
基本语法:
dense_rank() over (partition by column1 order by column2)
1.4、row_number()、rank() 和 dense_rank() 的区别
- row_number():为每一行分配一个唯一的行号。即使有重复值,返回的行号也是唯一且连续的。
- rank():为相同的值分配相同的排名,但在后续排名中会跳过相应的名次。例如,如果有两个并列第一的记录,则下一个记录的排名为第三。
- dense_rank():与 rank() 类似,给相同的值分配相同的排名,但后续排名不会跳过。相同的值后面的排名是紧接着的下一个值。
二、使用示例
结合示例来看一下三者之间的区别,以下sql基于mysql8.0进行讲解。
建表语句:
create table test( id varchar(10) not null, `name` varchar(10) null, age varchar(10) null, salary int null ); -- 数据是每个人不同年龄段的薪资数据 insert into test(id,`name`,age,salary) values(1,'张三',24,15000); insert into test(id,`name`,age,salary) values(2,'李四',22,8000); insert into test(id,`name`,age,salary) values(3,'王五',20,6500); insert into test(id,`name`,age,salary) values(4,'赵六',23,15000); insert into test(id,`name`,age,salary) values(5,'孙七',22,8000); insert into test(id,`name`,age,salary) values(6,'周八',21,7500);
表数据:
以下是使用这三个函数的 sql 查询示例:
select id, name, salary, row_number() over (order by salary desc) as rn, rank() over (order by salary desc) as `rank`, dense_rank() over (order by salary desc) as `dense_rank` from test;
注意:以上sql只使用了order by进行排序,并没有使用partition by进行分组,所以默认是同一组,然后组内进行排名。
从上表可以看出:
- row_number(): 会为每一行数据分配唯一连续的编号,不会因为排名相同而分配相同的编号。
- rank(): 若排名相同则分配相同的编号,并在随后排名中跳过相应的名次。
- dense_rank(): 若排名相同则分配相同的编号,并在随后排名中不跳过相应的名次。
三、总结
在数据分析中,row_number()、rank() 和 dense_rank() 是非常有用的工具。它们可以帮助用户快速对数据进行排名和分类分析。虽然这三种函数的作用相似,但因其在处理重复值时的行为不同,所以在使用时需要根据具体需求进行选择。
3.1、row_number()、rank() 和 dense_rank() 的区别
- row_number():为每一行分配唯一的行号,适合唯一标识需求。
- rank():为重复值分配相同的排名,并在后续排名中跳过名次,适合需要处理排名的场景。
- dense_rank():为重复值分配相同的排名,但不跳过名次,适合希望连续排名的场景。
下面表格总结了这三个函数的主要区别:
函数 | 特点 | 排名示例 |
---|---|---|
row_number | 为每行分配唯一的数字 | 1, 2, 3, 4, … |
rank | 相同的值共享相同的排名,排名会跳过数字 | 1, 1, 3, 4, … |
dense_rank | 相同的值共享相同的排名,不跳过数字 | 1, 1, 2, 3, … |
具体请参考《》、《》、《数据库dense_rank() 函数的使用、mysql之dense_rank()、hive之dense_rank()函数》
到此这篇关于数据库中row_number()、rank() 和 dense_rank() 的区别的文章就介绍到这了,更多相关row_number() rank() dense_rank()内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论