Hive数据去重的两种方式 (distinct和group by)_大数据

实现数据去重有两种方式：distinct 和 group by

1.distinct消除重复行

distinct支持单列、多列的去重方式。

单列去重的方式简明易懂，即相同值只保留1个。

多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才会被认为是重复的信息。

(1)作用于单列

　　select distinct name from a    //对a表的name去重然后显示

(2)作用于多列

　　select distinct id,name from a   //对a表的id和name去重然后显示

注意，distinct作用于多列的时候只在开头加上即可，并不用每个字段都加上。

　　 distinct必须在开头，在中间是不可以的，会报错。

　　select id,distinct name from a   //错误

(3)配合count使用

　　select count(distinct name) from a  //对a表的不同的name进行计数

2.group by 分组语句

  　　select name from a group by name   //跟上述等价,对name分组，相当于去重。

　　在使用group by的时候，前边一般会有聚合语句，例如sum，一些没有聚合的字段必须要加到group by 后边。

　　 select a,sum(b) from a group by a   //后边必须要有a，否则报错

3.区别

其实二者没有什么可比性，但是对于不包含聚集函数的group by操作来说，和distinct操作是等价的。不过虽然二者的结果是一样的，但是二者的执行计划并不相同。

distinct只是将重复的行从结果中出去；

group by是按指定的列分组，一般这时在select中会用到聚合函数。

distinct是把不同的记录显示出来。

group by是在查询时先把纪录按照类别分出来再查询。

group by 必须在查询结果中包含一个聚集函数，而distinct不用。

总结

到此这篇关于hive数据去重的两种方式的文章就介绍到这了,更多相关hive数据去重内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

pgsql binlog监听功能点解析

引言监听mysql binlog 大家都知道canal，但是如果是pglog呢，先百度也就这个靠点谱，文章没有我想要的demo去官网看看debezium.io... [阅读全文]

大数据开发phoenix连接hbase流程详解

一、安装phoennix添加配置1、将phoenix-server-hbase-2.4-5.1.2.jar拷贝至hbase的的lib下cp phoenix-server-hbase…

2024年05月19日 • 数据库

clickhouse系统表日志清理方式详解

简介clickhouse会将查询日志，度量日志和堆栈采集日志记录下来，存储到自身数据库的system库中，分别是query_log,query_thread_... [阅读全文]

navicat怎么卸载,navicat彻底卸载干净教程

navicat彻底卸载干净教程1、控制面板卸载2、删除对应的文件夹3、删除注册表全部删除就好了 ~navicat升级后，失效，重新ok，navicat彻底卸载navicat试用期过…

2024年05月19日 • 数据库

openGauss数据库共享存储特性概述

opengauss 3.1.1是opengauss 5.0.0 release版本的preview版本，希望广大社区伙伴和开发者基于此版本进行场景化验证，提前发... [阅读全文]

Navicat Premium 15 工具自动被杀毒防护软件删除的两种解决方法

navicat premium 15 工具自动被杀毒防护软件删除解决方法方法一：如果开启了病毒防护，可以右键开始菜单→ 打开设置设置中找到隐私和安全性点击 windos …

2024年05月19日 • 数据库


验证码：

验证码：

Hive数据去重的两种方式 (distinct和group by)

2024年05月19日 • 大数据 •我要评论

1.distinct消除重复行

2.group by 分组语句

3.区别

总结

相关文章:

大数据开发phoenix连接hbase流程详解

navicat怎么卸载,navicat彻底卸载干净教程

Navicat Premium 15 工具自动被杀毒防护软件删除的两种解决方法

发表评论