深入剖析一下 mysql 中的 count()
函数。它是 sql 中最常用的聚合函数之一,用于计算表中符合特定条件的行数。
核心功能
count()
函数的核心功能是计数。它可以用来:
统计表中所有行的总数。
统计表中特定列的非 null 值的数量。
结合
where
子句,统计满足特定条件的行的数量。结合
group by
子句,统计每个分组中的行数。
语法形式
count()
函数主要有三种语法形式,它们在行为和性能上有所不同:
count(*)
功能: 统计查询结果集中的总行数。
计数方式: 它计算所有行,不管该行中的列是否包含 null 值。即使整行所有列都是 null,
count(*)
也会将其计入。性能: 在大多数现代 mysql 版本(尤其是 innodb 存储引擎)中,
count(*)
通常经过高度优化。mysql 知道count(*)
只需要行数,而不需要检查任何具体的列值。这是获取表总行数或分组行数的推荐方式。示例:
-- 统计 `users` 表中的总用户数 select count(*) from users; -- 统计每个部门 (`dept_id`) 的员工数量 select dept_id, count(*) as employee_count from employees group by dept_id;
count(expression)
功能: 统计表达式
expression
计算结果为非 null 值的行数。计数方式: 对每一行计算给定的表达式 (
expression
)。如果表达式的结果是 非 null,则计数加 1;如果结果是 null,则不计入。expression
可以是:一个列名 (
count(column_name)
):统计该列中非 null 值的数量。这是最常见的使用方式。一个常量 (
count(1)
,count('abc')
):因为常量永远是非 null 的,所以count(1)
或count('任何常量')
的行为几乎总是等同于count(*)
,统计总行数。现代 mysql 优化器通常会将count(1)
转换为count(*)
来执行。一个表达式 (
count(upper(name))
,count(price * quantity)
):先计算表达式,然后判断结果是否为 null。
性能: 如果
expression
是一个列名,mysql 需要检查该列的值是否为 null。如果该列没有索引,对于大表来说,这可能比count(*)
稍慢一些(因为count(*)
可以利用存储引擎的内部优化)。如果expression
是常量,性能通常与count(*)
相当。示例:
-- 统计 `users` 表中设置了邮箱 (`email` 列非 null) 的用户数 select count(email) from users; -- 统计 `orders` 表中总金额 (`total_amount`) 大于 100 的订单数量 (假设 total_amount 可为 null) select count(total_amount > 100) from orders; -- 注意:`total_amount > 100` 的结果是布尔值 (true, false, 或 null)。在 mysql 中,true=1, false=0, null=null。所以 count 只会计入结果为 true (1) 的非 null 行。 -- 更常见的写法是结合 where: select count(*) from orders where total_amount > 100; -- 统计 `products` 表中 `name` 字段非 null 的产品数量 (等同于 count(name)) select count(*) from products where name is not null; -- 另一种写法
count(distinct expression)
功能: 统计表达式
expression
计算结果中不同(唯一、去重后)的非 null 值的数量。计数方式: 首先计算所有行中
expression
的值,然后去除结果集中的 null 值,最后对剩下的非 null 值进行去重,统计去重后的数量。性能: 这是性能开销最大的一种形式,因为它涉及到对所有非 null 值进行排序或使用哈希表来去重。对于大表,尤其是在没有合适索引的情况下,可能会比较慢。
示例:
-- 统计 `users` 表中来自不同城市 (`city`) 的数量 (忽略 city 为 null 的行) select count(distinct city) from users; -- 统计 `orders` 表中每个客户 (`customer_id`) 下了多少种不同商品 (`product_id`) 的订单 select customer_id, count(distinct product_id) as unique_products_ordered from orders group by customer_id;
重要特性与行为
count()
与 null:count(*)
:不关心 null,统计所有行。count(expression)
:只统计expression
计算结果为非 null 的行。count(distinct expression)
:只统计expression
计算结果为非 null 的值,并且对这些非 null 值进行去重计数。
聚合函数:
count()
是一个聚合函数。它通常作用于一组行(可能是整个表,或者group by
定义的每个组),并返回一个单一的汇总值。与
where
结合:where
子句在聚合发生之前过滤行。count()
只会计入通过where
条件过滤后的行。select count(*) from orders where order_date >= '2024-01-01'; -- 统计2024年及之后的订单数
与
group by
结合:group by
将数据分成多个组,count()
会为每个组单独计算行数或非 null 值的数量。select status, count(*) as order_count from orders group by status; -- 统计每种订单状态的数量
与
having
结合:having
子句在聚合发生之后过滤分组结果。它基于聚合结果(如count(*)
)来筛选哪些分组应该出现在最终结果中。select country, count(*) as user_count from users group by country having user_count > 100; -- 只显示用户数超过100的国家
count()
返回类型:count()
函数返回一个bigint
类型的值(64位整数)。即使结果很小,返回类型也是bigint
。没有匹配行: 如果查询没有匹配任何行(例如,
where
条件太严格),count()
将返回 0。count(distinct ...)
在没有非 null 值时也返回 0。性能考虑(myisam vs innodb):
myisam: 对于
count(*)
且没有where
条件的查询(如select count(*) from myisam_table;
),myisam 引擎会极其快速地返回结果,因为它直接在表的元数据中存储了精确的总行数。innodb: innodb 引擎不存储精确的总行数在元数据中。它需要扫描表(或最小的可用索引)来计算
count(*)
(即使没有where
子句)。这是因为 mvcc(多版本并发控制)机制使得同时存在的事务可能看到表中不同版本的行数。因此,对于非常大的 innodb 表,select count(*) from huge_innodb_table;
可能会比较慢。估算行数可以考虑查询information_schema.tables
表的table_rows
列(注意这是估算值,不精确!),或者使用计数器表、缓存等技术。
如何选择使用哪种形式?
需要总行数? ➡️ 优先使用
count(*)
。它是语义最清晰(计算行数),且在 mysql 中通常性能最佳。需要统计特定列的非 null 值数量? ➡️ 使用
count(column_name)
。需要统计满足特定条件的行数? ➡️ 结合
where
子句使用count(*)
(推荐) 或count(1)
。select count(*) from table where condition;
需要统计某一列中不同值的数量(去重计数)? ➡️ 使用
count(distinct column_name)
。需要统计满足某个表达式条件的行数? ➡️ 使用
count(expression)
,或者更常见的,使用count(*)
+where
子句。select count(if(score > 90, 1, null)) from students;
-- 统计分数大于90的学生数等价于
select count(*) from students where score > 90;
(通常更推荐后者)
总结
count()
函数是 mysql 中用于计数的核心聚合函数。理解 count(*)
、count(expression)
和 count(distinct expression)
之间的区别至关重要:
count(*)
:统计所有行(推荐用于计数总行数或分组行数)。count(expression)
:统计expression
结果非 null 的行数(用于统计特定列的非 null 值)。count(distinct expression)
:统计expression
结果中不同(唯一)的非 null 值的数量(用于去重计数)。
根据你的具体需求(是统计行数、特定列的非 null 值数、还是唯一值数)选择正确的形式,并结合 where
、group by
、having
子句来精确控制计数范围
到此这篇关于mysql count()聚合函数详解的文章就介绍到这了,更多相关mysql count() 聚合函数内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论