前言
id的生成一般可以是序列递增、雪花算法、uuid等等
各个特点如下:
序列自增
✅ 优点:
- 占用空间小:自增id通常使用较小的数据类型(如int),占用存储空间较小。
- 性能好:自增id是顺序生成的,可以连续存储在磁盘上,有利于提高插入操作的性能,减少碎片化。
- 易于排序和索引:自增id可以快速排序和索引,有利于提高查询效率。
❌ 缺点:
- 局部唯一性:在单数据库实例中是唯一的,但在分布式系统中或在多个数据库之间使用时需要额外的机制来确保全局唯一性(例如使用uuid或其他分布式id生成策略)。
- 需要数据库级别的唯一性检查:每次插入前需要检查是否已存在相同的id,这会增加数据库的负担。
- 重用问题:如果在删除记录后不重新使用id,会导致id的浪费。虽然可以通过一些策略(如预留id池)解决,但这增加了实现的复杂性。
雪花算法
雪花算法(snowflake algorithm)是由 twitter 设计并开源的一种分布式唯一 id 生成算法,用于在高并发、分布式环境下高效生成全局唯一、时间有序的 64 位整数 id(long 类型)。其核心思想是将一个 64 位二进制数划分为多个功能段,通过“时间戳 + 机器标识 + 序列号”组合生成 id。
64 位雪花 id 位分配图解(标准版)
0 41 51 63
┌────────────┬─────────┬───────────┐
│ timestamp │ datactr │ worker │ sequence
│ (41 bits) │ (5 bits)│ (5 bits) │ (12 bits)
└────────────┴─────────┴───────────┘
↑
64-bit signed long (最高位为符号位,始终为 0 → 实际可用 63 位)| 字段 | 长度 | 取值范围 | 说明 |
|---|---|---|---|
timestamp | 41 位 | 0 ~ 2⁴¹−1 ms ≈ 69.7 年 | 自 epoch 起的毫秒差;决定 id 时间序和生命周期 |
datacenterid | 5 位 | 0 ~ 31 | 标识数据中心(如:北京=1、上海=2) |
workerid | 5 位 | 0 ~ 31 | 标识该中心内的具体机器(进程) |
sequence | 12 位 | 0 ~ 4095 | 同一毫秒内自增序号;支持单机峰值 4096 id/ms |
🔍 示例 id 解析(十进制):
1829347561234567168
→ 转二进制后截取对应字段,即可还原生成时间、机房、机器与序号。
✅ 优点
| 维度 | 说明 |
|---|---|
| 全局唯一性 | 基于时间戳(毫秒级)+ 数据中心 id + 机器 id + 序列号,理论上在集群规模合理、时钟不回拨前提下,id 绝对唯一。 |
| 高性能 & 低延迟 | 完全本地内存运算,无网络/数据库依赖,单机 qps 可达数万甚至数十万。 |
| 时间有序性(近似单调递增) | 高位为时间戳,生成的 id 随时间大致递增,有利于数据库(如 mysql)索引优化(减少页分裂)、范围查询等。 |
| 结构化 & 可解析 | id 可直接解码出生成时间、所属节点等信息,便于问题追踪与运维分析。 |
| 轻量易集成 | 无外部依赖,主流语言均有成熟实现(java/go/python 等),易于嵌入微服务架构。 |
❌ 缺点与局限性
| 维度 | 说明 |
|---|---|
| 强依赖系统时钟(时钟回拨问题) | 若服务器时间发生回拨(如 ntp 校正、手动修改),可能导致 id 重复或阻塞(取决于实现策略)。需配合时钟监控、容忍策略(如等待、抛异常、降级为随机 id)等机制缓解。 |
| id 位数固定,存在理论上限 | 64 位中:41 位时间戳(约 69 年)、10 位机器标识(最多 1024 节点)、12 位序列号(每毫秒最多 4096 个 id)。时间戳耗尽后需升级位分配(如扩展为 65+ 位,但破坏兼容性)。 |
| 机器 id 需人工/中心化分配 | datacenterid 和 workerid 需全局唯一且预先配置,大规模动态扩缩容时管理成本上升(需结合 zookeeper、etcd 或数据库注册中心解决)。 |
| 非密码学安全 | id 可被预测(尤其已知部分参数和时间范围时),不适用于需要防猜测、防枚举的场景(如订单号、优惠券码等)。 |
| 单机吞吐受限于序列号位宽 | 每毫秒最多生成 2^12 = 4096 个 id;若瞬时并发超限,会阻塞等待下一毫秒(导致少量延迟毛刺)。 |
🔍 补充说明(常见变种优化)
- 百度 uidgenerator:基于雪花改进,引入 ringbuffer 缓存 + 时间自增补偿,缓解时钟回拨与序列号瓶颈。
- 美团 leaf(segment 模式 / snowflake 模式):提供两种模式,snowflake 模式即增强版雪花,增加动态 workerid 分配与健康检测。
- twitter 官方已弃用:twitter 后期转向更灵活的混合方案(如基于 kafka 的日志序号 + 时间戳),但雪花因其简洁性仍被业界广泛采用。
⚙️ id 生成方案对比表(snowflake vs 其他主流方案)
| 维度 | snowflake | uuid v4 | db 自增主键 | redis incr | leaf-segment(美团) |
|---|---|---|---|---|---|
| 唯一性 | 全局唯一(依赖配置+时钟) | 全局唯一(概率极低重复) | 单库唯一,分布式需分库分表/号段 | 单 redis 实例唯一,集群需协调 | 全局唯一(号段预分配+双 buffer) |
| 有序性 | ✅ 近似时间有序(利于索引) | ❌ 完全无序(字符串,b+树效率低) | ✅ 严格递增 | ✅ 严格递增 | ✅ 逻辑有序(号段内有序) |
| 性能 | ✅ 极高(纯内存,μs 级) | ✅ 高(本地生成) | ❌ 依赖 db 写入(ms 级,有锁) | ✅ 高(但依赖 redis rtt) | ✅ 高(号段缓存,批量获取) |
| 可用性 | ✅ 无外部依赖 | ✅ 无依赖 | ❌ db 故障即不可用 | ❌ redis 故障即不可用 | ⚠️ 依赖 mysql(号段管理)或 zookeeper |
| id 长度/类型 | 64 位整数(紧凑、易排序) | 128 位字符串(32 字符,存储/索引开销大) | 64 位整数 | 64 位整数 | 64 位整数 |
| 可读性/可解析性 | ✅ 可解析出时间、节点信息 | ❌ 完全随机,无业务含义 | ❌ 仅序号,无时间/节点信息 | ❌ 仅序号 | ⚠️ 可解析时间,但节点信息弱化 |
| 扩展性 | ⚠️ 机器 id 需预分配,动态扩容较重 | ✅ 天然无状态,无限扩展 | ❌ 分库分表复杂,全局有序难保证 | ⚠️ redis 集群需路由一致性 | ✅ 支持动态扩容(号段自动分配) |
| 适用场景 | 推荐:订单 id、消息 id、日志 traceid 等高并发有序需求 | 适合:临时 token、文件名、非索引场景 | 适合:单体应用、低并发后台系统 | 适合:简单计数、限流等非核心 id | 推荐:大型电商/金融系统(兼顾性能、容灾、扩展) |
💡 选型建议:
- 初创/中小系统 → 优先 snowflake(简单可靠);
- 对可用性要求极高 → leaf-segment(mysql 故障仍可发号数小时);
- 禁止 id 泄露业务规模 → 避免 snowflake/自增,改用加密 uuid 或混淆 id(如 base62 编码 + 盐值哈希)。
雪花算法和uuid的核心区别在于:雪花算法生成的是具有时间有序性的64位整数,而uuid生成的是通常无序的128位标识符(常以字符串形式表示),这导致了它们在数据库性能、存储效率以及适用场景上的显著差异。
实用工具类如下:
import java.util.arraylist;
import java.util.date;
import java.util.list;
/**
* 雪花id生成器
*
*/
public class snowflakeidgenerator {
// ==================== 常量定义 ====================
private static final long epoch = 1609459200000l; // 自定义起始时间:2021-01-01 00:00:00 utc(毫秒)
private static final int data_center_id_bits = 5;
private static final int worker_id_bits = 5;
private static final int sequence_bits = 12;
private static final long max_data_center_id = ~(-1l << data_center_id_bits); // 31
private static final long max_worker_id = ~(-1l << worker_id_bits); // 31
private static final long max_sequence = ~(-1l << sequence_bits); // 4095
private static final long worker_id_shift = sequence_bits; // 12
private static final long data_center_id_shift = sequence_bits + worker_id_bits; // 17
private static final long timestamp_left_shift = sequence_bits + worker_id_bits + data_center_id_bits; // 22
// ==================== 运行时变量 ====================
private final long datacenterid;
private final long workerid;
private long sequence = 0l;
private long lasttimestamp = -1l;
// ==================== 构造函数 ====================
public snowflakeidgenerator(long datacenterid, long workerid) {
if (datacenterid < 0 || datacenterid > max_data_center_id) {
throw new illegalargumentexception("datacenterid must be in [0," + max_data_center_id + "]");
}
if (workerid < 0 || workerid > max_worker_id) {
throw new illegalargumentexception("workerid must be in [0," + max_worker_id + "]");
}
this.datacenterid = datacenterid;
this.workerid = workerid;
}
// ==================== 核心方法 ====================
public synchronized long nextid() {
long timestamp = currenttimemillis();
// ⚠️ 时钟回拨处理:严格模式(抛异常) or 容忍模式(等待/告警)
if (timestamp < lasttimestamp) {
throw new runtimeexception(
string.format("clock moved backwards. refusing to generate id for %d milliseconds",
lasttimestamp - timestamp));
}
if (lasttimestamp == timestamp) {
// 同一毫秒内,序列号自增
sequence = (sequence + 1) & max_sequence;
if (sequence == 0) {
// 当前毫秒序列已满,阻塞至下一毫秒
timestamp = tilnextmillis(lasttimestamp);
}
} else {
// 新毫秒,序列号重置为 0
sequence = 0l;
}
lasttimestamp = timestamp;
// 拼接 id:(timestamp - epoch) << 22 | datacenterid << 17 | workerid << 12 | sequence
return ((timestamp - epoch) << timestamp_left_shift)
| (datacenterid << data_center_id_shift)
| (workerid << worker_id_shift)
| sequence;
}
private long tilnextmillis(long lasttimestamp) {
long timestamp = currenttimemillis();
while (timestamp <= lasttimestamp) {
timestamp = currenttimemillis();
}
return timestamp;
}
private long currenttimemillis() {
return system.currenttimemillis();
}
// ==================== 辅助方法:解析 id(可选) ====================
public static class idinfo {
public final long timestamp; // 时间戳(毫秒)
public final long datacenterid; // 数据中心 id
public final long workerid; // 工作节点 id
public final long sequence; // 序列号
public idinfo(long timestamp, long datacenterid, long workerid, long sequence) {
this.timestamp = timestamp;
this.datacenterid = datacenterid;
this.workerid = workerid;
this.sequence = sequence;
}
public idinfo(long id) {
this.timestamp = (id >> timestamp_left_shift) + epoch;
this.datacenterid = (id >> data_center_id_shift) & max_data_center_id;
this.workerid = (id >> worker_id_shift) & max_worker_id;
this.sequence = id & max_sequence;
}
}
public static void main(string[] args) {
snowflakeidgenerator idgenerator = new snowflakeidgenerator(1, 2);
list<long> ids = new arraylist<>();
for (int i = 0; i < 10; i++) {
long id = idgenerator.nextid();
ids.add(id);
system.out.println(id);
}
long id = ids.get(8);
idinfo info = new idinfo(id);
system.out.println(info);
//snowflakeidgenerator.idinfo info = snowflakeidgenerator.parse(id);
system.out.println("时间戳: " + new date(info.timestamp));
system.out.println("数据中心 id: " + info.datacenterid);
system.out.println("工作节点 id: " + info.workerid);
system.out.println("序列号: " + info.sequence);
}
/**
* 解析 snowflake id
*
* @param id snowflake id
* @return 包含时间戳、数据中心 id、工作节点 id 和序列号的结构体
*/
public static idinfo parse(long id) {
long timestamp = (id >> timestamp_left_shift) + epoch;
long datacenterid = (id >> data_center_id_shift) & max_data_center_id;
long workerid = (id >> worker_id_shift) & max_worker_id;
long sequence = id & max_sequence;
return new idinfo(timestamp, datacenterid, workerid, sequence);
}
}uuid递增方式
优点:
- 全局唯一性:uuid确保在任何情况下都能生成唯一的标识符,这对于分布式系统尤为重要。
- 无需数据库级别的唯一性检查:插入数据时不需要检查其他记录,减少了数据库的负担。
- 易于迁移:在数据库架构迁移或数据迁移时,uuid的唯一性保证了数据的完整性。
缺点:
- 占用空间大:uuid通常以128位表示,转换为字符串后长度较长(36个字符,包括4个破折号),占用更多的存储空间。
- 性能问题:在大量插入操作时,uuid的随机性和无序性可能导致数据库性能下降,因为它们不遵循顺序插入,可能会引起索引分裂和碎片化。
- 不适合作为主键进行排序:由于uuid的随机性,基于uuid的排序效率较低。
核心结构与生成原理
- 数据结构与表示形式:雪花算法生成的id是一个64位的长整型数字,其二进制结构通常包含时间戳、机器标识(或数据中心id)和序列号等部分。而uuid是一个128位的全局唯一标识符,通常以32个十六进制数字组成的字符串形式呈现(例如
550e8400-e29b-41d4-a716-446655440000)。 - 生成机制:雪花算法的唯一性依赖于系统时间戳、预设的机器/数据中心编号以及同一毫秒内的序列号的组合,这使其生成过程需要一定的配置(如分配节点id)。uuid的生成算法则更为多样(有多个版本),其原理可能基于mac地址、时间戳、随机数或命名空间等,生成过程简单,通常无需中心化协调或复杂配置。
性能与适用场景差异
- 有序性与数据库性能:这是两者最关键的差异。雪花算法生成的id基本按时间趋势递增,具有时间有序性。当这种有序id作为数据库主键时,新记录会顺序插入b+树索引的末尾,大大提升了写入性能并减少了页分裂。相反,传统的uuid(如uuidv4)是完全无序的,作为主键插入会导致随机写入,可能严重拖慢数据库操作。值得注意的是,较新的uuidv7版本引入了时间戳,也具备了时间有序性。
- 存储与传输效率:雪花算法的64位整数在数据库中通常用
bigint(8字节)存储,空间占用小,索引结构更紧凑。uuid若以字符串形式(如char(36))存储,则需占用更多空间;即便使用二进制格式(binary(16),16字节),其长度仍是雪花算法的两倍,在存储和网络传输中开销更大。 - 分布式部署简易性:uuid无需任何节点标识配置,在任何地方均可独立生成,天生适合高度解耦的分布式架构。雪花算法在分布式部署时,需要为每个生成节点分配唯一的工作id(workid),这引入了额外的管理复杂度。
- 信息可解析性与安全性:雪花算法id的组成部分(如时间戳、机器id)可以被反解出来,便于问题排查和业务分析,但也可能泄露部署信息。传统uuid(如基于随机数的v4)内容不可解析,不包含敏感信息。
考量与实践建议
- 根据系统架构与需求选择:
- 优先选择雪花算法的场景:需要高性能数据库写入与查询、id按时间排序(如评论、订单时序展示)、以及对存储空间有严格要求的分布式系统。
- 优先选择uuid的场景:系统架构简单、或对生成简便性和部署灵活性要求极高、且对数据库索引性能不敏感的场景。若需要有序性但不想管理节点id,可考虑uuidv7。
- 注意潜在风险与优化:
- 雪花算法强依赖系统时钟。若发生时钟回拨(如ntp校准),可能导致id重复。实践中需通过记录最大id、暂停服务或使用逻辑时钟等手段防范。
- 使用uuid作为数据库主键时,建议采用 binary(16) 存储以减少空间占用,并评估其对写入性能的实际影响。
总结
到此这篇关于java版雪花算法生成id实用工具类的文章就介绍到这了,更多相关java雪花算法生成id工具类内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论