(全局唯一id的解决方案有很多种,这里主要是介绍和学习snowflake算法)
什么是雪花算法(snowflake)
雪花算法(snowflake algorithm)是由twitter公司在2010年左右提出的一种分布式id生成算法,主要用于生成全局唯一且趋势递增的id。这种算法生成的id是一个64位的长整型数字,具有很高的性能与扩展性,特别适合于分布式环境下的主键生成场景,比如数据库表主键、消息队列的message id等。
实现原理
snowflake算法的原理主要体现在它生成64位id的结构上,主要划分为如下几个部分:
0 | 00000000000000000000000000000000000000000 | 00000 | 00000 | 000000000000
- 1bit-符号位:
第1位通常固定为0,表示生成的id都是正数。
- 41bit-时间戳部分:
从第2位到第42位(共41位)存储时间戳信息,精确到毫秒级别。时间戳可以是自定义的一个起始时间点(如twitter使用的是2010-11-04的某一时刻),这样可以通过比较id中的时间戳部分来判断事件发生的先后顺序。41位的时间截,可以使用69年,年t = (1l << 41) / (1000l * 60 * 60 * 24 * 365) = 69。
- 10bit-工作机器id(5bit数据中心id+5bit机器id):
从第43位到第52位(共10位)存储工作机器id或者数据中心id。这部分可以进一步细分为两部分,例如前5位标识数据中心id,后5位标识工作节点id。这样可以支持32(0~31)个数据中心以及每个数据中心内部的32(0~31)个工作节点,足够覆盖大规模分布式系统的节点标识。
- 12bit-序列号部分:
从第53位到第64位(共12位)存储同一节点同一毫秒内生成的序列号,这意味着同一个节点在同毫秒内可以生成最多4096个不同的id(2^12)。
当生成id时,首先获取当前时间戳,然后加上工作节点id以及序列号。如果在同一毫秒内有新的请求,则序列号加1。若序列号达到最大值,则等待下一毫秒再进行分配,从而确保在同一节点内生成的id是唯一的
雪花算法的优缺点
优点:
全局唯一性:雪花算法生成的id是全局唯一的,这在分布式系统中非常重要,可以避免因id冲突而导致的数据不一致问题。
递增有序:由于id中包含时间戳部分,所以生成的id是递增有序的。这有助于数据库插入性能的优化,因为有序的id可以减少数据库的页分裂,提高写入效率。
灵活性:雪花算法允许自定义配置工作机器id和数据中心id的位数,可以根据实际部署环境调整这些配置,以支持不同规模的分布式系统。
高效性:算法本身实现简单,生成id的速度快,能够满足高并发场景下的需求。
缺点:
时钟依赖:雪花算法依赖于系统时钟来生成时间戳部分。如果系统时钟出现回拨或漂移,可能会导致生成的id不唯一或有序性受到破坏。虽然可以通过一些机制来处理时钟回拨问题,但时钟漂移仍然是一个潜在的风险。
机器id冲突:如果部署的工作节点数量超过了算法中定义的机器id位数所能表示的范围,就会发生机器id冲突。这需要在设计系统时预先规划好机器id的分配和管理。
缺乏安全性:雪花算法生成的id本身并不包含加密或签名信息,因此容易受到恶意篡改。如果id的安全性要求较高,需要在生成id后添加额外的加密或签名措施。
扩展性限制:由于雪花算法的id结构是固定的,因此在某些情况下可能会受到扩展性的限制。例如,如果未来需要添加更多的元数据到id中,或者需要支持更大的分布式系统规模,可能需要重新设计id生成算法。
因此,为了更全面地解决雪花算法的缺陷问题,可能需要采取额外的措施,例如:
增强时钟同步:使用ntp(network time protocol)或其他时钟同步机制来确保各个节点之间的时钟尽可能准确同步。
增加机器id的灵活性:设计一种更灵活的方式来分配和管理机器id,以便支持更多的工作节点和数据中心。
安全性考虑:对生成的id进行加密或签名,以防止恶意篡改。
综上所述,雪花算法在分布式系统中具有广泛的应用价值,其全局唯一性和递增有序性使得它成为生成唯一id的优选方案之一。然而,在使用雪花算法时也需要注意其潜在的缺点,并根据实际需求进行配置和优化。
snowflake算法生成id的java代码示例
以下是snowflake算法的一个java简化版实现:
public class snowflakeidworker { // 起始的时间戳(自定义,例如系统上线时间) private final long twepoch = 1288834974657l; // 机器id所占的位数 private final long workeridbits = 5l; // 数据标识id所占的位数 private final long datacenteridbits = 5l; // 最大机器id private final long maxworkerid = -1l ^ (-1l << workeridbits); // 最大数据标识id private final long maxdatacenterid = -1l ^ (-1l << datacenteridbits); // 序列在id中占的位数 private final long sequencebits = 12l; // 机器id左移12位 private final long workeridshift = sequencebits; // 数据标识id左移17位(12+5) private final long datacenteridshift = sequencebits + workeridbits; // 时间截左移22位(5+5+12) private final long timestampleftshift = sequencebits + workeridbits + datacenteridbits; // 序列的掩码,这里为4095 (0b111111111111=4095) private final long sequencemask = -1l ^ (-1l << sequencebits); // 上次生成id的时间截 private long lasttimestamp = -1l; // 序列号 private long sequence = 0l; // 工作机器id private final long workerid; // 数据中心id private final long datacenterid; public snowflakeidworker(long workerid, long datacenterid) { if (workerid > maxworkerid || workerid < 0) { throw new illegalargumentexception(string.format("worker id can't be greater than %d or less than 0", maxworkerid)); } if (datacenterid > maxdatacenterid || datacenterid < 0) { throw new illegalargumentexception(string.format("datacenter id can't be greater than %d or less than 0", maxdatacenterid)); } this.workerid = workerid; this.datacenterid = datacenterid; } // 生成id public synchronized long nextid() { long timestamp = timegen(); // 如果当前时间小于上一次id生成的时间戳,说明系统时钟回退,抛出异常 if (timestamp < lasttimestamp) { throw new runtimeexception(string.format("clock moved backwards. refusing to generate id for %d milliseconds", lasttimestamp - timestamp)); } // 如果时间戳相同,则序列号自增 if (lasttimestamp == timestamp) { sequence = (sequence + 1) & sequencemask; // 序列号溢出,等待下一毫秒 if (sequence == 0) { timestamp = tilnextmillis(lasttimestamp); } } else { // 时间戳改变,序列号重置为0 sequence = 0l; } // 更新最后的时间戳 lasttimestamp = timestamp; // 移位并通过或运算拼到一起组成64位的id return ((timestamp - twepoch) << timestampleftshift) | (datacenterid << datacenteridshift) | (workerid << workeridshift) | sequence; } // 获取当前时间戳 protected long timegen() { return system.currenttimemillis(); } // 等待下一个毫秒 protected long tilnextmillis(long lasttimestamp) { long timestamp = timegen(); while (timestamp <= lasttimestamp) { timestamp = timegen(); } return timestamp; } public static void main(string[] args) { snowflakeidworker idworker = new snowflakeidworker(1, 1); for (int i = 0; i < 5; i++) { long id = idworker.nextid(); system.out.println(long.tobinarystring(id)); system.out.println(id); } } }
代码输出:
这段代码实现了雪花算法的核心逻辑。在nextid()
方法中,它首先获取当前时间戳,然后检查时间戳是否小于上一次生成id时的时间戳,如果是,则抛出异常,因为这意味着系统时钟回退,可能会导致id生成出现混乱。如果时间戳相同,则序列号自增,并检查是否溢出,如果溢出则等待下一个毫秒。如果时间戳不同,则重置序列号。最后,将时间戳、数据中心id、机器id和序列号按照各自的偏移量左移,然后进行位或运算,组合成一个64位的id。
(注:关于数据中心id、机器id,根据实际情况来进行配置。)
总结
到此这篇关于java中使用雪花算法(snowflake)为分布式系统生成全局唯一id的文章就介绍到这了,更多相关java雪花算法生成全局唯一id内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论