直接内存简介
直接内存(direct memory) 并不是虚拟机运行时数据区的一部分,并非java虚拟机规范中定义的内存区域。但是这部分内存的频繁使用,也可能导致 outofmemoryerror 异常。
直接内存的分配不受java堆大小的限制,但是受限于本机总内存大小和处理器寻址空间。一般服务器运维人员会根据实际内存设置-xmx等参数,但经常忽略直接内存,使得动态扩展时出现 outofmemeoryerror 异常。
jdk 1.4中加入了nio类,引入一种基于通道(channel)与 缓冲区(buffer)的i/o方式,它可以使用 native 函数库直接分配堆外内存。这样在一些场景中能显著提高性能,避免在 java 堆中和 native 堆中来回复制数据。
为什么directbytebuffer可以优化 io 性能
普通 io 流读取磁盘中数据时,内核态需要将磁盘中的数据拷贝到系统缓冲区 page cache(内核地址空间),再从内核态拷贝到用户空间中,c 程序里操作的就是用户态的内存。
jvm 启动时在用户态申请一块内存,这块内存中包含了 java 堆,几乎所有创建的对象和数组都分配在堆上,堆上的实例受 gc 管理。除了java堆,其余内存称为 堆外内存,如果使用jni直接调用 c 函数申请堆外内存(直接内存),这块堆外内存不会进行垃圾回收(例如:direct memory 由 malloc 分配)。
java 程序中进行文件的读操作:
- 首先在内核态,将数据从磁盘中读取到系统缓存区中
- 再从系统缓冲区拷贝到用户态的堆外内存(jvm实现)
- 然后再从堆外拷贝到 java 堆内的 byte 数组(用户地址空间)。
读操作示意图如下:

上述传统 java io方式,经历了两次内存拷贝,而nio中使用 directbytebuffer,不需要将数据从堆外拷贝到堆内,java程序可以直接访问堆外的 direct memory,减少了一次内存拷贝,也减轻了 gc 压力,降低了java堆内存占用。
示意图如下:

为什么数据不能直接从系统缓冲区拷贝到 java 堆?
笔者认为原因主要在于 gc 会改变堆内对象的内存地址,例如:young gc 时eden 区存活对象会被拷贝到 survivor 区。而内核态向用户态的数据拷贝是由内核完成的,并不受 java 程序控制。
因此,需要先拷贝到堆外内存(这个区域不会发生 gc,地址不改变),再从堆外内存拷贝数据到java堆中。java 堆内存和堆外内存同属用户地址空间,拷贝可由 java 虚拟机完成。
java direct buffer用于执行很大数据量的io密集操作时,存在很大的性能优势。
- direct buffer 是使用malloc进行的堆外分配,生命周期内内存地址都不会再发生更改,进而内核可以安全地对其进行访问,很多 io 操作会很高效。
- 减少了堆内对象存储的可能额外维护工作(例如:垃圾回收时位置的移动),所以访问效率可能有所提高。
- direct buffer 的使用能提高网络和文件io效率,因为省去了从本地堆到java堆的拷贝,降低 java 堆的内存占用从而减轻了gc压力。
- direct buffer的创建和销毁比堆内buffer增加部分开销,通常都建议用于长期使用、数据较大的场景。
直接内存的分配
1.通过nio中的directbytebuffer实例引用直接内存
public static void main(string[] args) {
bytebuffer buffer = bytebuffer.allocatedirect(1024);
// ...
}
allocatedircet 方法返回 directbytebuffer 实例:
public static bytebuffer allocatedirect(int capacity) {
return new directbytebuffer(capacity);
}
2.directbytebuffer 类的构造函数中,通过unsafe#allocatememory分配直接内存空间,并且创建对应的 cleaner 实例用于回收直接内存,cleaner 实例是一个指向 directbytebuffer 实例的虚引用。
directbytebuffer(int cap) {
super(-1, 0, cap, cap);
boolean pa = vm.isdirectmemorypagealigned();
int ps = bits.pagesize();
// 多配分一个内存页, 用于直接内存起始地址对齐
long size = math.max(1l, (long)cap + (pa ? ps : 0));
// 尝试保留size大小的内存, 如果内存不够, 处理pending链表上的引用
// 内存仍然不足,则显式gc, 将不可达的引用放入pending链表中, 再从pending回收内存
// 内存不够, 则抛出oom错误
bits.reservememory(size, cap);
long base = 0;
try {
// base为直接内存的基址
base = unsafe.allocatememory(size);
} catch (outofmemoryerror x) {
bits.unreservememory(size, cap);
throw x;
}
// 将分配到的直接内存每一个byte设置为0
unsafe.setmemory(base, size, (byte) 0);
// 如果需要直接内存对齐, 且基址base不整除pagesize, 则调整起始地址为base+pagesize减去base%pagesize
if (pa && (base % ps != 0)) {
// address为bytebuffer缓冲区可使用部分的起始地址
address = base + ps - (base & (ps - 1));
} else {
address = base;
}
// cleaner 持有 directbytebuffer 的幻影(虚)引用
// deallocator实现runnable接口, 执行释放直接内存的操作
cleaner = cleaner.create(this, new deallocator(base, size, cap));
att = null;
}
直接内存的回收
cleaner类继承虚引用 phantomreference,虚引用的referent字段指向 directbytebuffer 实例。
虚引用:最弱的引用关系,一个对象是否有虚引用存在不对其生存时间构成影响,也无法通过虚引用获取对象实例,get 方法返回null。
为一个对象设置虚引用关联的唯一目的是能在这个对象被收集器回收时收到系统通知。
public class cleaner extends phantomreference<object> {
...
// cleaner.create: var1传入directbytebuffer引用, var2传入deallocator实例
private cleaner(object var1, runnable var2) {
super(var1, dummyqueue);// directbytebuffer作为虚引用
this.thunk = var2; //
}
public static cleaner create(object var0, runnable var1) {
return var1 == null ? null : add(new cleaner(var0, var1));
}
}
当 directbytebuffer 实例不存在强引用后,垃圾回收时它的 phantomreference 实例会被放入 pending 链表,等待 referencehandler 线程将它从 pending 链表中取出,加入到引用队列queue中。
referencehandler 线程执行逻辑实现于 tryhandlepending 方法:
从 pending 链表中取出头部的 reference 实例,如果引用实例为 cleaner 类型,需要调用它的 clean 方法释放直接内存。随后,将 reference 实例加入到引用队列 queue 中。
public void run() {
while (true) {
tryhandlepending(true);
}
}
static boolean tryhandlepending(boolean waitfornotify) {
reference<object> r;
cleaner c;
try {
synchronized (lock) {
if (pending != null) {
r = pending;
// cleaner继承了虚引用, 需要调用clean方法, 因此特判。
c = r instanceof cleaner ? (cleaner) r : null;
// pending头节点更新为r的下一个节点
pending = r.discovered;
r.discovered = null;
} else {
// pending链表中元素为空, wait-notify等待唤醒
if (waitfornotify) {
lock.wait();
}
// retry if waited
return waitfornotify;
}
}
}// ...
// 如果reference类型为cleaner, 需要调用clean方法, 直接内存此时会被回收
if (c != null) {
c.clean();
return true;
}
// 将reference实例加入到引用队列中
referencequeue<? super object> q = r.queue;
// 注册了引用队列, 则入队, 入队后修改r.queue = referencequeue.enqueued, next指向队列中的后继
if (q != referencequeue.null) q.enqueue(r);
return true;
}
从 pending 链表取出时,会调用 cleaner#clean方法,clean方法会调用运行 unsafe#freememory 释放直接内存。
// cleaner
public void clean() {
if (remove(this)) {
try {
this.thunk.run(); // thunk为deallocator实例
} // catch
}
}
// private static class deallocator implements runnable
public void run() {
if (address == 0) {
// paranoia
return;
}
// 释放直接内存, address为直接内存基址
unsafe.freememory(address);
address = 0;
bits.unreservememory(size, capacity);
}
direct buffer 性能优化方面的建议:
- 应用程序中,
system.gc()触发full gc,将 directbytebuffer 回收时调用cleaner#clean方法释放直接内存。 - 不要开启
-xx:+disableexplicitgc禁用显式gc,默认不禁用; - 使用
-xx:+explicitgcinvokesconcurrent改变 full gc 的行为(配合 cms 使用)。添加该选项后,垃圾收集线程在可达性标记阶段与用户线程并发运行,减少了stw的时间。
另一种思路是,在大量使用direct buffer的部分框架中,框架会自己程序中显式地调用unsafe#freememory方法,例如netty。(使用反射获取 unsafe 实例,再调用成员方法 freememory)
重复利用 direct buffer,减少它的创建和销毁。
直接内存跟踪与诊断
直接内存的容量大小可通过 -xx:maxdirectmemorysize 参数指定,默认与 java堆最大值一致。使用反射越过 directbytebuffer 类,直接通过反射获取 unsafe 实例(theunsafe静态属性),进行内存分配。
field theunsafe = unsafe.class.getdeclaredfield("theunsafe");
theunsafe.setaccessible(true);
// theunsafe为static final字段
unsafe unsafe = (unsafe) theunsafe.get(null);
// 分配直接内存
long address = unsafe.allocatememory(1024);
unsafe.freememory(address);
由直接内存导致的内存溢出,在heap dump文件中不会看见明显的异常情况。
如果发现内存溢出后,产生的dump文件很小,而程序中直接或间接使用了direct memory(nio),就可以考虑检查直接内存溢出。
通常的垃圾收集日志等记录,并不包含 direct buffer 等信息。从jdk 1.8开始,可以使用 native memory tracking(nmt) 特性来进行诊断,可以在程序启动时加上下面参数:
-xx:nativememorytracking={summary|detail}
运行时,采用如下命令交互式对比:
// 打印nmt信息 jcmd <pid> vm.native_memory detail // 进行baseline,以对比分配内存变化 jcmd <pid> vm.native_memory baseline // 对比baseline, 显示出各个部分内存的变化 jcmd <pid> vm.native_memory detail.diff
下面案例中,先使用 vm.native_memory 的 baseline 命令,作为对比的参照;当打印出 begin allocate 后,执行detail.diff,进行对比。
public class directmemory {
public static void main(string[] args) {
try {
thread.sleep(40000);// 进行baseline, 作为比对的参照
system.out.println("begin allocate: ...");
bytebuffer buffer = bytebuffer.allocatedirect(1024 * 1024 * 3);
thread.sleep(40000);
} catch (exception e) {
e.printstacktrace();
}
}
}
结果如下图所示,internal部分的内存增加了3078kb,3mb = 3072kb

总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。
发表评论