【Java 并发】【十】【JUC数据结构】【八】ConcurrentHashMap原理

发布时间 2023-04-10 06:45:48作者: 酷酷-

1  前言

上一节我们讲解了HashMap底层的实现,但是HashMap不是线程安全的,存在多个线程并发操作的线程安全的问题。今天我们就来看一下ConcurrentHashMap这个数据结构,并发安全版本的Map结构。

2  ConcurrentHashMap内部源码

2.1  内部属性

// 最大容量上限,2的30次方
private static final int MAXIMUM_CAPACITY = 1 << 30;

// 默认的初始化容量16
private static final int DEFAULT_CAPACITY = 16;

// 最大的数组长度上限
static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;

// 默认并发能力层级,16
// (默认数组长度是16,每个数组元素都可作为一把锁,所以数组长度是多少默认就有多少把锁)
private static final int DEFAULT_CONCURRENCY_LEVEL = 16;
// 负载因子
private static final float LOAD_FACTOR = 0.75f;
// 红黑树转化条件(链表长度达到8需要转成红黑树,提高查询效率)
static final int TREEIFY_THRESHOLD = 8;
// 非树化条件(红黑树大小小于等于6时候,需要将红黑树转成链表)
static final int UNTREEIFY_THRESHOLD = 6;
// 红黑树化前最小容量(如果当前容量小于64,首先考虑扩容减少hash冲突,而不是进行树化)
static final int MIN_TREEIFY_CAPACITY = 64;

private static final int MIN_TRANSFER_STRIDE = 16;

private static int RESIZE_STAMP_BITS = 16;

private static final int MAX_RESIZERS = (1 << (32 - RESIZE_STAMP_BITS)) - 1;

private static final int RESIZE_STAMP_SHIFT = 32 - RESIZE_STAMP_BITS;
// 标志位,说明当前正在扩容操作,该位置数据正在移动,也就是move(移动)的意思
static final int MOVED = -1;
// 标志位,说明改位置的数据正在进行树化
static final int TREEBIN = -2;
// 保留位置
static final int RESERVED = -3;
// 进行hash算法的时候,保留多少位hash结果,这里是保留int类型中的后31位
static final int HASH_BITS = 0x7fffffff; // usable bits of normal node hash
// 当前机器的cpu核数
static final int NCPU = Runtime.getRuntime().availableProcessors();
// 保存数据的基础数组,使用volatile修饰,保证多线程之间的可见性
transient volatile Node<K,V>[] table;
// 扩容期间的另外一个数组,ConcurrentHashMap扩容期间两个数组都在使用
private transient volatile Node<K,V>[] nextTable;
// 用作大小统计的基础窗口
// ConcurrentHashMap使用多窗口分段锁机制来进行数量统计,提高并发性能
private transient volatile long baseCount;
// 一个标志位,用作数组初始化或者扩容期间的标识
private transient volatile int sizeCtl;
// 扩容期间,下一个需要进行数组迁移的数组下标
private transient volatile int transferIndex;
//
private transient volatile int cellsBusy;
// 窗口列表,用多窗口机制来减少锁冲突,提高高并发的计数统计性能
private transient volatile CounterCell[] counterCells;

上面是ConcurrentHashMap内部属性,接下来我们看一下它的put方法,是怎么使用分段锁、cas操作来保证线程安全同时又提高了并发性能的。

2.2  put方法

public V put(K key, V value) {
    // 内部调用putVal方法
    return putVal(key, value, false);
}

2.2.1  putVal方法

final V putVal(K key, V value, boolean onlyIfAbsent) {
    if (key == null || value == null) throw new NullPointerException();
    // 使用spread函数,得出一个新的hash值
    // 跟上一章节讲的HashMap的hash函数核心思想一样
    // 低16位结果变为高低16位的异或值
    int hash = spread(key.hashCode());
    int binCount = 0;
    // 使用一个无限循环,知道putVal操作成功才退出
    for (Node<K,V>[] tab = table;;) {
        Node<K,V> f; int n, i, fh;
        // 如果基础数组为空或者长度为零,说明还未初始化
        if (tab == null || (n = tab.length) == 0)
            // 首先进行数组的初始化
            tab = initTable();
        // 走到这里说明table数组已经初始化了,肯定不为空
        // 根据寻址算法 (n-1)&hash 找到数组的table[i]位置
        // 如果table[i] == null说明该位置之前没存储元素
        else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
            // 创建一个新的Node节点,使用cas操作将node设置到table[i]位置
            // cas保证原子性,由于table使用volatile关键字修饰,保证可见性、有序性;所以是并发安全的
            if (casTabAt(tab, i, null,
                         new Node<K,V>(hash, key, value, null)))
                // cas成功则退出循环,否则继续
                break;
        }
        // 如果f=table[i]的hash值被标记为MOVED,说明当前正在进行扩容
        else if ((fh = f.hash) == MOVED)
            // 则当前线程帮助进行扩容(多线程扩容,缩短扩容时间)
            // 扩容完成之后再进行重试
            tab = helpTransfer(tab, f);
        else {
            V oldVal = null;
            // 注意这里使用的synchronized进行加锁,加锁的元素是f=table[i]
            // 加锁的是数组的一个元素,通过寻址算法落到哪个位置,就对哪个位置进行加锁
            // 保证并发安全的同时,加锁粒度很小,只要并发操作hash冲突不大,锁冲突就不大
            // 这里就是分段锁的思想了,table数组的每个元素都可以作为一把锁
            // 并发操作时,hash冲突时候才会存在锁竞争
            synchronized (f) {
                // tabAt获取table[i]位置元素,二次确认此Node对象是否还是原来哪个,没被修改过
                if (tabAt(tab, i) == f) {
                    // fh=f.hash >= 0 说明未扩容或者红黑树化
                    // 在扩容或者初始化的时候会把table[i]所在元素的hash改为小于0
                    // 表示正在进行扩容、移动数据、进行树化等操作
                    if (fh >= 0) {
                        binCount = 1;
                        // 这里就跟之前HashMap一样,就是从头遍历链表
                        // 一个个查找节点是否Key与传入一样,如果一样则替换value值即可
                        // 如果不一样,则在链表尾部插入一个新的节点
                        // 由于使用了synchronized,是并发安全的
                        for (Node<K,V> e = f;; ++binCount) {
                            K ek;
                            if (e.hash == hash &&
                                ((ek = e.key) == key ||
                                 (ek != null && key.equals(ek)))) {
                                oldVal = e.val;
                                if (!onlyIfAbsent)
                                    e.val = value;
                                break;
                            }
                            Node<K,V> pred = e;
                            if ((e = e.next) == null) {
                                pred.next = new Node<K,V>(hash, key,
                                                          value, null);
                                break;
                            }
                        }
                    }
                    // 如果f节点是红黑树
                    else if (f instanceof TreeBin) {
                        Node<K,V> p;
                        binCount = 2;
                        // 对红黑树进行遍历,如果有节点Key与传入key一直,则替换value值即可
                        // 否则需要插入一个新的节点
                        if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                       value)) != null) {
                            oldVal = p.val;
                            if (!onlyIfAbsent)
                                p.val = value;
                        }
                    }
                }
            }
            if (binCount != 0) {
               // 达到了树化条件,table[i]位置的链表转成红黑树
                if (binCount >= TREEIFY_THRESHOLD)
                    treeifyBin(tab, i);
                if (oldVal != null)
                    return oldVal;
                break;
            }
        }
    }
    // 这里使用并发多窗口分段统计的思想,进行计数统计
    addCount(1L, binCount);
    return null;
}

我们画个图理解一下:

(1)调用initTable方法初始化数组的时候,这个是能保证线程安全的,同一个时间只能有一个线程进行初始化,后面再给你分析一下
(2)helpTransfer方法是能进行多线程扩容的,这里保证并发安全的同时还能多线程协作扩容,提升效率
(3)使用加锁的粒度是f = table[i], synchronized(f),只是路由到的哪个数组元素,就对那个元素进行加锁,加锁的粒度很小。
(4)操作成功之后,如果是新增元素,调用addCount方法使用多窗口分段锁思想,进行数量统计,这里也能减少所冲突,提升性能。

2.2.2  initTable方法

private final Node<K,V>[] initTable() {
    Node<K,V>[] tab; int sc;
    // 无限循环,直到成功才退出
    while ((tab = table) == null || tab.length == 0) {
        // sizeCtl初始值是0,使用volatile修饰保证可见性、有序性
        // 第一个进行初始化的线程会将sizeCtl使用cas操作设置为-1
        // 后面第二、第三个线程发现sizeCtl < 0 发现已经有线程在进行初始化操作了
        // 自己就不需要操作了,直接等待初始化完成即可
        if ((sc = sizeCtl) < 0)
            Thread.yield(); // lost initialization race; just spin
        // 走到这里,发现自己是第一个初始化的人,设置sizeCtl初始化标志位-1
        else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
            try {
                if ((tab = table) == null || tab.length == 0) {
                    int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
                    @SuppressWarnings("unchecked")
                    // 这里就没啥好说的了,就是初始化一个数组出来
                    Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                    table = tab = nt;
                    // 初始化好数组之后,sc代表下一次扩容的阈值,默认是12
                    sc = n - (n >>> 2);
                }
            } finally {
                // 由于此时只有一个线程有操作权限,是线程安全的,直接修改即可
                // 设置下次扩容的阈值为sc,也就是12
                sizeCtl = sc;
            }
            break;
        }
    }
    return tab;
}

上面的核心流程比较简单,就不画图了哈,主要包含以下步骤:
(1)第一个进行扩容的线程会将sizeCtl设置为-1,由于使用了volatile修饰,保证可见性
(2)后面进来的线程读取sizeCtl立即可见,发现为-1,说明有人正在初始化了,自己等待初始化完成即可
(3)初始化操作就是创建一个长度为DEFAULT_CAPACITY的数组出来

2.2.3  addCount方法

private final void addCount(long x, int check) {
    // as就是备用窗口列表
    CounterCell[] as; long b, s;
    // 如果备用窗口列表不为空,或者在基础窗口竞争失败,则取备用窗口列表操作
    if ((as = counterCells) != null ||
        // 这里的意思是基础窗口竞争失败
        !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
        CounterCell a; long v; int m;
        boolean uncontended = true;
        // 这里就是从备用窗口列表选一个备用窗口,进行操作了
        // 原理跟LongAdder基本一致的,这里就不详细分析了
        if (as == null || (m = as.length - 1) < 0 ||
            (a = as[ThreadLocalRandom.getProbe() & m]) == null ||
            !(uncontended =
              U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
            fullAddCount(x, uncontended);
            return;
        }
        if (check <= 1)
            return;
        // 这里就是将基础窗口的数量+所有备用窗口的数量,得到容量总和
        s = sumCount();
    }
    if (check >= 0) {
        Node<K,V>[] tab, nt; int n, sc;
        // 这里判断容量 s > sizeCtl,也就是达到了扩容阈值,需要进行扩容操作
        while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
               (n = tab.length) < MAXIMUM_CAPACITY) {
            int rs = resizeStamp(n);
            // 发现sizeCtl说明有线程正在进行扩容
            if (sc < 0) {
                if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                    sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
                    transferIndex <= 0)
                    break;
                if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                    // 进行扩容的方法
                    // 其它线程走到这里,也会取帮助进行扩容,多线程一起扩容
                    transfer(tab, nt);
            }
            // 走到这里说明sizeCtl >= 0,说明自己是第一个执行扩容的线程
            else if (U.compareAndSwapInt(this, SIZECTL, sc,
                                         (rs << RESIZE_STAMP_SHIFT) + 2))
                // 真正进行扩容的方法
                transfer(tab, null);
            s = sumCount();
        }
    }
}

执行过程大致是:

(1)首先如果是新增操作,需要将容量+1,容量增加为了提升并发的性能,使用多窗口统计的机制,将竞争压力分散到多个窗口中
(2)具体增加的操作是,首先竞争常规窗口,进行cas的自增1操作,如果失败则选择从备用窗口列表选择一个窗口,进行cas自增1操作
(3)这里如果多窗口机制理解有问题,可以回去看看LongAdder的文章,那里有详细的讲解
(4)自增完成后,使用sunCount方法得到当前的容量
(5)判断当前的容量是否达到扩容阈值,如果达到了则进行扩容
(6)扩容的时候可以多个线程进行,每个线程负责一部分数据迁移,有助于提高扩容效率

2.2.4  sumCount方法

final long sumCount() {
    // counterCells是备用窗口列表
    CounterCell[] as = counterCells; CounterCell a;
    // baseCount就是基础窗口的数量
    long sum = baseCount;
    // 这里就是将基础窗口数量 + 所有备用窗口的数量,就得到总数量了
    if (as != null) {
        for (int i = 0; i < as.length; ++i) {
            if ((a = as[i]) != null)
                sum += a.value;
        }
    }
    return sum;
}

这个流程很简单,跟之前看的LongAdder里面获得总数也是一样的,流程完全一样。

2.3  get方法

public V get(Object key) {
    Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
    // 老规矩,计算一下hash码
    int h = spread(key.hashCode());
    if ((tab = table) != null && (n = tab.length) > 0 &&
        // 使用寻址算法,得到自己应该去数组的那个位置找
        (e = tabAt(tab, (n - 1) & h)) != null) {
        // 如果头节点就是自己找的元素,直接返回就好
        if ((eh = e.hash) == h) {
            if ((ek = e.key) == key || (ek != null && key.equals(ek)))
                return e.val;
        }
        // 如果eh < 0,说明正在迁移到新数组,此时就是链表形式
        else if (eh < 0)
            // 调用e.find方法遍历链表的方式查找
            return (p = e.find(h, key)) != null ? p.val : null;
        // 如果还在旧数组,遍历查找
        while ((e = e.next) != null) {
            if (e.hash == h &&
                ((ek = e.key) == key || (ek != null && key.equals(ek))))
                return e.val;
        }
    }
    return null;
}

3  小结

ConcurrentHashMap暂时就先看这么多哈,有理解不对的地方欢迎指正哈。