【Java 并发】【十】【JUC数据结构】【八】ConcurrentHashMap原理-526互联

1 前言

上一节我们讲解了HashMap底层的实现，但是HashMap不是线程安全的，存在多个线程并发操作的线程安全的问题。今天我们就来看一下ConcurrentHashMap这个数据结构，并发安全版本的Map结构。

2 ConcurrentHashMap内部源码

2.1 内部属性

// 最大容量上限，2的30次方
private static final int MAXIMUM_CAPACITY = 1 << 30;

// 默认的初始化容量16
private static final int DEFAULT_CAPACITY = 16;

// 最大的数组长度上限
static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;

// 默认并发能力层级，16
// （默认数组长度是16，每个数组元素都可作为一把锁，所以数组长度是多少默认就有多少把锁）
private static final int DEFAULT_CONCURRENCY_LEVEL = 16;
// 负载因子
private static final float LOAD_FACTOR = 0.75f;
// 红黑树转化条件（链表长度达到8需要转成红黑树，提高查询效率）
static final int TREEIFY_THRESHOLD = 8;
// 非树化条件（红黑树大小小于等于6时候，需要将红黑树转成链表）
static final int UNTREEIFY_THRESHOLD = 6;
// 红黑树化前最小容量（如果当前容量小于64，首先考虑扩容减少hash冲突，而不是进行树化）
static final int MIN_TREEIFY_CAPACITY = 64;

private static final int MIN_TRANSFER_STRIDE = 16;

private static int RESIZE_STAMP_BITS = 16;

private static final int MAX_RESIZERS = (1 << (32 - RESIZE_STAMP_BITS)) - 1;

private static final int RESIZE_STAMP_SHIFT = 32 - RESIZE_STAMP_BITS;
// 标志位，说明当前正在扩容操作，该位置数据正在移动，也就是move（移动）的意思
static final int MOVED = -1;
// 标志位，说明改位置的数据正在进行树化
static final int TREEBIN = -2;
// 保留位置
static final int RESERVED = -3;
// 进行hash算法的时候，保留多少位hash结果，这里是保留int类型中的后31位
static final int HASH_BITS = 0x7fffffff; // usable bits of normal node hash
// 当前机器的cpu核数
static final int NCPU = Runtime.getRuntime().availableProcessors();
// 保存数据的基础数组，使用volatile修饰，保证多线程之间的可见性
transient volatile Node<K,V>[] table;
// 扩容期间的另外一个数组，ConcurrentHashMap扩容期间两个数组都在使用
private transient volatile Node<K,V>[] nextTable;
// 用作大小统计的基础窗口
// ConcurrentHashMap使用多窗口分段锁机制来进行数量统计，提高并发性能
private transient volatile long baseCount;
// 一个标志位，用作数组初始化或者扩容期间的标识
private transient volatile int sizeCtl;
// 扩容期间，下一个需要进行数组迁移的数组下标
private transient volatile int transferIndex;
//
private transient volatile int cellsBusy;
// 窗口列表，用多窗口机制来减少锁冲突，提高高并发的计数统计性能
private transient volatile CounterCell[] counterCells;

上面是ConcurrentHashMap内部属性，接下来我们看一下它的put方法，是怎么使用分段锁、cas操作来保证线程安全同时又提高了并发性能的。

2.2 put方法

public V put(K key, V value) {
    // 内部调用putVal方法
    return putVal(key, value, false);
}

2.2.1 putVal方法

final V putVal(K key, V value, boolean onlyIfAbsent) {
    if (key == null || value == null) throw new NullPointerException();
    // 使用spread函数，得出一个新的hash值
    // 跟上一章节讲的HashMap的hash函数核心思想一样
    // 低16位结果变为高低16位的异或值
    int hash = spread(key.hashCode());
    int binCount = 0;
    // 使用一个无限循环，知道putVal操作成功才退出
    for (Node<K,V>[] tab = table;;) {
        Node<K,V> f; int n, i, fh;
        // 如果基础数组为空或者长度为零，说明还未初始化
        if (tab == null || (n = tab.length) == 0)
            // 首先进行数组的初始化
            tab = initTable();
        // 走到这里说明table数组已经初始化了，肯定不为空
        // 根据寻址算法 (n-1)&hash 找到数组的table[i]位置
        // 如果table[i] == null说明该位置之前没存储元素
        else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
            // 创建一个新的Node节点，使用cas操作将node设置到table[i]位置
            // cas保证原子性，由于table使用volatile关键字修饰，保证可见性、有序性；所以是并发安全的
            if (casTabAt(tab, i, null,
                         new Node<K,V>(hash, key, value, null)))
                // cas成功则退出循环，否则继续
                break;
        }
        // 如果f=table[i]的hash值被标记为MOVED，说明当前正在进行扩容
        else if ((fh = f.hash) == MOVED)
            // 则当前线程帮助进行扩容（多线程扩容，缩短扩容时间）
            // 扩容完成之后再进行重试
            tab = helpTransfer(tab, f);
        else {
            V oldVal = null;
            // 注意这里使用的synchronized进行加锁，加锁的元素是f=table[i]
            // 加锁的是数组的一个元素，通过寻址算法落到哪个位置，就对哪个位置进行加锁
            // 保证并发安全的同时，加锁粒度很小，只要并发操作hash冲突不大，锁冲突就不大
            // 这里就是分段锁的思想了，table数组的每个元素都可以作为一把锁
            // 并发操作时，hash冲突时候才会存在锁竞争
            synchronized (f) {
                // tabAt获取table[i]位置元素，二次确认此Node对象是否还是原来哪个，没被修改过
                if (tabAt(tab, i) == f) {
                    // fh=f.hash >= 0 说明未扩容或者红黑树化
                    // 在扩容或者初始化的时候会把table[i]所在元素的hash改为小于0
                    // 表示正在进行扩容、移动数据、进行树化等操作
                    if (fh >= 0) {
                        binCount = 1;
                        // 这里就跟之前HashMap一样，就是从头遍历链表
                        // 一个个查找节点是否Key与传入一样，如果一样则替换value值即可
                        // 如果不一样，则在链表尾部插入一个新的节点
                        // 由于使用了synchronized，是并发安全的
                        for (Node<K,V> e = f;; ++binCount) {
                            K ek;
                            if (e.hash == hash &&
                                ((ek = e.key) == key ||
                                 (ek != null && key.equals(ek)))) {
                                oldVal = e.val;
                                if (!onlyIfAbsent)
                                    e.val = value;
                                break;
                            }
                            Node<K,V> pred = e;
                            if ((e = e.next) == null) {
                                pred.next = new Node<K,V>(hash, key,
                                                          value, null);
                                break;
                            }
                        }
                    }
                    // 如果f节点是红黑树
                    else if (f instanceof TreeBin) {
                        Node<K,V> p;
                        binCount = 2;
                        // 对红黑树进行遍历，如果有节点Key与传入key一直，则替换value值即可
                        // 否则需要插入一个新的节点
                        if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                       value)) != null) {
                            oldVal = p.val;
                            if (!onlyIfAbsent)
                                p.val = value;
                        }
                    }
                }
            }
            if (binCount != 0) {
               // 达到了树化条件，table[i]位置的链表转成红黑树
                if (binCount >= TREEIFY_THRESHOLD)
                    treeifyBin(tab, i);
                if (oldVal != null)
                    return oldVal;
                break;
            }
        }
    }
    // 这里使用并发多窗口分段统计的思想，进行计数统计
    addCount(1L, binCount);
    return null;
}

我们画个图理解一下：

（1）调用initTable方法初始化数组的时候，这个是能保证线程安全的，同一个时间只能有一个线程进行初始化，后面再给你分析一下
（2）helpTransfer方法是能进行多线程扩容的，这里保证并发安全的同时还能多线程协作扩容，提升效率
（3）使用加锁的粒度是f = table[i], synchronized(f)，只是路由到的哪个数组元素，就对那个元素进行加锁，加锁的粒度很小。
（4）操作成功之后，如果是新增元素，调用addCount方法使用多窗口分段锁思想，进行数量统计，这里也能减少所冲突，提升性能。

2.2.2 initTable方法

private final Node<K,V>[] initTable() {
    Node<K,V>[] tab; int sc;
    // 无限循环，直到成功才退出
    while ((tab = table) == null || tab.length == 0) {
        // sizeCtl初始值是0，使用volatile修饰保证可见性、有序性
        // 第一个进行初始化的线程会将sizeCtl使用cas操作设置为-1
        // 后面第二、第三个线程发现sizeCtl < 0 发现已经有线程在进行初始化操作了
        // 自己就不需要操作了，直接等待初始化完成即可
        if ((sc = sizeCtl) < 0)
            Thread.yield(); // lost initialization race; just spin
        // 走到这里，发现自己是第一个初始化的人，设置sizeCtl初始化标志位-1
        else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
            try {
                if ((tab = table) == null || tab.length == 0) {
                    int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
                    @SuppressWarnings("unchecked")
                    // 这里就没啥好说的了，就是初始化一个数组出来
                    Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                    table = tab = nt;
                    // 初始化好数组之后，sc代表下一次扩容的阈值，默认是12
                    sc = n - (n >>> 2);
                }
            } finally {
                // 由于此时只有一个线程有操作权限，是线程安全的，直接修改即可
                // 设置下次扩容的阈值为sc，也就是12
                sizeCtl = sc;
            }
            break;
        }
    }
    return tab;
}

上面的核心流程比较简单，就不画图了哈，主要包含以下步骤：
（1）第一个进行扩容的线程会将sizeCtl设置为-1，由于使用了volatile修饰，保证可见性
（2）后面进来的线程读取sizeCtl立即可见，发现为-1，说明有人正在初始化了，自己等待初始化完成即可
（3）初始化操作就是创建一个长度为DEFAULT_CAPACITY的数组出来

2.2.3 addCount方法

private final void addCount(long x, int check) {
    // as就是备用窗口列表
    CounterCell[] as; long b, s;
    // 如果备用窗口列表不为空，或者在基础窗口竞争失败，则取备用窗口列表操作
    if ((as = counterCells) != null ||
        // 这里的意思是基础窗口竞争失败
        !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
        CounterCell a; long v; int m;
        boolean uncontended = true;
        // 这里就是从备用窗口列表选一个备用窗口，进行操作了
        // 原理跟LongAdder基本一致的，这里就不详细分析了
        if (as == null || (m = as.length - 1) < 0 ||
            (a = as[ThreadLocalRandom.getProbe() & m]) == null ||
            !(uncontended =
              U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
            fullAddCount(x, uncontended);
            return;
        }
        if (check <= 1)
            return;
        // 这里就是将基础窗口的数量+所有备用窗口的数量，得到容量总和
        s = sumCount();
    }
    if (check >= 0) {
        Node<K,V>[] tab, nt; int n, sc;
        // 这里判断容量 s > sizeCtl，也就是达到了扩容阈值，需要进行扩容操作
        while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
               (n = tab.length) < MAXIMUM_CAPACITY) {
            int rs = resizeStamp(n);
            // 发现sizeCtl说明有线程正在进行扩容
            if (sc < 0) {
                if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                    sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
                    transferIndex <= 0)
                    break;
                if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                    // 进行扩容的方法
                    // 其它线程走到这里，也会取帮助进行扩容，多线程一起扩容
                    transfer(tab, nt);
            }
            // 走到这里说明sizeCtl >= 0，说明自己是第一个执行扩容的线程
            else if (U.compareAndSwapInt(this, SIZECTL, sc,
                                         (rs << RESIZE_STAMP_SHIFT) + 2))
                // 真正进行扩容的方法
                transfer(tab, null);
            s = sumCount();
        }
    }
}

执行过程大致是：

（1）首先如果是新增操作，需要将容量+1，容量增加为了提升并发的性能，使用多窗口统计的机制，将竞争压力分散到多个窗口中
（2）具体增加的操作是，首先竞争常规窗口，进行cas的自增1操作，如果失败则选择从备用窗口列表选择一个窗口，进行cas自增1操作
（3）这里如果多窗口机制理解有问题，可以回去看看LongAdder的文章，那里有详细的讲解
（4）自增完成后，使用sunCount方法得到当前的容量
（5）判断当前的容量是否达到扩容阈值，如果达到了则进行扩容
（6）扩容的时候可以多个线程进行，每个线程负责一部分数据迁移，有助于提高扩容效率

2.2.4 sumCount方法

final long sumCount() {
    // counterCells是备用窗口列表
    CounterCell[] as = counterCells; CounterCell a;
    // baseCount就是基础窗口的数量
    long sum = baseCount;
    // 这里就是将基础窗口数量 + 所有备用窗口的数量，就得到总数量了
    if (as != null) {
        for (int i = 0; i < as.length; ++i) {
            if ((a = as[i]) != null)
                sum += a.value;
        }
    }
    return sum;
}

这个流程很简单，跟之前看的LongAdder里面获得总数也是一样的，流程完全一样。

2.3 get方法

public V get(Object key) {
    Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
    // 老规矩，计算一下hash码
    int h = spread(key.hashCode());
    if ((tab = table) != null && (n = tab.length) > 0 &&
        // 使用寻址算法，得到自己应该去数组的那个位置找
        (e = tabAt(tab, (n - 1) & h)) != null) {
        // 如果头节点就是自己找的元素，直接返回就好
        if ((eh = e.hash) == h) {
            if ((ek = e.key) == key || (ek != null && key.equals(ek)))
                return e.val;
        }
        // 如果eh < 0,说明正在迁移到新数组，此时就是链表形式
        else if (eh < 0)
            // 调用e.find方法遍历链表的方式查找
            return (p = e.find(h, key)) != null ? p.val : null;
        // 如果还在旧数组，遍历查找
        while ((e = e.next) != null) {
            if (e.hash == h &&
                ((ek = e.key) == key || (ek != null && key.equals(ek))))
                return e.val;
        }
    }
    return null;
}

3 小结

ConcurrentHashMap暂时就先看这么多哈，有理解不对的地方欢迎指正哈。

数据结构concurrenthashmap原理hashmap

数据结构concurrenthashmap原理结构

数据结构concurrenthashmap底层源码

数据结构高阶原理结构

数据结构sparsearray原理android

数据结构原理常见结构

数据结构队列大堆原理

数据结构索引原理结构

数据结构copyonwritearraylist原理结构

数据结构队列synchronousqueue原理