此篇了解 HashSet 与 HashMap
 
哈希算法 哈希算法(Hash Algorithm)是一种将任意大小的数据映射到固定大小的数据的算法。它通过一个散列函数(hash function)将输入数据(称为键或消息)转换为一个散列值(hash value)或哈希码(hash code)。哈希算法的关键特性包括:
确定性 :相同的输入始终产生相同的输出 
高效性 :计算哈希值的时间复杂度通常是O(1) 
均匀性 :理想情况下,不同的输入应尽可能均匀地分布在输出空间中,减少冲突 
不可逆性 :从哈希值反推出输入数据应极其困难 
 
Java String hashCode 1 2 3 4 5 6 7 8 9 10 11 public  int  hashCode ()  {    int  h  =  hash;      if  (h == 0  && value.length > 0 ) {          char  val[] = value;          for  (int  i  =  0 ; i < value.length; i++) {              h = 31  * h + val[i];          }         hash = h;      }     return  h;  } 
 
计算过程:
缓存的哈希值
String 类有一个私有字段 hash 来缓存哈希值。首次计算后,哈希值会被缓存起来,以避免重复计算
 
检查哈希值是否已计算
如果哈希值 h 为 0 且字符串不为空,则需要计算哈希值。对于空字符串,哈希值为 0
 
获取字符数组
String 对象的字符内容存储在 char[] value 中,算法通过遍历该字符数组来计算哈希值
 
遍历字符数组
通过循环遍历字符串的每个字符,逐步累积哈希值
 
计算哈希值
每次迭代时,将当前哈希值乘以 31(一个质数),然后加上当前字符的 Unicode 值。选择 31 作为乘数是因为 乘法操作可以被优化为移位和减法操作 (31 * i == (i << 5) - i),这在某些架构上更为高效。此外,31 是一个奇质数,可以产生较好的哈希分布
 
 
哈希冲突 根据鸽笼原理(Pigeonhole Principle),如果将n+1个或更多的鸽子放到n个鸽笼中,至少有一个鸽笼包含多于一个鸽子。类似地,如果输入数据的可能性远大于哈希值的可能性,就必然会有不同的输入得到相同的哈希值。
虽然无法完全避免哈希冲突,但可以通过以下方法来处理冲突:
链地址法(Chaining) 
开放寻址法(Open Addressing) 
 
链地址法 在原始哈希表中,每个桶仅能存储一个键值对。链地址法将单个元素转换为链表,将键值对作为链表节点,将所有发生冲突的键值对都存储在同一链表中
基于链式地址实现的哈希表的操作方法发生了以下变化:
查询元素 :输入 key ,经过哈希函数得到桶索引,即可访问链表头节点,然后遍历链表并对比 key 以查找目标键值对 
添加元素 :首先通过哈希函数访问链表头节点,然后将节点(键值对)添加到链表中 
删除元素 :根据哈希函数的结果访问链表头部,接着遍历链表以查找目标节点并将其删除 
 
链式地址存在以下局限性:
占用空间增大 :链表包含节点指针,它相比数组更加耗费内存空间 
查询效率降低 :因为需要线性遍历链表来查找对应元素 
 
开放寻址法 开放寻址法不引入额外的数据结构,而是通过「多次探测」来处理哈希冲突,探测方式主要包括线性探测、平方探测和多次哈希等
线性探测 线性探测采用固定步长的线性搜索来进行探测,其操作方法与普通哈希表有所不同:
插入元素 :通过哈希函数计算桶索引,若发现桶内已有元素,则从冲突位置向后线性遍历(步长通常为 1 ),直至找到空桶,将元素插入其中 
查找元素 :若发现哈希冲突,则使用相同步长向后进行线性遍历,直到找到对应元素,返回 value 即可;如果遇到空桶,说明目标元素不在哈希表中,返回 None 
 
线性探测容易产生「聚集现象」 ,具体来说,数组中连续被占用的位置越长,这些连续位置发生哈希冲突的可能性越大,从而进一步促使该位置的聚堆生长,形成恶性循环,最终导致增删查改操作效率劣化
平方探测 平方探测与线性探测类似,都是开放寻址的常见策略之一。当发生冲突时,平方探测不是简单地跳过一个固定的步数,而是跳过「探测次数的平方」的步数,即 1,4,9,… 步
平方探测主要具有以下优势:
平方探测通过跳过探测次数平方的距离,试图缓解线性探测的聚集效应 
平方探测会跳过更大的距离来寻找空位置,有助于数据分布得更加均匀 
 
存在的问题:
仍然存在聚集现象,即某些位置比其他位置更容易被占用 
由于平方的增长,平方探测可能不会探测整个哈希表,这意味着即使哈希表中有空桶,平方探测也可能无法访问到它 
 
多次哈希 顾名思义,多次哈希方法使用多个哈希函数 𝑓1(𝑥)、𝑓2(𝑥)、𝑓3(𝑥)、… 进行探测
插入元素 :若哈希函数 𝑓1(𝑥) 出现冲突,则尝试 𝑓2(𝑥) ,以此类推,直到找到空位后插入元素。 
查找元素 :在相同的哈希函数顺序下进行查找,直到找到目标元素时返回;若遇到空位或已尝试所有哈希函数,说明哈希表中不存在该元素,则返回 None 
 
与线性探测相比,多次哈希方法不易产生聚集,但多个哈希函数会带来额外的计算量
开放寻址(线性探测、平方探测和多次哈希)都会存在「不能直接删除元素」的问题
因为元素间存在依赖,删除一个元素后,其后续元素在探查时可能无法找到正确的位置,因为探查路径被破坏
 
不同语言的选择 
Python 采用开放寻址。字典 dict 使用伪随机数进行探测 
Java 采用链式地址。自 JDK 1.8 以来,当 HashMap 内数组长度达到 64 且链表长度达到 8 时,链表会转换为红黑树以提升查找性能 
Go 采用链式地址。Go 规定每个桶最多存储 8 个键值对,超出容量则连接一个溢出桶;当溢出桶过多时,会执行一次特殊的等量扩容操作,以确保性能 
 
Java 7 HashMap 
整体结构十分简单,数组+链表
每个绿色的实体是嵌套类 Entry 的实例,Entry 包含四个属性:key, value, hash 值和用于单向链表的 next
capacity:当前数组容量,始终保持 2^n,可以扩容,扩容后数组大小为当前的 2 倍
loadFactor:负载因子,默认为 0.75
threshold:扩容的阈值,等于 capacity * loadFactor
负载因子通过控制哈希表的密度来平衡时间复杂度和空间复杂度
较低的负载因子 :降低负载因子(如 0.5)会使哈希表在容量达到 50% 时进行扩容。这可以显著减少哈希冲突,提升查找速度,但会增加内存消耗
较高的负载因子 :提高负载因子(如 1.0 或更高)则会延迟扩容,节省内存,但会增加哈希冲突,可能导致查找、插入和删除操作的性能下降
 
put 方法 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 public  V put (K key, V value)  {         if  (table == EMPTY_TABLE) {         inflateTable(threshold);     }          if  (key == null )         return  putForNullKey(value);          int  hash  =  hash(key);          int  i  =  indexFor(hash, table.length);               for  (Entry<K,V> e = table[i]; e != null ; e = e.next) {         Object k;         if  (e.hash == hash && ((k = e.key) == key || key.equals(k))) {             V  oldValue  =  e.value;             e.value = value;             e.recordAccess(this );             return  oldValue;         }     }     modCount++;          addEntry(hash, key, value, i);     return  null ; } 
 
初始化数组 inflateTable(threshold);
1 2 3 4 5 6 7 8 9 10 private  void  inflateTable (int  toSize)  {              int  capacity  =  roundUpToPowerOf2(toSize);          threshold = (int ) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1 );          table = new  Entry [capacity];     initHashSeedAsNeeded(capacity);  } 
 
初始数组容量设置为 2 的 n 次幂是为了高效的位运算、均匀分布哈希值、减少哈希冲突以及简化扩容机制,提高 HashMap 的性能和效率
 
计算对应数组下标 int i = indexFor(hash, table.length);
1 2 3 4 static  int  indexFor (int  hash, int  length)  {         return  hash & (length-1 ); } 
 
这个就是取 hash 值的低 n 位。如在数组长度为 32 的时候,其实取的就是 key 的 hash 值的低 5 位,作为它在数组中的下标位置
添加节点到链表中 找到数组下标后,会先进行 key 判重,如果没有重复,就准备将新值放入到链表的 表头 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 void  addEntry (int  hash, K key, V value, int  bucketIndex)  {         if  ((size >= threshold) && (null  != table[bucketIndex])) {                  resize(2  * table.length);                  hash = (null  != key) ? hash(key) : 0 ;                  bucketIndex = indexFor(hash, table.length);     }          createEntry(hash, key, value, bucketIndex); } void  createEntry (int  hash, K key, V value, int  bucketIndex)  {    Entry<K,V> e = table[bucketIndex];     table[bucketIndex] = new  Entry <>(hash, key, value, e);     size++; } 
 
这个方法的主要逻辑就是先判断是否需要扩容,需要的话先扩容,然后再将这个新的数据插入到扩容后的数组的相应位置处的链表的表头
数组扩容 如果 当前的 size 已经达到了阈值,并且要插入的数组位置上已经有元素 ,那么就会触发扩容,扩容后,数组大小为原来的 2 倍
1 2 3 4 5 6 7 8 9 10 11 12 13 14 void  resize (int  newCapacity)  {    Entry[] oldTable = table;     int  oldCapacity  =  oldTable.length;     if  (oldCapacity == MAXIMUM_CAPACITY) {         threshold = Integer.MAX_VALUE;         return ;     }          Entry[] newTable = new  Entry [newCapacity];          transfer(newTable, initHashSeedAsNeeded(newCapacity));     table = newTable;     threshold = (int )Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1 ); } 
 
扩容就是用一个新的大数组替换原来的小数组,并将原来数组中的值迁移到新的数组中
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 void  transfer (Entry[] newTable, boolean  rehash)  {    int  newCapacity  =  newTable.length;          for  (Entry<K,V> e : table) {         while  (null  != e) {             Entry<K,V> next = e.next;             if  (rehash) {                 e.hash = null  == e.key ? 0  : hash(e.key);             }                          int  i  =  indexFor(e.hash, newCapacity);                          e.next = newTable[i];             newTable[i] = e;             e = next;         }     } } 
 
迁移后的链表元素顺序会发生颠倒(头插法)
多线程下迁移会导致指针指向错误,形成环形链表,导致死循环
 
get 方法 相对于 put 过程,get 过程是非常简单的:
根据 key 计算 hash 值 
找到相应的数组下标:hash & (length - 1) 
遍历该数组位置处的链表,直到找到相等的 key 
 
1 2 3 4 5 6 7 8 9 public  V get (Object key)  {         if  (key == null )         return  getForNullKey();     Entry<K,V> entry = getEntry(key);     return  null  == entry ? null  : entry.getValue(); } 
 
Entry<K,V> entry = getEntry(key)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 final  Entry<K,V> getEntry (Object key)  {    if  (size == 0 ) {         return  null ;     }     int  hash  =  (key == null ) ? 0  : hash(key);          for  (Entry<K,V> e = table[indexFor(hash, table.length)];          e != null ;          e = e.next) {         Object k;         if  (e.hash == hash &&             ((k = e.key) == key || (key != null  && key.equals(k))))             return  e;     }     return  null ; } 
 
Java 8 HashMap Java 8 对 HashMap 进行了一些修改,最大的不同就是利用了红黑树,所以其由 数组+链表+红黑树  组成
Java 7 HashMap 查找的时候,根据 hash 值我们能够快速定位到数组的具体下标,但是之后的话,需要顺着链表一个个比较下去才能找到我们需要的,时间复杂度取决于链表的长度,为 O(n) 
为了降低这部分的开销,在 Java 8 中,当链表中的元素达到了 8 个时,会将链表转换为红黑树,在这些位置进行查找的时候可以降低时间复杂度为 O(logN) 
Java 7 中使用 Entry 来代表每个 HashMap 中的数据节点,Java 8 中使用 Node ,基本没有区别,都是 key,value,hash 和 next 这四个属性,不过,Node 只能用于链表的情况,红黑树的情况需要使用 TreeNode 
put 方法 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 public  V put (K key, V value)  {    return  putVal(hash(key), key, value, false , true ); } final  V putVal (int  hash, K key, V value, boolean  onlyIfAbsent, boolean  evict)  {    Node<K,V>[] tab; Node<K,V> p; int  n, i;          if  ((tab = table) == null  || (n = tab.length) == 0 ) {                      n = (tab = resize()).length;     }          if  ((p = tab[i = (n - 1 ) & hash]) == null ) {         tab[i] = newNode(hash, key, value, null );     } else  {         Node<K,V> e; K k;                  if  (p.hash == hash &&             ((k = p.key) == key || (key != null  && key.equals(k)))) {             e = p;         }         else  if  (p instanceof  TreeNode) {             e = ((TreeNode<K,V>)p).putTreeVal(this , tab, hash, key, value);         }         else  {             for  (int  binCount  =  0 ; ; ++binCount) {                                                   if  ((e = p.next) == null ) {                                          p.next = newNode(hash, key, value, null );                                          if  (binCount >= TREEIFY_THRESHOLD - 1 ) {                                                  treeifyBin(tab, hash);                     }                     break ;                 }                                  if  (e.hash == hash &&                     ((k = e.key) == key || (key != null  && key.equals(k)))) {                                          break ;                 }                                  p = e;             }         }                           if  (e != null ) {             V  oldValue  =  e.value;             if  (!onlyIfAbsent || oldValue == null ) {                 e.value = value;             }             afterNodeAccess(e);             return  oldValue;         }     }     ++modCount;          if  (++size > threshold)         resize();     afterNodeInsertion(evict);     return  null ; } 
 
TREEIFY_THRESHOLD 为什么为 8?
如果 hashCode 分布良好,也就是 hash 计算的结果离散好的话,那么红黑树这种形式是很少会被用到的,因为各个值都均匀分布,很少出现链表很长的情况。在理想情况下,桶(bins)中的节点数概率(链表长度)符合泊松分布,当桶中节点数(链表长度)为 8 的时候,概率仅为 0.00000006。这是一个小于千万分之一的概率,通常我们的 Map 里面是不会存储这么多的数据的,所以通常情况下,并不会发生从链表向红黑树的转换
 
treeifyBin(tab, hash);
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 final  void  treeifyBin (Node<K,V>[] tab, int  hash)  {    int  n, index; Node<K,V> e;     if  (tab == null  || (n = tab.length) < MIN_TREEIFY_CAPACITY)                  resize();     else  if  ((e = tab[index = (n - 1 ) & hash]) != null ) {         TreeNode<K,V> hd = null , tl = null ;         do  {             TreeNode<K,V> p = replacementTreeNode(e, null );             if  (tl == null )                 hd = p;             else  {                 p.prev = tl;                 tl.next = p;             }             tl = p;         } while  ((e = e.next) != null );         if  ((tab[index] = hd) != null )             hd.treeify(tab);     } } 
 
并不是说链表长度大于等于 8 时,就一定会将链表转为红黑树,如果数组长度小于 64,则会优先进行扩容
红黑树中树节点所占的空间是普通节点的 2 倍
当桶中的节点数过少时 (由于移除或调整),树节点又会被转换回普通节点(当桶中的节点数量过少时,原来的红黑树树节点又会转化为链式存储的普通节点),以便节省空间
 
数组扩容 resize();
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 final  Node<K,V>[] resize() {    Node<K,V>[] oldTab = table;     int  oldCap  =  (oldTab == null ) ? 0  : oldTab.length;     int  oldThr  =  threshold;          int  newCap, newThr = 0 ;     if  (oldCap > 0 ) {          if  (oldCap >= MAXIMUM_CAPACITY) {             threshold = Integer.MAX_VALUE;             return  oldTab;         }                  else  if  ((newCap = oldCap << 1 ) < MAXIMUM_CAPACITY &&                  oldCap >= DEFAULT_INITIAL_CAPACITY)                          newThr = oldThr << 1 ;      }     else  if  (oldThr > 0 )          newCap = oldThr;     else  {         newCap = DEFAULT_INITIAL_CAPACITY;         newThr = (int )(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);     }     if  (newThr == 0 ) {         float  ft  =  (float )newCap * loadFactor;         newThr = (newCap < MAXIMUM_CAPACITY && ft < (float )MAXIMUM_CAPACITY ?                   (int )ft : Integer.MAX_VALUE);     }     threshold = newThr;          Node<K,V>[] newTab = (Node<K,V>[])new  Node [newCap];     table = newTab;      if  (oldTab != null ) {                  for  (int  j  =  0 ; j < oldCap; ++j) {             Node<K,V> e;             if  ((e = oldTab[j]) != null ) {                 oldTab[j] = null ;                                  if  (e.next == null )                     newTab[e.hash & (newCap - 1 )] = e;                                  else  if  (e instanceof  TreeNode)                     ((TreeNode<K,V>)e).split(this , newTab, j, oldCap);                 else  {                                                                Node<K,V> loHead = null , loTail = null ;                      Node<K,V> hiHead = null , hiTail = null ;                      Node<K,V> next;                     do  {                         next = e.next;                         if  ((e.hash & oldCap) == 0 ) {                             if  (loTail == null )                                 loHead = e;                             else                                  loTail.next = e;                             loTail = e;                         }                         else  {                             if  (hiTail == null )                                 hiHead = e;                             else                                  hiTail.next = e;                             hiTail = e;                         }                     } while  ((e = next) != null );                     if  (loTail != null ) {                         loTail.next = null ;                                                  newTab[j] = loHead;                     }                     if  (hiTail != null ) {                         hiTail.next = null ;                                                  newTab[j + oldCap] = hiHead;                     }                 }             }         }     }     return  newTab; } 
 
e.hash & oldCap,已知 oldCap 为 2 的 n 次幂,所以如果元素 e 为之前加入的元素,那么 e.hash & oldCap 就会为 0
这里扩容时通过高、低两条链表可以显著减少扩容时的计算和数据移动量,提高扩容效率,并且还可以保证元素的相对顺序不会发生改变
 
get 方法 相对于 put 来说,get 真的太简单了:
计算 key 的 hash 值,根据 hash 值找到对应数组下标: hash & (length-1) 
判断数组该位置处的元素是否刚好就是我们要找的,如果不是,走第三步 
判断该元素类型是否是 TreeNode,如果是,用红黑树的方法取数据,如果不是,走第四步 
遍历链表,直到找到相等的 key 
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 public  V get (Object key)  {    Node<K,V> e;     return  (e = getNode(hash(key), key)) == null  ? null  : e.value; } final  Node<K,V> getNode (int  hash, Object key)  {    Node<K,V>[] tab; Node<K,V> first, e; int  n; K k;     if  ((tab = table) != null  && (n = tab.length) > 0  &&         (first = tab[(n - 1 ) & hash]) != null ) {                  if  (first.hash == hash &&              ((k = first.key) == key || (key != null  && key.equals(k))))             return  first;         if  ((e = first.next) != null ) {                          if  (first instanceof  TreeNode)                 return  ((TreeNode<K,V>)first).getTreeNode(hash, key);                          do  {                 if  (e.hash == hash &&                     ((k = e.key) == key || (key != null  && key.equals(k))))                     return  e;             } while  ((e = e.next) != null );         }     }     return  null ; } 
 
HashSet HashSet  是对 HashMap  的简单包装,对 HashSet  的函数调用都会转换成合适的 HashMap  方法,因此 HashSet  的实现非常简单,只有不到 300 行代码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 public  class  HashSet <E>    extends  AbstractSet <E>     implements  Set <E>, Cloneable, java.io.Serializable {     private  transient  HashMap<E,Object> map;          public  HashSet ()  {         map = new  HashMap <>();     }          public  HashSet (Collection<? extends E> c)  {         map = new  HashMap <>(Math.max((int ) (c.size()/.75f ) + 1 , 16 ));         addAll(c);     }          public  HashSet (int  initialCapacity, float  loadFactor)  {         map = new  HashMap <>(initialCapacity, loadFactor);     }          public  HashSet (int  initialCapacity)  {         map = new  HashMap <>(initialCapacity);     }          ...... } 
 
Thanks Java7/8 中的 HashMap 和 ConcurrentHashMap 全解析_Javadoop 
第 6 章  哈希表 - Hello 算法