深入学习Redis（三），基本类型「Hash」剖析

2019-11-08 20:23:59 GetJob

更多精彩文章，关注【ToBeTopJavaer】，更有数万元精品vip资源免费等你来拿！！！

接下来我们要剖析的基本类型是Hash，相信大家对Hash都不会陌生吧，下面我们将深入源码剖析Redis中Hash的实现。

首先我们看一张图：

存储类型

包含键值对的无序散列表。value 只能是字符串，不能嵌套其他类型。

同样是存储字符串，Hash 与 String 的主要区别？

1、把所有相关的值聚集到一个 key 中，节省内存空间

2、只使用一个 key，减少 key 冲突

3、当需要批量获取值的时候，只需要使用一个命令，减少内存/IO/CPU 的消耗

Hash 不适合的场景：

1、Field 不能单独设置过期时间

2、没有 bit 操作

3、需要考虑数据量分布的问题（value 值非常大的时候，无法分布到多个节点）

操作命令

存储（实现）原理

Redis 的 Hash 本身也是一个 KV 的结构，类似于 Java 中的 HashMap。

外层的哈希（Redis KV 的实现）只用到了 hashtable。当存储 hash 数据类型时，

我们把它叫做内层的哈希。内层的哈希底层可以使用两种数据结构实现：

ziplist：OBJ_ENCODING_ZIPLIST（压缩列表）

hashtable：OBJ_ENCODING_HT（哈希表）

如下图所示：

问题一、那么在什么时候会用到ziplist，什么时候用到hashtable呢？

在redis.conf我们可以看到：

在源码中：

/* 源码位置： t_hash.c ，当达字段个数超过阈值，使用 HT 作为编码 */ if (hashTypeLength(o) > server.hash_max_ziplist_entries) hashTypeConvert(o, OBJ_ENCODING_HT); /*源码位置： t_hash.c，当字段值长度过大，转为 HT */ for (i = start; i <= end; i++) { if (sdsEncodedObject(argv[i]) && sdslen(argv[i]->ptr) > server.hash_max_ziplist_value) { hashTypeConvert(o, OBJ_ENCODING_HT); break; } }复制代码

从而我们可以得知，当 hash 对象同时满足以下两个条件的时候，使用 ziplist 编码：

1）所有的键值对的健和值的字符串长度都小于等于 64byte（一个英文字母

一个字节）；

2）哈希对象保存的键值对数量小于 512 个。

一个哈希对象超过配置的阈值（键和值的长度有>64byte，键值对个数>512 个）时，

会转换成哈希表（hashtable）。

问题二、什么是ziplist压缩列表

ziplist 压缩列表

ziplist 压缩列表是什么？

ziplist 是一个经过特殊编码的双向链表，它不存储指向上一个链表节点和指向下一

个链表节点的指针，而是存储上一个节点长度和当前节点长度，通过牺牲部分读写性能，

来换取高效的内存空间利用率，是一种时间换空间的思想。只用在字段个数少，字段值

小的场景里面。

ziplist 的内部结构？

总体架构如下图所示：

entry对象定义的源码如下：

typedef struct zlentry { unsigned int prevrawlensize; /* 上一个链表节点占用的长度 */ unsigned int prevrawlen; /* 存储上一个链表节点的长度数值所需要的字节数 */ unsigned int lensize; /* 存储当前链表节点长度数值所需要的字节数 */ unsigned int len; /* 当前链表节点占用的长度 */ unsigned int headersize; /* 当前链表节点的头部大小（prevrawlensize + lensize），即非数据域的大小 */ unsigned char encoding; /* 编码方式 */ unsigned char *p; /* 压缩链表以字符串的形式保存，该指针指向当前节点起始位置 */ } zlentry;复制代码

问题三、什么是hashtable（ dict）？

hashtable是什么？

在 Redis 中，hashtable 被称为字典（dictionary），它是一个数组+链表的结构。

前面我们知道了，Redis 的 KV 结构是通过一个 dictEntry 来实现的。

Redis 又对 dictEntry 进行了多层的封装。

dictEntry 定义如下：

typedef struct dictEntry { void *key; /* key 关键字定义 */ union { void *val; uint64_t u64; /* value 定义 */ int64_t s64; double d; } v; struct dictEntry *next; /* 指向下一个键值对节点 */ } dictEntry复制代码

dictEntry 放到了 dictht（hashtable 里面）：

/* This is our hash table structure. Every dictionary has two of this as we * implement incremental rehashing, for the old to the new table. */ typedef struct dictht { dictEntry **table; /* 哈希表数组 */ unsigned long size; /* 哈希表大小 */ unsigned long sizemask; /* 掩码大小，用于计算索引值。总是等于 size-1 */ unsigned long used; /* 已有节点数 */ } dictht;复制代码

dictht 放到了 dict 里面：

typedef struct dict { dictType *type; /* 字典类型 */ void *privdata; /* 私有数据 */ dictht ht[2]; /* 一个字典有两个哈希表 */ long rehashidx; /* rehash 索引 */ unsigned long iterators; /* 当前正在使用的迭代器数量 */ } dict;复制代码

从最底层到最高层 dictEntry——dictht——dict——OBJ_ENCODING_HT

哈希的总体存储结构如下：

注意： dictht 后面是 NULL 说明第二个 ht 还没用到。 dictEntry*后面是 NULL 说明没有 hash 到这个地址。 dictEntry 后面是NULL 说明没有发生哈希冲突。

问题三、为什么要定义两个hash表呢？ht[2]?

redis 的 hash 默认使用的是 ht[0]，ht[1]不会初始化和分配空间。

哈希表 dictht 是用链地址法来解决碰撞问题的。在这种情况下，哈希表的性能取决于它的大小（size 属性）和它所保存的节点的数量（used 属性）之间的比率：

1. 比率在 1:1 时（一个哈希表 ht 只存储一个节点 entry），哈希表的性能最好；

2. 如果节点数量比哈希表的大小要大很多的话（这个比例用 ratio 表示，5 表示平均一个 ht 存储 5 个 entry），那么哈希表就会退化成多个链表，哈希表本身的性能优势就不再存在。

在这种情况下需要扩容。Redis 里面的这种操作叫做 rehash。

1、为字符 ht[1]哈希表分配空间，这个哈希表的空间大小取决于要执行的操作，以及 ht[0]当前包含的键值对的数量。

扩展：ht[1]的大小为第一个大于等于 ht[0].used*2。

2、将所有的 ht[0]上的节点 rehash 到 ht[1]上，重新计算 hash 值和索引，然后放入指定的位置。

3、当 ht[0]全部迁移到了 ht[1]之后，释放 ht[0]的空间，将 ht[1]设置为 ht[0]表，并创建新的 ht[1]，为下次 rehash 做准备。

问题四、什么时候触发扩容？

关键因素：负载因子

定义源码如下：

static int dict_can_resize = 1; static unsigned int dict_force_resize_ratio = 5;复制代码

ratio = used / size，已使用节点与字典大小的比例。

dict_can_resize 为 1 并且 dict_force_resize_ratio 已使用节点数和字典大小之间的比率超过 1：5，触发扩容。

扩容判断 _dictExpandIfNeeded源码如下：

if (d->ht[0].used >= d->ht[0].size &&(dict_can_resize || d->ht[0].used/d->ht[0].size > dict_force_resize_ratio)) { return dictExpand(d, d->ht[0].used*2); }r eturn DICT_OK;复制代码

扩容方法 dictExpand源码如下：

static int dictExpand(dict *ht, unsigned long size) { dict n; /* the new hashtable */ unsigned long realsize = _dictNextPower(size), i; /* the size is invalid if it is smaller than the number of * elements already inside the hashtable */ if (ht->used > size) return DICT_ERR; _dictInit(&n, ht->type, ht->privdata); n.size = realsize; n.sizemask = realsize-1; n.table = calloc(realsize,sizeof(dictEntry*)); /* Copy all the elements from the old to the new table: * note that if the old hash table is empty ht->size is zero, * so dictExpand just creates an hash table. */ n.used = ht->used; for (i = 0; i < ht->size && ht->used > 0; i++) { dictEntry *he, *nextHe; if (ht->table[i] == NULL) continue; /* For each hash entry on this slot... */ he = ht->table[i]; while(he) { unsigned int h; nextHe = he->next; /* Get the new element index */ h = dictHashKey(ht, he->key) & n.sizemask; he->next = n.table[h]; n.table[h] = he; ht->used--; /* Pass to the next element */ he = nextHe; } }a ssert(ht->used == 0); free(ht->table); /* Remap the new hashtable in the old */ *ht = n; return DICT_OK; }复制代码

缩容源码如下：

int htNeedsResize(dict *dict) { long long size, used; size = dictSlots(dict); used = dictSize(dict); return (size > DICT_HT_INITIAL_SIZE &&(used*100/size < HASHTABLE_MIN_FILL)); }复制代码

应用场景

String

String 可以做的事情，Hash 都可以做。

存储对象类型的数据

比如对象或者一张表的数据，比 String 节省了更多 key 的空间，也更加便于集中管理。

购物车

key：用户 id；

field：商品 id；

value：商品数量。

+1：hincr。

-1：hdecr。

删除：hdel。

全选：hgetall。

商品数：hlen。

今天我们从底层源码剖析了基本数据类型Hash，接下来我们将会对剩下的几个常用的基本类型的深入探讨，敬请期待。

更多精彩文章，关注【ToBeTopJavaer】，更有数万元精品vip资源免费等你来拿！！！

欢迎关注，会陆续发布一些知识点总结，减少你的读书时间，一起交流面试经验！每月随机抽取20名粉丝进入高级技术交流群（大量资料、BAT员工）！

div class="pgc-img">

分享到:

閱讀更多 GetJob 的文章

關鍵字: 数据结构 Redis 镜音双子

Redis 创始人宣布 Redis 6.0.0 稳定版正式 GA

【开源推荐】Redis 桌面管理工具RedisDesktopManager2020.0 发布

高频Redis面试题解析：Redis 事务是否具备原子性？

Redis 的多线程版本比 Redis 本身要快 5 倍

Redis zset内部实现

Redis 压力测试

Redis 高可用

Redis 缓存

Redis Set和ZSet常用命令

Redis 的数据淘汰策略

Redis 的持久化底层如何实现的和优点缺点

Redis Hash和List常用命令

惊呆了，竟然可以用这种方式秒建 Redis 集群？

redis 安装及队列应用测试

关于缓存穿透、缓存击穿、缓存雪崩的模拟与解决(Redis)

Redis 官网昨日宕机，错误提示为无法连接 Redis

Redis 位图基础到统计活跃用户

redis 常用7种数据类型的使用场景解析

Redis Cluster 3.0集群部署与使用

Redis 讲解系列之与Spring集成

Redis 如何处理已过期的元素？

01.21 「Redis 干货」如何将 Redis 的内存优化？

「Redis」Redis 基础

12.24 面试必问：Redis 是如何进行主从复制的？

Redis 复制搭建

Redis 的 Sentinel

12.03 redis 安装启动

12.02 Redis-AOF持久化

Redis 面试热点：什么是 Redis 的雪崩、穿透和击穿？（附笔记）

Redis 持久化

Redis 消息队列的实现和区别

Redis 一站式管理平台

redis 延时队列

基于 Electron 的 Redis 图形化客户端 k-Redis 数

基于 Electron 的 Redis 图形化客户端 k-Redis

Redis 分布式锁的正确实现方式（Java版）

redis 常见数据结构实现

redis 中如何切换db

Redis 集群分布式锁与 API 网关分布式限流

Redis 内存淘汰机制详解

Redis 5 有序集合新增命令

Redis 杀死许可证：RediSearch、Redis Graph 等五个项目闭源

Redis Sentinel机制与用法说明

Redis 基本数据类型

05.08 高级的 Redis Java客户端-Lettuce

12.19 Redis 队列

Redis 队列

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"