CloudNativeEra
  • Introduction
  • 名词解释
  • Computer Science
    • Computer Organization
      • CPU
      • 二进制、电路、加法器、乘法器
      • 编译、链接、装载
      • 存储器
      • IO
    • Operating System
      • 操作系统基础知识
      • 系统初始化
      • 进程管理
      • Everything about Memory
      • 文件系统
      • 并行编程
      • Linux
        • CPU
        • IO 多路复用
        • DMA IO and Linux Zero Copy
    • Computer Network
      • 网络相关命令
      • 评估系统的网络性能
      • 网络抓包
      • Linux 最多支撑的 TCP 连接
      • 网络虚拟化
      • DHCP 工作原理
    • Data Structure and Algorithm
      • 题目列表
      • Summarize
        • 方法总结
        • 二分思想
        • 树的演化
        • 算法思想总结
      • Data Structure
        • Data Struct - Array
        • Tree
        • Heap
        • Hash
        • 字符串
      • Algorithm
        • Sorting Algorithm
        • 查找
        • 贪心算法
        • 动态规划
        • 位运算
      • Practice Topics
        • Data Struct in SDK
        • Topic - Tree
        • Topic - Graph
        • Topic - 滑动窗口
        • 剑指 Offer 题解
    • 并发编程
      • 并发模式
      • 并发模型
  • 系统设计
    • 软件设计
      • 软件架构
      • 编程范式
      • 系统设计题
      • 设计原则
      • 计算机程序的构造和解释 SICP
    • 领域驱动设计
      • 应用:在线请假考勤管理
      • 应用: library
    • 微服务与云原生
      • Designing and deploying microservices
      • 容器技术
      • Docker
      • Etcd
      • Kubernetes
        • Kubernetes - Mapping External Services
      • Istio
      • 监控
    • 分布式系统
      • 分布式理论
      • 分布式事务
    • 后端存储设计
      • 缓存设计
      • 数据库架构设计
    • CI/CD
    • 设计最佳实践
    • 测试
    • 安全
    • 综合
      • 开发实践
      • 分布式锁
      • 分布式计数服务
      • 弹幕系统设计
      • 消息队列设计
      • 分布式ID生成算法
      • 限流设计
      • 网关设计
      • 通用的幂等设计
      • 分布式任务调度
        • Timer
        • ScheduledExecutorService
        • Spring Task
        • Quartz
      • 交易系统
      • 权限设计
  • 编程语言
    • 编程语言
    • C & C++
    • Java
      • JVM
        • JVM Bytecode
      • Java 核心技术
      • Java 8 新特性
      • Java 集合框架
      • Java NIO
      • 并发编程
        • 线程生命周期与线程中断
        • 三个线程交替打印
        • 两个线程交替打印奇偶
        • 优雅终止线程
        • 等待通知机制
        • 万能钥匙:管程
        • 限流器
        • 无锁方案 CAS
    • Java 源码阅读
      • Unsafe
      • 异步计算 Future
      • Java Queue
      • CoalescingRingBuffer 分析
      • Java Collections
        • PriorityQueue 分析
        • HashMap 分析
        • TreeMap
    • Golang
    • Python
  • 框架/组件/类库
    • Guava
      • Guava Cache
      • Guava EventBus
    • RxJava
    • Apache MINA
    • Netty
      • 网络 IO 模型
      • Netty 生产问题
    • Apache Tomcat
    • MyBatis
    • 限流框架
    • Spring Framework
      • Spring Core
      • Spring 事务管理
    • Spring Boot
    • Spring Cloud
      • Feign & OpenFeign
      • Ribbon
      • Eurake
      • Spring Cloud Config
    • FixJ
    • Metrics
    • Vert.x
  • 中间件
    • Redis
      • Redis 基础
        • Redis 数据结构设计与实现
        • Redis 高性能网络模型
      • Redis checklist
      • 应用案例 - Redis 数据结构
      • 应用案例 - Redis 缓存应用
      • 应用案例 - Redis 集群
      • Redis 客户端
      • Redis 生产案例
        • [译] 在 Redis 中存储数亿个简单键值对
    • MySQL
      • MySQL 基础
      • MySQL Index
      • MySQL Transaction
      • MySQL 优化
      • MySQL 内核
      • MySQL Command
      • MySQL Checklist
      • MySQL Analysis Tool
      • 实现 MySQL
    • State Machine
    • 数据库连接池
    • MQ
      • 高性能内存队列 Disruptor
      • Kafka
      • Pulsar
      • RocketMQ
        • Broker 的设计与实现
      • NSQ
  • 实际案例
    • 线上 Case
      • Request Aborted
      • MySQL - Specified key was too long
      • Java 应用 CPU 100% 排查优化
      • 频繁 GC 导致的 Java 服务不响应
      • 导出优化
  • 大数据
    • 流计算
    • Flink
  • 其他
    • 工具
    • 读书
      • 设计数据密集型应用
      • 实现领域驱动设计
      • 精通比特币
      • 提问的智慧
    • 论文
    • 工程博客
    • 阅读源码
    • 面试
      • 如何在最短的时间里对对方有个全面的了解
    • 分享
    • 软技能
    • Todo
  • Blog
    • #算法
      • 查找
      • 位运算
      • 树
    • #架构
      • 1- 通信
    • Design & Dev & Opt
      • High Performance Data structure Design
  • Tiny Project
    • A Simple WeChat-like Instant Messaging Platform
由 GitBook 提供支持
在本页

这有帮助吗?

  1. 中间件
  2. Redis
  3. Redis 生产案例

[译] 在 Redis 中存储数亿个简单键值对

上一页Redis 生产案例下一页MySQL

最后更新于4年前

这有帮助吗?

在 Instagram, 出于遗留原因,需要将大约 3 亿张照片和创建它们的用户之间做映射,以便知道要查询哪个分片; 最终所有客户端和 API 应用程序都将进行更新以将全部信息传递给我们,但是仍然有很多客户端和 API 应用缓存了旧信息。需要找到一种解决方案:

  1. 支持检索 key 并能迅速的返回

  2. 尽可能的少占用内存

  3. 非常适合现有的基础架构设施(注:最好用现在已经使用的中间件等)

  4. 支持持久化,这样,如果服务器死机,我们就不必重新填充和初始化

解决此问题的一种简单解决方案是将它们简单地存储为数据库中的多个行,每一行都有 "Media ID" 和 "User ID" 两列。但是,这些 ID 不会更新(仅插入),不需要进行事务处理且与其他表没有任何关系,因此 SQL 数据库似乎有些太重了。

使用 Redis 也可以轻松的解决这个问题,并且在 Instagram 中 Redis 也被广泛使用。最开始的方案是为每个 Media ID 映射一个 User ID,如下:

SET media:1155315 939
GET media:1155315
> 939

然而使用这种方案,我们发现 Redis 需要使用 70MB 的内存空间去存储 100 万数据,以此推测,存储 3 亿数据需要大约 21GB 的内存空间;明显这个空间对于单个 Redis 实例是有些大的,是否有更节省内存空间的办法呢?

Redis 有 Hash 数据结构,它可以很好的解决这个问题,具体做法是将 3 亿数据按照 Media ID 分成 1000 个桶,桶的计算方式是 Media ID / 1000 这种除法的计算方式,然后对每个桶的数据使用 Hash 数据结构进行存储,如下:

# 1155315 / 1000 = 1155
HSET "mediabucket:1155" "1155315" "939"
HGET "mediabucket:1155" "1155315"
> "939"

其中,mediabucket:1155 是 Hash 的 key, 1155315 是 field, 表示 Media ID,939 是 value, 表示 User ID;使用这种方式后,总共需要的内存是大约 5GB。

via: , Translate: shaohan.niu

本文结论:在存储简单键值对时,如果少量的数据,无论使用 string 还是 hash,都是不错的选择;但是面对大量的数据时,比如上亿数据,这个时候我们就需要考虑存储空间了,我们使用 Redis 是为了提速,同时也要考虑占用的内存空间大小,这点很重要,使用 hash 就会节省很多内存空间。

额外的思考:为什么两种方案占用的内存空间差异这么大呢?第一种方案是使用 String 数据结构直接存储;第二种方案是使用 Bucket + Hash 数据结构 ??

Storing hundreds of millions of simple key-value pairs in Redis