如何实现一个LRU缓存？

夢幻星辰

发布时间：2025-09-03 19:55:01

400人浏览过

来源于php中文网

原创

LRU缓存通过哈希表与双向链表结合，实现O(1)读写与淘汰；哈希表快速定位节点，双向链表维护访问顺序，最近访问节点移至头部，超出容量时移除尾部最久未使用节点。

如何实现一个lru缓存？

实现LRU缓存的核心思路，在于巧妙地结合哈希表（Hash Map）和双向链表（Doubly Linked List），以达到O(1)时间复杂度的读写和淘汰操作。哈希表负责快速定位缓存项，而双向链表则维护缓存项的访问顺序，使得最近最少使用（Least Recently Used）的项总能被高效地识别并移除。

解决方案

LRU缓存的实现，我们通常会构建一个自定义的数据结构。一个哈希表用来存储

key

到链表节点的映射，这样我们可以通过

key

在O(1)时间内找到对应的缓存项。一个双向链表则用来维护缓存项的访问顺序，链表头代表最近访问的项，链表尾代表最久未访问的项。当缓存达到容量上限时，我们移除链表尾部的节点。

class Node:
    """双向链表的节点"""
    def __init__(self, key, value):
        self.key = key
        self.value = value
        self.prev = None
        self.next = None

class LRUCache:
    """LRU缓存实现"""
    def __init__(self, capacity: int):
        self.capacity = capacity
        self.cache = {}  # 哈希表，存储 key -> Node
        self.head = Node(0, 0)  # 虚拟头节点
        self.tail = Node(0, 0)  # 虚拟尾节点
        self.head.next = self.tail
        self.tail.prev = self.head

    def _add_node(self, node):
        """将节点添加到链表头部（表示最近使用）"""
        node.prev = self.head
        node.next = self.head.next
        self.head.next.prev = node
        self.head.next = node

    def _remove_node(self, node):
        """从链表中移除指定节点"""
        prev = node.prev
        next = node.next
        prev.next = next
        next.prev = prev

    def _move_to_head(self, node):
        """将已存在的节点移动到链表头部"""
        self._remove_node(node)
        self._add_node(node)

    def get(self, key: int) -> int:
        """获取缓存项"""
        if key not in self.cache:
            return -1

        node = self.cache[key]
        self._move_to_head(node)  # 访问后移到头部
        return node.value

    def put(self, key: int, value: int) -> None:
        """放入或更新缓存项"""
        if key in self.cache:
            node = self.cache[key]
            node.value = value  # 更新值
            self._move_to_head(node) # 访问后移到头部
        else:
            new_node = Node(key, value)
            self.cache[key] = new_node
            self._add_node(new_node) # 新节点添加到头部

            if len(self.cache) > self.capacity:
                # 缓存溢出，移除链表尾部（最久未使用）的节点
                lru_node = self.tail.prev
                self._remove_node(lru_node)
                del self.cache[lru_node.key]

为什么我们需要LRU缓存？理解其核心价值与应用场景

我们为什么需要LRU缓存？这其实是个很实际的问题，尤其是在处理大量数据和有限资源时。想象一下，你的应用程序需要频繁地访问一些数据，但这些数据可能存储在硬盘上，或者需要通过网络请求获取，这些操作都很慢。如果每次都去重新获取，那用户体验和系统性能都会大打折扣。

LRU缓存的价值就在于此：它提供了一种智能的策略来管理有限的内存空间，优先保留那些“可能”会被再次访问的数据。这个“可能”就是基于“最近最少使用”的原则。直白点说，就是“你最近用过的东西，你很可能还会再用；很久没碰的东西，大概率以后也不会碰了”。这种策略在实践中非常有效。

应用场景真是太多了，随便举几个例子：

数据库缓存： 数据库查询结果往往会被缓存起来，避免每次都去执行耗时的SQL查询。LRU策略能确保热门数据留在缓存中。
Web服务器缓存： 静态文件、API响应等都可以缓存，减轻服务器压力，提高响应速度。
操作系统页面置换： 当物理内存不足时，操作系统需要决定将哪些内存页换出到磁盘，LRU是常用的算法之一。
CPU缓存： 处理器内部的L1、L2、L3缓存也需要高效的淘汰策略来管理有限的高速存储。
图片加载器： 移动应用中，加载图片时会缓存已下载的图片，避免重复下载。

说到底，LRU缓存就是一种权衡：用一点点内存空间，换取巨大的时间性能提升。它不是万能药，但对于那些访问模式符合“局部性原理”（Locality of Reference）的应用来说，它就是提升效率的利器。

LRU缓存的实现细节：双向链表与哈希表的巧妙结合

要真正理解LRU缓存，就得深入到它的实现细节里去，看看哈希表和双向链表是如何像齿轮一样咬合，共同完成任务的。这两种数据结构各自有其擅长的领域，但单独拿出来都无法完美解决LRU的问题。

哈希表（Python中的

dict

）的优势在于其O(1)的平均时间复杂度来查找、插入和删除键值对。这意味着，给定一个

key

，我能瞬间知道它在不在缓存里，以及它的

value

是什么。这是实现

get

方法高效性的基石。如果没有哈希表，我们每次查找都得遍历，那效率就太低了。

但哈希表有个问题：它无法天然地维护元素的访问顺序。我怎么知道哪个元素是最近访问的，哪个是最久未访问的呢？这时候，双向链表就登场了。

双向链表（Doubly Linked List）的特点是每个节点不仅知道它的下一个节点，也知道它的上一个节点。这使得它在插入和删除节点时非常高效，只需要修改少数几个指针，时间复杂度也是O(1)。我们把链表的头部定义为最近访问的元素，尾部定义为最久未访问的元素。

狼群淘客免费开源淘宝客程序

狼群淘客系统基于canphp框架进行开发，MVC结构、数据库碎片式缓存机制，使网站支持更大的负载量，结合淘宝开放平台API实现的一个淘宝客购物导航系统采用php+mysql实现，任何人都可以免费下载使用。狼群淘客的任何代码都是不加密的，你不用担心会有任何写死的PID，不用担心你的劳动成果被窃取。

下载

现在，我们看看它们是如何结合的：

查找（
get
操作）: 当我们通过
```
key
```
从哈希表中找到对应的链表节点时，我们不仅要返回它的
```
value
```
，更重要的是，这个节点现在“被访问了”，它就变成了“最近使用”的。所以，我们需要把它从当前位置移除，然后移动到链表的头部。因为是双向链表，移除和插入到头部都是O(1)操作。哈希表帮我们定位，链表帮我们更新顺序。
插入/更新（
put
操作）:
- 如果
```
key
```
  已经存在：我们更新它的
```
value
```
  ，然后同样把它移动到链表头部，因为它刚刚被更新，也算是“最近使用”。
- 如果
```
key
```
  不存在：我们创建一个新的链表节点，把它添加到链表头部，并同时在哈希表中建立
```
key
```
  到这个新节点的映射。
- 容量管理： 这是关键！如果添加新节点后，缓存的总容量超过了预设的
```
capacity
```
  ，那么就意味着我们必须淘汰一个旧的。谁最旧？当然是链表尾部的那个节点。我们直接移除链表尾部的节点（O(1)），同时也要从哈希表中删除这个被淘汰的
```
key
```
  及其映射。

你看，这两种数据结构各司其职，又紧密配合，完美地实现了LRU缓存的逻辑。哈希表提供了快速查找，双向链表提供了快速的顺序更新和淘汰。少了任何一个，这个O(1)的魔术就玩不转了。

优化与挑战：LRU缓存的容量管理与并发安全考量

在实际应用中，LRU缓存的实现并非总是那么一帆风顺，尤其是在容量管理和并发安全方面，我们常常会遇到一些需要深思熟虑的挑战。

容量管理： 我们前面代码里的

capacity

是个固定值，这在很多场景下是足够的。但有时，你可能会考虑动态调整缓存容量。比如，在系统负载较低时，可以适当增加缓存容量来提高命中率；在高负载时，为了节省内存，可以减小容量。这种动态调整策略需要更复杂的逻辑来处理缓存项的增删，确保在容量变化时LRU原则依然有效。一个常见的挑战是，当容量减小时，你需要决定如何优雅地淘汰多余的项，通常还是从链表尾部开始。

另一个关于容量的思考是，缓存中的每个项可能大小不一。如果只是简单地按项数来计算容量，可能会导致内存使用不均衡。比如，一个缓存项占用1MB，另一个只占1KB，如果都算作“一项”，那显然不公平。更高级的LRU实现会考虑基于内存大小的容量管理，这会使得淘汰策略更加复杂，需要额外的逻辑来跟踪每个节点实际占用的内存大小。

并发安全考量： 我们上面给出的Python代码，在一个单线程环境下运行是没问题的。但如果你的应用程序是多线程的，多个线程同时对LRU缓存进行

get

或

put

操作，那问题就来了。这会导致经典的竞态条件（Race Condition）。

举个例子：

线程A尝试
```
put(key, value)
```
，它检查
```
key
```
是否存在。
在线程A完成其操作之前，线程B也尝试
```
put(key, value)
```
，它也检查
```
key
```
是否存在。
如果两个线程都认为
```
key
```
不存在，它们可能会同时创建新的
```
Node
```
并尝试添加到链表和哈希表中，这会导致数据不一致，甚至链表结构被破坏。

为了解决并发问题，我们通常需要引入锁（Locks）或互斥量（Mutexes）来保护共享资源。例如，在Python中，可以使用

threading.Lock

。在

get

和

put

方法的开始，获取锁；在方法结束前，释放锁。

import threading

class LRUCache:
    # ... (Node class and other methods as before) ...

    def __init__(self, capacity: int):
        self.capacity = capacity
        self.cache = {}
        self.head = Node(0, 0)
        self.tail = Node(0, 0)
        self.head.next = self.tail
        self.tail.prev = self.head
        self._lock = threading.Lock() # 添加一个锁

    def get(self, key: int) -> int:
        with self._lock: # 使用with语句确保锁的正确获取和释放
            if key not in self.cache:
                return -1

            node = self.cache[key]
            self._move_to_head(node)
            return node.value

    def put(self, key: int, value: int) -> None:
        with self._lock: # 同样加锁
            if key in self.cache:
                node = self.cache[key]
                node.value = value
                self._move_to_head(node)
            else:
                new_node = Node(key, value)
                self.cache[key] = new_node
                self._add_node(new_node)

                if len(self.cache) > self.capacity:
                    lru_node = self.tail.prev
                    self._remove_node(lru_node)
                    del self.cache[lru_node.key]

加锁虽然解决了并发问题，但它也引入了性能开销，因为锁会串行化对缓存的访问。在高并发场景下，这可能会成为瓶颈。因此，一些高性能的LRU缓存实现可能会考虑更细粒度的锁（例如，对哈希表的不同桶加锁），或者使用无锁（Lock-Free）数据结构，但这些实现通常复杂得多，并且需要对底层内存模型有深入理解。对于大多数应用来说，一个简单的全局锁通常是一个可接受的折衷方案。

此外，在分布式系统中，如果你的LRU缓存需要跨多个服务器共享，那么单机版的LRU就不够用了。你需要考虑分布式缓存解决方案，如Redis、Memcached等，它们通常会提供自己的LRU或类似淘汰策略，并且处理了分布式环境下的数据一致性和并发问题。

Python函数式编程教程_lambda与高阶函数应用解析

Python数据类型使用技巧_数字字符串列表解析【指导】

Python网页解析技巧_HTML与XPath说明【指导】

如何在 Pytest 命令行中安全传递 JSON 字符串参数

Python自然语言搜索引擎项目教程_倒排索引查询优化案例