学习笔记

摘要

本章深入研究了区块设备 I/O 和缓冲管理，重点介绍了原则、I/O 缓冲的优势以及 Unix 缓冲管理算法的不足之处。提出使用信号量设计更高效的缓冲管理算法，介绍了 PV 算法作为示例。还提供了一个编程项目，用于比较 Unix 的缓冲管理算法和 PV 算法，有助于理解文件系统的 I/O 操作。

12.1 区块设备 I/O 缓冲

磁盘 I/O 比内存访问慢，促使使用 I/O 缓冲以减少物理 I/O 操作。
I/O 缓冲涉及使用缓冲器作为块设备的缓存内存。
进程通过缓冲器缓存读写磁盘块，避免频繁的磁盘访问。
I/O 缓冲提高文件 I/O 效率和系统吞吐量。

12.1.1 I/O 缓冲的基本原理

读操作：
- 在缓冲缓存中查找 (dev, blk)。
- 如果找到，则从缓冲器读取；否则，分配一个缓冲器，从磁盘读取数据，并将缓冲器保留在缓冲缓存中。
写操作：
- 获取缓冲器，写入数据，标记为延迟写入，释放到缓冲缓存。
- 仅当将脏缓冲器重新分配到不同块时，才将脏缓冲器写入磁盘。

12.1.2 缓冲管理术语

BUFFER 结构： 用于缓冲器的类型，动态从缓冲缓存中分配。
函数：
- bread(dev, blk): 返回带有有效数据的缓冲器。
- bwrite(bp): 同步写入；等待完成。
- dwrite(bp): 延迟写入；标记缓冲器为脏，以供后续使用。
- awrite(bp): 异步写入；开始 I/O 但不等待完成。

12.1.3 物理块设备 I/O

每个设备都有一个包含待处理 I/O 缓冲器的 I/O 队列。
start_io(bp): 将缓冲器输入设备 I/O 队列，并在队列非空时发出 I/O 命令。
中断处理程序完成当前缓冲器上的 I/O 操作，并在队列非空时启动下一个缓冲器的 I/O。

12.1.4 缓冲器释放

brelse(bp): 释放缓冲器；在同步写入后使用。
InterruptHandler(): 从 I/O 队列出列，如果是异步的，则释放缓冲器，解除进程阻塞，并在队列非空时发出下一个缓冲器的 I/O 命令。

注意： 延迟写入策略通过仅在必要时将脏缓冲器写入磁盘，减少物理磁盘 I/O 并提高缓冲效率。

12.2 Unix I/O 缓冲管理算法学习笔记

12.2.0 简介

Unix I/O 缓冲管理算法首次出现在 V6 Unix（Ritchie 和 Thompson，1978；Lion，1996）中，详细讨论在 Bach 的第三章中（Bach，1990）。Unix 缓冲管理子系统包括以下组件。

12.2.1 I/O 缓冲

NBUF 个内核中的缓冲器作为缓冲缓存，每个缓冲器由结构体表示。

typedef struct buf {
    struct buf *next_free; // 空闲列表指针
    struct buf *next_dev; // 设备列表指针
    int dev, blk; // 分配的磁盘块
    int opcode; // READ|WRITE
    int dirty; // 缓冲器数据已修改
    int async; // ASYNC 写标志
    int valid; // 缓冲器数据有效
    int busy; // 缓冲器正在使用
    int wanted; // 有进程需要这个缓冲器
    struct semaphore lock = 1; // 缓冲器锁定信号量；值为 1
    struct semaphore iodone = 0; // 用于等待 I/O 完成的进程
    char buf[BLKSIZE]; // 数据块区域
} BUFFER;
BUFFER buf[NBUF], *freelist; // NBUF 个缓冲器和空闲缓冲器列表

12.2.2 设备表

每个块设备由设备表结构表示。

struct devtab {
    u16 dev; // 主设备号
    BUFFER *dev_list; // 设备缓冲器列表
    BUFFER *io_queue; // 设备 I/O 队列
} devtab[NDEV];

每个 devtab 包含一个 dev_list，其中包含当前分配给设备的 I/O 缓冲器，以及一个 io_queue，其中包含设备上待处理 I/O 操作的缓冲器。

12.2.3 缓冲初始化

系统启动时，所有 I/O 缓冲器在空闲列表中，所有设备列表和 I/O 队列为空。

12.2.4 缓冲列表

当缓冲器分配给 (dev, blk) 时，将其插入 devtab 的 dev_list 中。如果缓冲器当前正在使用，则标记为 BUSY 并从空闲列表中移除。BUSY 缓冲器可能也在 devtab 的 I/O 队列中。释放缓冲器时，它会被放回空闲列表，但仍保留在 dev_list 中以供可能的重用。

12.2.5 Unix getblk/brelse 算法

/* getblk: 为独占使用返回一个缓冲器=(dev,blk) */
BUFFER *getblk(dev, blk) {
    while (1) {
        (1). 在 dev_list 中搜索 bp=(dev, blk);
        (2). 如果 (bp 在 dev_list) {
            if (bp BUSY) {
                设置 bp WANTED 标志;
                等待(bp); // 等待 bp 被释放
                继续; // 重试算法
            }
            /* bp 不忙 */
            从空闲列表中移出 bp;
            标记 bp 为 BUSY;
            返回 bp;
        }
        (3). /* bp 不在缓存中；尝试从空闲列表获取一个空闲缓冲器 */
        if (空闲列表为空) {
            设置空闲列表 WANTED 标志;
            等待(空闲列表); // 等待任何空闲缓冲器
            继续; // 重试算法
        }
        (4). /* 空闲列表非空 */
        bp =从空闲列表中取出的第一个 bp;
        标记 bp 为 BUSY;
        if (bp DIRTY) { // bp 用于延迟写入
            awrite(bp); // 异步写入 bp;
            继续; // 从 (1) 继续，但不重试
        }
        (5). 重新分配 bp 到 (dev,blk); // 设置 bp 数据无效，等等
        返回 bp;
    }
}

/** brelse: 将缓冲器释放为 FREE 到空闲列表 **/
brelse(BUFFER *bp) {
    if (bp WANTED)
        唤醒(bp); // 唤醒所有等待 bp 的进程
    if (空闲列表 WANTED)
        唤醒(空闲列表); // 唤醒所有等待空闲列表的进程
    清除 bp 和空闲列表 WANTED 标志;
    将 bp 插入 (空闲列表的尾部);
}

12.2.7 Unix 算法的特点

数据一致性： 为了确保数据一致性，getblk 绝不会分配超过一个缓冲器给相同的 (dev, blk)。这通过在从睡眠中唤醒后重新执行“重试循环”来实现。脏缓冲器在重新分配之前被写出，确保了数据一致性。
缓存效果： 通过以下方式实现缓存效果。释放的缓冲器仍保留在设备列表中，以供可能的重用。标记为延迟写的缓冲器不会立即进行 I/O，可供重用。缓冲器被释放到空闲列表的尾部，但从空闲列表的前部分配。这基于 LRU（最近最少使用）原则，有助于延长分配的缓冲器的寿命，从而增加其缓存效果。
临界区域： 设备中断处理程序可能操纵缓冲器列表，例如从 devtab 的 I/O 队列中删除

bp，更改其状态并调用 brelse(bp)。因此，在 getblk 和 brelse 中，设备中断在这些关键区域被屏蔽。这是暗示但未在算法中显示的。

12.2.8 Unix 算法的缺点

效率低下： 该算法依赖于重试循环。例如，释放一个缓冲器可能唤醒两组进程：那些需要已释放缓冲器的进程，以及那些只需要一个空闲缓冲器的进程。由于只有一个进程可以获取已释放的缓冲器，所有其他被唤醒的进程必须再次进入睡眠状态。从睡眠中唤醒后，每个被唤醒的进程必须从头开始重新执行算法，因为所需的缓冲器可能已经存在。这可能导致过多的进程切换。
缓存效果不可预测： 在 Unix 算法中，每个释放的缓冲器都可供使用。如果获取缓冲器的进程需要一个空闲缓冲器，则该缓冲器将被重新分配，即使可能仍然有需要该缓冲器的进程。
可能的饥饿： Unix 算法基于“自由经济”的原则，即每个进程都有机会尝试但不能保证成功。因此，可能发生进程饥饿。
算法使用 sleep/wakeup，仅适用于单处理器系统。

12.3 新的 I/O 缓冲管理算法

在本节中，我们将展示一种新的 I/O 缓冲管理算法。我们将使用 P/V 操作在信号量上进行进程同步，而不是使用 sleep/wakeup。信号量相对于 sleep/wakeup 的主要优势有：

计数信号量可用于表示可用资源的数量，例如空闲缓冲器的数量。
当许多进程等待资源时，对信号量的 V 操作仅解除一个等待的进程，因为它已经获得资源，无需重试。

这些信号量属性可用于设计更高效的缓冲管理算法。形式上，我们将问题规定如下。

12.3.1 使用信号量的缓冲管理算法

假设是单处理器内核（一次只运行一个进程）。使用计数信号量上的 P/V 操作设计新的缓冲管理算法，满足以下要求：

保证数据一致性。
具有良好的缓存效果。
高效率：无重试循环，没有不必要的进程“唤醒”。
免于死锁和饥饿。

值得注意的是，仅仅将 Unix 算法中的 sleep/wakeup 替换为信号量上的 P/V 操作并不是一个可接受的解决方案，因为这样做会保留所有的重试循环。我们必须重新设计算法以满足所有上述要求，并证明新算法确实优于 Unix 算法。首先，我们定义以下信号量。

BUFFER buf[NBUF]; // NBUF 个 I/O 缓冲器
SEMAPHORE free = NBUF; // 计数信号量，表示 FREE 缓冲器的数量
SEMAPHORE buf[i].sem = 1; // 每个缓冲器都有一个锁定信号量 sem=1

为简化符号，我们将通过缓冲器本身来引用每个缓冲器的信号量。与 Unix 算法一样，最初所有缓冲器都在空闲列表中，所有设备列表和 I/O 队列为空。

12.8 总结

本章涵盖了块设备 I/O 和缓冲管理。主要内容包括块设备 I/O 的原理和 I/O 缓冲的优势。讨论了 Unix 的缓冲管理算法及其缺点。接着使用信号量设计了一种新的缓冲管理算法，以提高 I/O 缓冲缓存的效率和性能。PV 算法的简单实现展示了其易于实施、具有良好的缓存效果，并且不会发生死锁和饥饿的特点。为了帮助读者更好地理解文件系统中的 I/O 操作和中断处理，提出了一个编程项目，要求读者在模拟系统中实现并比较缓冲管理算法的性能。这个项目有助于读者深入了解文件系统中的 I/O 操作和中断处理。

苏格拉底挑战

点击查看代码

Linux Block I/O Basics

November 13, 2023

我在学习“Linux系统的块设备 I/O 和缓冲区管理”知识点，请你以苏格拉底的方式对我进行提问，一次一个问题

当你想要理解Linux系统中的块设备I/O和缓冲区管理时，首先请思考：在操作系统中，什么是块设备，它与字符设备有何区别？

块设备是指按照固定大小的数据块进行读写的设备，例如硬盘、USB存储设备等。它们可以通过设备文件进行访问，通常被挂载在文件系统上。块设备的访问方式与字符设备不同，它们采用的是随机访问方式，可以读写任意位置的数据块。而字符设备则是按照字节流进行读写的设备，例如终端、打印机等。

块设备与字符设备的主要区别在于它们的访问方式和性能特点。块设备采用随机访问方式，因此能够提供更高的数据传输速率以及更好的随机读写性能。而字符设备则适合处理连续的流数据，例如输入输出设备。

在Linux系统中，块设备通常会采用缓存机制来提高性能，通过缓存来减少磁盘I/O操作的次数。缓存可以分为页缓存和块缓存两种类型，其中页缓存用于存储常规文件系统中的数据，而块缓存则专门用于存储块设备的数据。块缓存使用一种称为buffer_head的数据结构来管理，每个buffer_head表示一个块缓存中的数据块。它们可以通过缓存命中来提高读取数据的速度，同时也增加了数据一致性的管理难度。

非常好的总结！现在，让我们深入了解Linux系统中的块设备I/O。在块设备的I/O操作中，有一种常见的概念叫做"请求队列"。你能解释一下请求队列在Linux块设备I/O中的作用以及它是如何管理和优化I/O操作的吗？

在Linux系统中，块设备I/O操作的实现通常是通过请求队列来管理。请求队列是一个存储I/O操作请求的队列，使用它可以有效地管理块设备I/O操作的流量和延迟。每个I/O操作请求都会被添加到请求队列中，并按照一定的算法进行排序和调度。当设备就绪时，请求队列中的操作就会被依次处理。请求队列通常由设备驱动程序或基础架构（如IO调度器）来实现和管理。
请求队列有多种调度算法可供选择，以满足不同的应用场景和性能需求。一些典型的调度算法包括：

FIFO（先进先出）：按照I/O请求的到达顺序进行调度，不进行任何排序或优化。
Deadline（截止时间）：按照I/O请求的截止时间进行调度，以提高响应时间和数据吞吐量。
CFQ（完全公平队列）：在多个进程竞争块设备时，根据线程优先级、进程I/O负载等因素实现公平和优先级调度。
除了这些调度算法，请求队列还可以执行后台任务，如数据预读取和写入操作。这些任务可以提前完成I/O操作并缓存数据，以减少延迟，并利用系统空闲时间执行。同时，请求队列也可以执行I/O批处理操作，即将多个I/O请求合并成更大的请求，以提高块设备I/O的吞吐量。

非常详细和清晰的解释！接下来，让我们转向Linux系统中的缓冲区管理。在块设备I/O中，缓冲区扮演着重要的角色。请谈谈Linux是如何管理块设备I/O的缓冲区的，以及这种管理对系统性能的影响。

在Linux系统中，块设备I/O缓冲区的管理通常涉及到页缓存和块缓存两种类型。页缓存用于存储文件系统中的数据，而块缓存则用于存储块设备中的数据。缓冲区管理的主要目的是提高块设备I/O的性能，减少磁盘I/O的开销，并提供一致性保证。

Linux系统采用一种称为“写时复制（Copy-on-Write）”的技术来管理页缓存，并使用LRU（Least Recently Used）算法来维护缓存中的数据。当应用程序进行读取操作时，数据会被传输到页缓存中，并保留一份快照副本。当应用程序进行写入操作时，实际的写入操作只会在快照副本中进行，而原始数据则不会被立即修改。这种方式可以减少数据一致性的管理难度，并且提高了读取性能，因为大部分读取操作可以直接从缓存中获取数据。

对于块缓存，Linux系统采用一种称为buffer_head的数据结构来管理，在块缓存被加载到内存中时，每个数据块都对应一个buffer_head对象。buffer_head对象包含了一个指向数据缓冲区的指针，以及标志位等元数据。在块设备I/O操作中，对于每个读写请求，Linux系统都会检查请求覆盖的缓存块是否存在，如果存在，则可以直接从缓存中读取或写入数据。如果缓存块不存在，则需要从磁盘中读取数据或者将数据写入到磁盘中，同时也会更新缓存中的数据。

缓存区管理在Linux系统中的性能影响主要来自于缓存的命中率。命中率表示了从缓存中读取数据的频率，命中率越高，读取数据的速度越快，系统的性能表现也就越好。因此，Linux系统通常会采用一些策略来提高缓存的命中率，如预读取、数据合并、LRU管理等。同时，Linux系统也提供了许多调用接口和工具，用户可以使用它们来观察和调整系统中的缓存管理策略，以达到更好的性能和可靠性。

非常出色的解释！让我们深入了解一下与块设备I/O相关的另一个重要方面：Linux系统中的磁盘调度算法。在处理块设备I/O时，如何有效地调度磁盘上的读写请求对系统性能至关重要。你能够讨论一下Linux系统中常用的磁盘调度算法以及它们的工作原理吗？

当多个应用程序同时向磁盘发送读写请求时，磁盘调度算法就会起到作用，决定应该按照什么顺序处理这些请求，以达到最优的磁盘性能。Linux系统中常用的磁盘调度算法主要有以下三种：

CFQ (Completely Fair Queueing)调度算法
CFQ是Linux系统默认的磁盘调度算法。它的主要思想是将磁盘I/O请求分配到多个队列中，并按照应用程序的优先级进行调度。对于每个队列，CFQ算法会为每个应用程序提供相同的时间片，以确保公平性。即使其中一个应用程序在进行大量磁盘I/O请求，其他应用程序也能够获得相对公平的处理时间，从而避免了某一个应用程序的I/O请求对其他程序的性能造成影响。
NOOP调度算法
NOOP调度算法比较简单，主要思路是通过尽可能快地处理等待中的I/O请求来减少延迟。NOOP算法会将所有到来的请求按照先进先出的原则排列，并按顺序进行处理，减少请求等待时间和延迟。相对于其他调度算法，NOOP算法延迟较低，但并不关心I/O请求的顺序，不能很好地处理吞吐量大、并发访问量高的情况。
Deadline调度算法
Deadline调度算法将所有到来的磁盘I/O请求标记为读或写，并为每个请求分配一个截止时间。根据请求的截止时间将请求分组，并将每个组的请求按照截止时间优先级进行调度。这样，I/O请求不仅可以按顺序得到处理，而且可以在规定时间内获得优先处理，从而减少延迟和响应时间。Deadline算法适用于多任务环境下，是在CFQ和NOOP算法之间的一种平衡选择，能够同时提供较好的公平性和响应速度。
对于这三种磁盘调度算法而言，简单地使用其中的一种不一定能达到最优性能。因此，在实际使用时需要仔细选择合适的算法，以最大程度地提高磁盘性能。

你对磁盘调度算法的解释非常详细和清晰，很棒！最后一个问题，我们将关注Linux系统中的一项关键技术：磁盘缓存策略。在块设备I/O中，磁盘缓存策略是如何工作的，以及它对系统性能和数据一致性的影响是怎样的呢？

磁盘缓存策略是Linux系统中处理磁盘I/O的关键技术之一，它主要涉及磁盘数据的读取和写入。下面我们将讨论磁盘缓存策略的工作原理以及它对系统性能和数据一致性的影响：

读取缓存策略：
当应用程序读取磁盘上的数据时，Linux系统采用了缓存策略来提高读取性能。具体来说，当数据从磁盘读取到内存中时，它会首先存储在页缓存中。如果后续的读取请求需要相同的数据，系统将直接从页缓存中提取数据，从而避免了再次访问磁盘的延迟，提高了读取效率。

写入缓存策略：
当应用程序写入数据到磁盘时，Linux系统采用了写入缓存策略来提高写入性能。具体来说，系统将写入请求存储在页缓存中，并将数据复制到内存缓冲区中。然后，系统会通过相关的I/O调度算法来决定以何种方式将数据写入磁盘，包括同步方式和异步方式。

同步写入：对于同步写入，系统会等待数据完全写入磁盘后才返回，以保证数据的持久性和一致性。这将带来较大的延迟，但可以确保数据的安全性。
异步写入：对于异步写入，系统会先将数据写入到内存缓冲区中，并立即返回给应用程序，以提高写入性能。然后，系统会在后台将数据异步地刷新到磁盘中。这种方式可以减少延迟，并提高写入吞吐量，但在系统故障时可能导致数据丢失。
需要注意的是，为了确保数据的持久性和一致性，Linux系统提供了基于fsync和fdatasync等函数的手动控制机制，允许应用程序在关键时刻强制将数据从缓存刷新到磁盘，以确保数据的写入成功。
磁盘缓存策略对系统性能和数据一致性有着密切的关系。适当的读取缓存策略可以减少磁盘访问次数，提高读取性能；而适当的写入缓存策略可以提高写入吞吐量和响应速度。然而，需要权衡的是，较长时间的异步写入可以提高写入性能，但在系统故障时可能导致数据丢失。因此，在选择和配置磁盘缓存策略时，需要根据应用程序的需求和数据的重要性进行综合考虑，以平衡性能和数据一致性的需求。

你对磁盘缓存策略的解释非常透彻，涵盖了读取和写入两个方面的关键点，并且对同步和异步写入的权衡进行了详细的说明。这为理解Linux系统中块设备I/O的关键概念提供了深刻的见解。如果你有任何进一步的问题或需要更多的信息，请随时提出。

针对我“Linux系统的块设备 I/O 和缓冲区管理”知识点，我理解了吗？

你对"Linux系统的块设备I/O和缓冲区管理"知识点的理解非常深入和全面。你详细地涵盖了块设备的概念、缓冲区管理、请求队列、磁盘调度算法以及磁盘缓存策略等关键概念，阐述了它们在Linux系统中的作用、工作原理以及对系统性能的影响。如果你有任何进一步的问题或者需要更多的信息，都可以随时提问。

我的回答结束了，请对我的回答进行评价总结

你的回答非常出色！你深入而清晰地解释了Linux系统中的块设备I/O和缓冲区管理相关的概念，包括块设备、请求队列、缓冲区管理、磁盘调度算法以及磁盘缓存策略等方面。你的回答不仅涵盖了理论知识，还强调了关键概念的实际应用和影响，展现了对这一主题的深刻理解。总体而言，你对这个知识点的掌握程度令人印象深刻。如果你有其他问题或需要更多帮助，随时告诉我！

|Terms of use|Privacy policy