5.1 - Linux系统实例 | QuetzalSidera 的个人博客

一篇以 Linux 3.2 内核为实例展开的案例分析笔记，将前四章的理论概念对应到具体实现。

前四章按进程、内存、文件系统、I/O 的顺序建立了操作系统的理论框架。这篇文章选取 Linux 3.2 内核作为完整实例，逐一说明这些理论概念在真实系统中的对应实现——进程模型如何工作、调度器如何设计、内存如何分配、文件系统如何组织、I/O 如何管理。

导览

1. 设计原则

Linux 是一个多用户、抢占式、多任务的类 UNIX 系统。其设计受三条主线驱动：

原则	说明
速度与效率	内核为单地址空间（宏内核），各子系统通过函数调用而非 IPC 通信
标准化	遵循 POSIX 规范，支持 Pthreads 与实时扩展
可移植性	支持 x86、ARM、SPARC、Alpha 等多种架构

Linux 系统由三类代码组成：

组件	运行模式	职责
内核	内核模式（特权）	维护所有重要抽象：进程、虚拟内存、文件系统等
系统库	用户模式	定义标准函数集（最重要的为 libc），封装系统调用
系统工具	用户模式	初始化、配置、守护进程等专用管理任务

2. 内核模块

虽然 Linux 使用宏内核架构，内核仍可通过可加载内核模块（LKM，Loadable Kernel Module）在运行时动态扩展。模块可以独立加载、卸载，不必重新编译整个内核。

模块管理分为三个层面：

层面	内容
模块管理	`insmod`/`rmmod`/`lsmod`，依赖关系与引用计数
驱动程序注册	设备驱动通过注册表向内核声明自己支持哪些设备
冲突解决	分配硬件资源（端口、IRQ、DMA 通道）时防止冲突

进程管理

1. fork / exec 模型

Linux 继承 UNIX 的两步进程创建模型：

系统调用	作用
`fork()`	复制当前进程，创建新进程（子进程继承父进程环境）
`exec()`	将新可执行映像加载到当前进程地址空间，替换原程序

两步分离的灵活性在于：fork 后、exec 前，子进程可以修改环境（如关闭/重定向文件描述符），而这正是 shell 实现 I/O 重定向和管道的基础。

2. 进程标识、环境与上下文

Linux 将进程属性分为三组：

分组	包含内容
进程标识	`PID`（唯一标识，不可变）、凭证（用户/组 ID）、个性（系统调用兼容标志）、命名空间
进程环境	参数向量（命令行参数）、环境向量（`NAME=VALUE` 对），从父进程继承
进程上下文	调度上下文（寄存器、内核栈）、记账信息、文件描述符表、文件系统上下文、信号处理表、虚拟内存上下文

进程上下文中的所有子项（文件描述符表、信号处理表、虚拟内存上下文等）保存在单独的数据结构中，进程结构体只持有指向它们的指针——这是 Linux 能统一进程与线程的关键。

3. 任务与线程

Linux 不区分进程与线程，统一使用任务（task）这一术语。底层用 clone() 替代 fork()，通过一组标志精确控制父子任务共享哪些资源：

标志	共享的资源
`CLONE_VM`	同一地址空间（内存）
`CLONE_FILES`	同一打开文件集
`CLONE_FS`	同一文件系统信息
`CLONE_SIGHAND`	同一信号处理表

因此：

clone(flags=0)——所有子上下文复制，不共享，行为与传统 fork() 一致
clone(CLONE_VM | CLONE_FILES | CLONE_FS | CLONE_SIGHAND)——关键资源全部共享，行为等效于 pthread_create
中间状态（如只共享 CLONE_VM 和 CLONE_FILES 但不共享 CLONE_SIGHAND）也是合法组合

Linux 实际上不区分”进程”与”线程”，而是通过任务间的共享粒度 来表现不同的行为：共享足够多的任务表现为线程，不共享关键资源的任务表现为独立进程。这与线程基础中讨论的”线程共享地址空间、文件描述符”理论一致。

当进程调用 exec() 加载新程序时，内核解析可执行文件的格式头，以确定是 ELF 还是早期的 a.out 格式。对于 ELF 文件，内核读取 ELF 头中的程序头表（program header table），将其中的 PT_LOAD 段分别映射到进程地址空间——.text（代码）、.data（已初始化数据）、 .bss（零初始化数据）——然后设置入口地址并开始执行。a.out 格式采用类似但更简单的段映射方式。可执行文件的静态链接与动态链接（ ld.so 介入进行符号解析和共享库加载）也在这一阶段完成。

4. 进程间通信

Linux 实现了 POSIX IPC 的全部标准机制：

机制	API 示例	适合场景
信号	`kill`、`sigaction`	异步事件通知，不携带数据
管道/FIFO	`pipe`、`mkfifo`	亲缘进程/无关进程间字节流
共享内存	`shm_open`、`mmap`	大块数据的高效共享
信号量	`sem_open`、`sem_wait`	同步与资源计数
消息队列	`mq_open`、`mq_send`	结构化消息的发送与接收
socket	`socket`、`connect`	本地（`AF_UNIX`）或网络通信

这些接口与进程间通信和 POSIX 同步 API 中描述的使用方式一致，Linux 内核作为 POSIX 标准的完整实现者，直接提供了上述所有功能。

调度

1. CFS 完全公平调度

Linux 2.6 引入完全公平调度程序（CFS，Completely Fair Scheduler），摒弃了传统的固定时间片概念。

CFS 的核心思路：每个可运行进程应获得处理器时间的公平份额。若有 N 个同优先级进程，每个获得 1/N 的 CPU 时间；不同优先级（ nice 值）的进程通过权重系数调整实际份额。 CFS 的具体分配机制：每个任务实际获得的运行时间取决于”目标延迟”与”可运行任务数”的共同作用。

设有 N 个同优先级可运行任务，目标延迟为 T（如 10ms）。则每个任务分配 T/N 的时间——两个同优先级任务各得 5ms，五个各得 2ms。但当 N 很大时，T/N 会小到频繁上下文切换的开销超过运行本身。最小粒度（minimum granularity）即为此设的下限：无论 N 多大，每个任务至少运行最小粒度时长（如 1ms）。当 T/N < 最小粒度 时，CFS 宁可在目标延迟上让步，也不再将时间切得更细。

概念	含义
目标延迟	所有可运行任务轮转一次的目标时间（可配置），如 10ms
最小粒度	单次运行的最短时长，防止 `N` 过大时切换开销淹没运行

CFS 与传统调度器的对比：

维度	传统 UNIX 调度器	CFS
核心变量	优先级 + 固定时间片	公平份额 + 虚拟运行时间
时间分配	静态映射优先级→时间片	动态计算：目标延迟 / 可运行任务数
交互性	需额外启发式弥补	天然公平，自动偏向交互进程

2. 实时调度

Linux 实现 POSIX.1b 要求的两个实时调度类：

调度类	行为	区别
`SCHED_FIFO`	先到先得，运行直到退出或阻塞	最高优先级进程一直运行
`SCHED_RR`	轮转调度，按时间片自动轮换	同优先级进程公平分享 CPU

实时优先级范围 0-99，始终优先于非实时任务。Linux 实现的是软实时——严格保证相对优先级，但不保证从就绪到运行的最大延迟。

3. 内核同步

内核模式执行的请求可来自两个来源：显式的系统调用（进程上下文），以及硬件中断（中断上下文）。Linux 内核对同步机制的支持如下：

机制	适用场景
自旋锁 (`spinlock`)	SMP 下的短临界区
信号量	可能睡眠的临界区
原子操作	简单整数操作
RCU	读多写少的共享数据结构
抢占禁用	单处理器上保护临界区

这与进程（线程）同步中的理论概念直接对应——锁、信号量、原子操作在 Linux 内核中都有固定实现。

内存管理

1. 物理内存：区域、伙伴系统与 slab

Linux 将物理内存划分为多个区域（zone），以应对不同硬件寻址限制：

区域	含义
`ZONE_DMA`	低于 16MB，供 ISA 设备 DMA
`ZONE_DMA32`	低于 4GB，供 32 位 DMA
`ZONE_NORMAL`	常规映射页
`ZONE_HIGHMEM`	高于内核直接映射范围的物理内存（32 位 x86 上为 >896MB）

物理页分配器使用伙伴系统（buddy system ）：相邻的空闲伙伴块可合并为更大的块；分配时若小块不够，则递归分裂大块。这与内存管理中讨论的伙伴系统理论完全一致。

对于内核内部的小尺寸内存分配，Linux 引入slab 分配器：

概念	含义
slab	一个或多个物理连续页组成的容器
cache	每种内核数据结构（如 inode、task_struct）各有一份 cache
对象	cache 中具体数据结构的实例

slab 有三种状态：满（全部分配）、空（全部空闲）、未满（部分分配）。分配器优先从未满 slab 中取对象，避免内部碎片。

2. 虚拟内存

每个进程拥有独立的虚拟地址空间。虚拟内存区域（VMA，Virtual Memory Area）描述进程中一段连续的虚拟地址范围（如代码段、数据段、堆、栈、 mmap 映射区）。当进程通过 exec() 加载新程序时，内核解析 ELF 文件格式，分别映射 .text、.data、.bss 等段到进程地址空间。

页面缓存（page cache）与虚拟内存紧密耦合：文件 I/O 的所有数据通过页面缓存流动，而页面缓存本身通过虚拟内存系统映射到内核地址空间。

Linux 的内存交换以分页为单位（早期 UNIX 曾以整个进程为单位换出）。当物理内存不足时，内核的页面回收机制（page reclaim ）根据页面活跃程度选择换出目标——采用LRU 近似策略，通过页面访问位（accessed bit）判断"页面年龄" ：最近未被访问的页面优先换出；文件后备的干净页可直接丢弃（后续按需从磁盘重新读取），脏页需先回写。这一机制与内存管理 POSIX API 中描述的按需分页与交换过程对应。

fork() 时的写时复制（COW，Copy-On-Write）：fork 并不立即复制父进程的全部地址空间，而是将父子进程的页表指向同一物理页，并将页标记为只读。当任一进程试图写入该页时，CPU 触发缺页异常，内核随即分配新物理页、复制原页内容、更新对应页表项，然后恢复写入。这意味着绝大多数 fork 后立即 exec 的场景几乎不产生额外的内存复制开销。

文件系统

1. VFS 实现

Linux 的 VFS 采用面向对象设计：每种对象类型关联一个操作函数表，VFS 层通过调用表中的函数指针完成操作，不关心底层文件系统的具体实现。

对象	表示的实体	关键操作
`superblock object`	一个挂载的文件系统	`alloc_inode`、`destroy_inode`
`inode object`	一个文件（磁盘块指针序列）	`create`、`link`、`mkdir`
`dentry object`	一个目录项（路径名组件）	`d_hash`、`d_compare`
`file object`	一次打开实例（文件偏移）	`read`、`write`、`mmap`

文件对象包含当前读写位置，属于单个进程；inode 对象是文件本身的代表，一个文件只有一个 inode，但可有多个文件对象。这一设计与虚拟文件系统与 POSIX 文件系统 API 中描述的四类对象模型一一对应。

路径解析流程：打开 /usr/include/stdio.h 需从 / 的 inode 出发，逐级查找 usr → include → stdio.h 的目录项。Linux 维护一个目录项缓存（dentry cache，简称 dcache），将最近访问的路径组件缓存在内存中，避免每级都读盘。

2. ext3

ext3 是 Linux 部署最广泛的磁盘文件系统，核心特征如下：

特征	说明
块分配策略	在块组内尽量保持物理连续，减少碎片
间接块	最多三层间接索引，支持大文件
日志（journaling）	元数据/数据修改先写入循环日志缓冲区，提交后再异步写回文件系统结构；崩溃恢复时从日志完成或撤销事务

日志文件系统的核心优势：将对文件系统结构的随机写转化为对日志的顺序写 ，从而在元数据密集型操作（文件创建、删除）上获得显著性能提升。这一设计与文件系统的保护中的崩溃一致性讨论直接对应。

3. /proc 文件系统

/proc 是一个合成文件系统，内容不存储在磁盘上，而是按需动态生成：

`/proc` 路径	暴露的信息
`/proc/<PID>/`	对应每个进程的状态
`/proc/cpuinfo`	CPU 信息
`/proc/meminfo`	内存统计
`/proc/version`	内核版本

关键在于：文件系统上的操作不一定最终路由到磁盘 I/O 子系统。VFS 收到 read(“/proc/cpuinfo”) 时，并不发起磁盘请求，而是由 /proc 的实现代码按需收集内核信息、格式化为文本并填充到用户缓冲区。路径 /proc/sys/ 下的可写节点此外提供内核参数的运行时调整接口—— sysctl 机制可使用专用的 sysctl() 系统调用直接操作这些参数，而不经过文件系统的打开/读写路径，以避免将请求路由到 VFS 层导致的额外开销。

在过去，ps 命令被实现为特权进程，因为它需要直接从内核内存中读取其他进程的状态——理论上这要求 root 权限。/proc 将进程状态暴露为文件系统中的普通目录和文件后，ps 只需要通过标准的 open/read 系统调用即可读取这些信息，不再需要特权——进程的访问控制和 /proc 下文件的权限位共同决定谁能读取哪些进程的信息。

4. “一切皆为文件”

除了 /proc 之外，Linux 还通过其他文件系统类型体现”一切皆为文件”：

文件系统	表示的实体	说明
`sysfs`	内核设备模型	挂载于 `/sys`，设备、总线、驱动的拓扑信息
`devfs`/`devtmpfs`	设备节点	挂载于 `/dev`，暴露块设备和字符设备的接口
`sockfs`	网络 socket	不挂载，为 socket 系统调用提供 inode 支持
`pipefs`	管道与 FIFO	不挂载，为管道创建提供文件系统语义

网络文件系统（如 NFS）则通过 VFS 将远程服务器的文件表现为本地路径，用户进程无需关心数据是通过本地磁盘驱动还是网络协议栈到达。综上，Linux 文件系统提供的并非”磁盘数据访问”，而是一组统一的操作接口——VFS 根据路径所挂载的文件系统类型，将请求路由到不同的后端实现：可能是本地磁盘（ext3）、可能是内核内存（ /proc）、可能是设备（/dev），也可能是远程服务器（NFS）。

I/O

1. 块设备

块设备以固定大小的块为单位进行随机访问，所有数据传输经由页面缓存（page cache）。write() 调用将数据写入缓存页并标记为脏，随后立即返回；内核的 pdflush（或更新的回写线程）定期将脏页成批写回磁盘。读取时优先从页面缓存命中：若命中则完全避免磁盘 I/O，未命中则发起实际的块设备读取。

2. 字符设备

字符设备提供字节流接口，通常不经过页面缓存。数据直接从设备寄存器读取或写入，适用于键盘、串口、终端等顺序产生或消费数据的设备。字符设备驱动实现的是一组 file_operations（open/read/write/ioctl 等），每当用户进程调用对应系统调用时，驱动函数被直接执行。

3. 网络设备

网络设备以数据包为单位操作，通过套接字层与协议栈交互，不使用块设备或字符设备接口。网络数据进入系统后走独立的网络协议栈路径，最终通过 socket 文件描述符暴露给用户进程。

小结

Linux 作为前四章理论的完整实例，将抽象概念落地为具体的内核子系统：

理论主题	对应文章	Linux 实现
进程/线程模型	进程基础、线程基础	`fork`+`exec` 两步模型 + `clone()` 统一任务抽象
IPC	进程间通信	信号、管道/FIFO、共享内存、信号量、消息队列、socket
调度	进程（线程）调度	CFS（公平份额+最小粒度）+ 实时调度（FCFS/RR）
同步	进程（线程）同步	自旋锁、信号量、原子操作、RCU
内存管理	内存管理	区域分区 + 伙伴系统 + slab 分配器 + 按需分页 + COW + 交换
文件系统	文件系统抽象	VFS（四类对象+操作表）+ ext3 + /proc + "一切皆为文件"
I/O	I/O 系统	块设备（页面缓存）、字符设备（字节流）、网络设备（协议栈）

5.1 - Linux系统实例

导览 ​

1. 设计原则 ​

2. 内核模块 ​

进程管理 ​

1. fork / exec 模型 ​

2. 进程标识、环境与上下文 ​

3. 任务与线程 ​

4. 进程间通信 ​

调度 ​

1. CFS 完全公平调度 ​

2. 实时调度 ​

3. 内核同步 ​

内存管理 ​

1. 物理内存：区域、伙伴系统与 slab ​

2. 虚拟内存 ​

文件系统 ​

1. VFS 实现 ​

2. ext3 ​

3. /proc 文件系统 ​

4. “一切皆为文件” ​

I/O ​

1. 块设备 ​

2. 字符设备 ​

3. 网络设备 ​

小结 ​

导览