Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Zig 编程语言全面入门教程

——写给有编程经验、想系统理解 Zig 的开发者

这是一份面向已有编程经验读者的 Zig 教程。全书围绕一条主线展开:

用强调显式表达的语言,逐步理解控制流、失败路径和资源生命周期。

阅读时持续关注四个问题:代码是否把意图写清楚了?失败路径是否被当作主流程的一部分?资源由谁持有、由谁释放、生命周期到哪里结束?编译期机制和运行时机制分别解决什么问题?

这本书适合谁?

  • 已具备至少一门编程语言经验的开发者
  • 对系统编程、底层控制、性能、可预测性有兴趣的读者
  • 想从 C/C++/Rust/Go 迁移,或横向了解 Zig 的工程师
  • 希望理解语言设计,而不只停留在语法层面的读者

本书不是零基础的编程入门教材。

全书结构

第一部分:基础

建立 Zig 的基本语法和阅读方式:语言定位、开发环境、类型、函数、复合类型、控制流、错误处理和构建系统。

第二部分:高级特性

进入 Zig 的核心机制和工程主题:标准库、comptime、泛型、指针、内存管理、接口设计、C 互操作、并发、测试、构建系统与包管理。重点逐步看清哪些能力属于编译期、哪些属于运行时、哪些抽象是零成本的、工程代码中如何组织资源与依赖。

第三部分:实战与专题

把前两部分的内容放回完整案例和专题中:CLI 工具、HTTP 服务器、内存池、配置系统、SIMD、异步 I/O、高级内存管理、性能优化等。重点不再是单个语法点,而是如何把语言机制和标准库能力组合起来解决问题。

建议怎么阅读?

第一次接触 Zig 时,按目录顺序阅读。自然的路径是:从《认识 Zig》建立整体认识 → 完成环境搭建 → 学习基础语法、控制流和错误处理 → 进入标准库与高级机制 → 在实战章节回看这些机制如何落到项目中。

有较强系统编程背景的读者,可以把本书当作“教程 + 参考读物“结合使用。

版本说明

本教程面向 Zig 0.16.0 稳定版。Zig 仍在持续演进,版本号说明:

  • 稳定版(stable):如 0.16.0,经过测试的正式发布版,API 确定
  • 开发版(dev):如 0.17.0-dev,包含最新特性,API 可能继续调整

教程代码已针对 Zig 0.16.0 稳定版的标准库 API 进行校对。在外部资料中看到 std.iostd.fs.cwd()、旧版 ArrayList 等写法时,版本差异是需要优先排查的因素。

Zig 0.16.0 的主要变化

  • std.Io 成为 I/O 与并发的统一入口,旧 std.iostd.fs 风格逐渐淘汰
  • std.process.Init 是推荐的 main 参数形式
  • @cImport 已废弃,推荐构建系统中的 addTranslateC
  • 旧的语言级 async/await 已移除,异步方向偏向库层与 I/O 基础设施演进

关于代码示例

  • 优先选择容易读懂、便于解释、能体现设计意图的写法
  • 对版本敏感的 API,会标出需要额外留意的地方
  • 错误示例只用于教学对比,不作为推荐写法

阅读时遇到版本差异,先确认本地 Zig 版本(zig version),再对照标准库文档和源码。本教程重点在于理解设计意图、边界和组织方式,而不只是记住某个版本快照下的函数名。

认识 Zig:设计目标与学习路线

Zig 是一门现代、底层、通用的编程语言,由 Andrew Kelley 设计。它常被描述为一门“面向系统编程的语言“,但如果只停留在这个标签上,很容易忽略它真正吸引开发者的地方:它试图在可控性、可读性、可移植性和工程体验之间重新做一次平衡。

对于已有其他语言经验的开发者,学习 Zig 时最重要的不是先记语法,而是先理解它的设计追求。

本章会回答四个问题:

  1. Zig 想解决什么问题?
  2. Zig 和常见语言相比,定位在哪里?
  3. 学 Zig 时最需要建立哪些思维方式?
  4. 这本教程的第一部分会涵盖哪些内容?

Zig 想解决什么问题?

很多语言都试图改进系统编程体验,但 Zig 的切入点有几个非常鲜明的特点:

显式优于隐式

Zig 强调“把重要的事情写清楚“,例如:

  • 可变和不可变要明确区分:varconst
  • 可能失败的操作要明确体现:!T
  • 可能不存在的值要明确体现:?T
  • 资源释放逻辑要明确写出来:defer / errdefer
  • 类型转换要明确表达意图,而不是依赖隐式转换

这意味着 Zig 代码有时看起来不会像某些高级语言那样“短“,但通常会更容易看清控制流、失败路径和资源生命周期。

把错误处理当作主线,而不是补丁

在很多语言里,错误处理要么依赖异常机制,要么容易被忽略;而在 Zig 里,错误是类型系统的一部分。这带来两个直接结果:

  • 调用者必须正视“这一步可能失败“
  • 函数签名会更清楚地表达真实语义

这也是为什么很多人第一次接触 Zig 时,会觉得它“有点严格“;但一旦开始写稍微复杂一点的程序,就会发现这种严格其实在帮助减少模糊地带。

资源是一等公民

Zig 不带垃圾回收器,也不试图隐藏资源管理。内存、文件句柄、网络连接、锁等,都应被当作需要认真管理的资源。

这并不意味着 Zig 只是“回到手动管理的一切“;它的重点在于:

  • 资源获取与释放关系清晰
  • 成功路径和失败路径都能被明确表达
  • 编译器和类型系统帮助更早暴露问题

对于系统编程、命令行工具、嵌入式开发、跨平台工具链、性能敏感模块来说,这种设计尤其有价值。

提供完整而统一的工具链体验

Zig 不只是语言本身,也是一套开发工具链,通常会直接使用:

  • zig run
  • zig test
  • zig build
  • zig fmt
  • zig cc / zig c++

这让 Zig 的项目体验和跨平台体验更加统一。很多在其他生态里需要额外工具拼起来的事情,在 Zig 里往往可以直接从官方工具链开始。

如果把以上几点概括为一句话:

给开发者接近 C 的控制力,同时尽量改善可读性、可移植性和工程体验。

此外,还有两条主线贯穿 Zig 的设计:

  • 编译期能力:Zig 的 comptime 不是单纯“做模板“或“写宏“,而是让开发者用同一套语言语法,把一部分逻辑提前到编译期完成,这也是 Zig 在泛型、元编程、编译期检查等方面很有辨识度的原因之一。
  • 跨平台与 C 互操作:Zig 对交叉编译和 C 互操作的支持非常强,这让它在替代部分 C/C++ 基础设施、构建工具、CLI 工具或平台胶水层时非常有竞争力。

Zig 适合哪些场景?

Zig 并不是“什么都替代“的语言,但它在以下场景尤其值得关注:

  • 系统工具与命令行程序
  • 需要精确控制资源的后端组件
  • 嵌入式与底层开发
  • 性能敏感模块
  • 跨平台构建工具和辅助工具
  • 需要与 C 库深度协作的项目

如果期望的是:

  • 比 C 更现代的表达能力
  • 比 C++ 更简洁直接的语言规则
  • 比某些高级语言更可控的运行时成本
  • 比传统 C 工具链更统一的开发体验

那么 Zig 很值得认真了解。

Zig 和常见语言相比,定位在哪里?

下面这张表不是为了分出“谁更好“,而是帮助快速建立定位感。

维度ZigCC++RustGo
资源管理显式显式显式/RAII编译期约束 + 显式模型GC
错误处理错误联合类型返回码异常/返回值Result多返回值
运行时依赖极少极少较少较少有运行时与 GC
交叉编译体验很强依赖外部工具链依赖外部工具链较好较好
C 互操作非常自然NA需要 ABI 边界处理需要 FFI需要 cgo
编译期能力comptime宏/预处理器模板/constexpr泛型/宏/trait有限
学习门槛中等偏高中等相对平缓

与 C 相比,Zig 提供统一的工具链和更清晰的错误处理模型,同时避免预处理器式的技巧。与 C++ 相比,Zig 有意减少语言复杂度,不追求“什么都能抽象“,强调规则少、特性交互直接。与 Rust 相比,Zig 不依赖编译期约束提供强安全保证,更强调显式控制、简单规则和直接的底层协作能力。与 Go 相比,Zig 没有 GC,资源管理和失败路径都需显式处理,换来更可预测的性能和更低的运行时成本。

学习 Zig 的 5 个核心观念

失败路径是主线的一部分

阅读和编写 Zig 代码时,持续关注四个问题:

  • 这个函数可能返回什么错误?
  • 这个值可能是 null 吗?
  • 如果中途失败,哪些资源需要清理?
  • 错误应该在这里处理,还是继续向上传播?

数据所有权决定如何访问

  • 这里是在复制值,还是在借用已有数据?
  • 修改的是副本,还是底层原数据?

清晰优先于巧妙

直接、明确、可验证的实现,比“很巧“的写法更符合 Zig 风格。

编译器报错在帮助定位问题

类型不匹配、未处理的错误、分支不穷尽、可能越界、声明冲突——编译器在编译期暴露这些问题,比运行时才发现更省力。

学习的重点是程序结构而非语法细节

重点是程序结构、失败路径、资源管理和意图表达。只关注“新关键字 + 新标准库“容易零散;关注“如何更清楚地组织代码“则更连贯。

本章小结

  • Zig 的重点不只是“底层“,更是“清晰、显式、可控“
  • Zig 很适合需要资源控制、跨平台能力和工程统一性的场景
  • Zig 与 C、C++、Rust、Go 有交集,但路径和侧重点不同
  • 学习 Zig 的关键不只是记语法,而是适应它对失败路径、资源生命周期和意图表达的要求
  • 第一部分会先帮助建立基础心智模型,再逐步进入更深入的主题

开发环境与第一个程序

本章的目标是完成三件事:安装 Zig、确认工具链可用、写出并运行第一个程序。

版本说明 本教程面向 Zig 0.16。开发版仍在持续演进,标准库和部分 API 可能发生变化。 如果使用的是稳定版或其他开发版,示例代码可能需要做少量调整。

安装 Zig

官方下载(推荐)

最稳妥的做法是从官网下载与当前平台匹配的预编译版本:

这样做的好处在于:

  • 更容易拿到与教程匹配的开发版
  • 不依赖系统包管理器的更新节奏
  • 避免「教程是新版本,系统装的是旧版本」的落差

包管理器安装

也可以通过包管理器安装。

macOS

brew install zig

Linux

# Arch Linux
sudo pacman -S zig

# Ubuntu(通常不是最新版)
sudo snap install zig --classic --beta

Windows

# 使用 scoop
scoop install zig

# 或使用 chocolatey
choco install zig

注意:包管理器提供的版本通常偏稳定,不一定和本教程使用的 0.16.0-dev 完全一致。 如果后续示例出现差异,优先确认版本。

验证安装

安装完成后,先确认 Zig 可以正常使用:

zig version
# 例如:0.16.0-dev.xxx+xxxxxxxx

终端能正确输出版本号,说明安装成功。

还可以顺便验证几个最常用的命令:

zig help
zig env
zig version
zig fmt --help

编辑器支持

编写 Zig 不挑编辑器,任意文本编辑器都可以。

如果希望获得补全、跳转、错误提示、格式化等更好的编辑体验,可以在常用编辑器中安装 Zig 相关扩展并启用语言服务器支持。 像 VS Code、Zed、Neovim 等编辑器通常都有对应的 Zig 开发插件或集成方案。

很多编辑器会自动提示安装或配置 ZLS(Zig Language Server)。 如果需要手动安装、更新或排查问题,建议参考 ZLS 官方说明:

注意:版本兼容很关键。 ZLS 应尽量与所使用的 Zig 版本匹配。 如果用的是开发版 Zig,也应尽量使用对应版本的 ZLS,否则可能出现补全异常、诊断不准确等问题。

第一个 Zig 程序

在任意目录创建文件 hello.zig

const std = @import("std");

pub fn main() void {
    std.debug.print("Hello, World!\n", .{});
}

运行它:

zig run hello.zig

预期输出:

Hello, World!

这段代码现阶段只需理解三件事

  1. @import("std") 导入 Zig 标准库。

  2. pub fn main() void 定义程序入口函数。

  3. std.debug.print(...) 输出一段文本。

关于 std.debug.print 的提醒

std.debug.print 简单直接,很适合入门示例,但有两点值得留意:

  • 它默认输出到 stderr,而不是 stdout
  • 它非常适合调试和教学中的最小示例
  • 后续需要更明确地控制输出流时,可以再学习 stdout 相关 API

Zig 0.16 的 main 形式

形式用途
pub fn main() void最简单的示例
pub fn main() !void需要 try 传播错误
pub fn main(_: std.process.Init) !void0.16 推荐:可访问 iogpaargs

是否接收 std.process.Init(访问初始化上下文)与是否返回 !void(错误传播)是两个独立的维度。

常用命令与工作流

zig run hello.zig       # 运行单文件
zig test hello.zig      # 运行测试
zig fmt hello.zig       # 格式化代码
zig build-exe hello.zig # 编译可执行文件

排查安装问题时,用 zig env 查看标准库路径和版本信息。

入门阶段的建议节奏:写一个很小的示例 → zig fmtzig run → 修改再运行 → 读懂编译器报错。

关于项目结构:先认识,不急着深入

如果执行过:

mkdir hello-zig
cd hello-zig
zig init

会生成以下项目结构:

hello-zig/
├── build.zig
├── build.zig.zon
└── src/
    ├── main.zig
    └── root.zig

现阶段只需知道:

  • src/main.zig 常作为程序入口
  • build.zig 是构建脚本
  • build.zig.zon 是项目清单文件

这些内容会在构建系统入门中专门讲解。本章不展开,是为了避免在熟悉语言基础之前就被工程化细节打断。

常见问题

为什么复制示例后编不过?

优先检查以下几项:

  1. Zig 版本是否和教程版本差异较大
  2. 是否漏掉了结尾分号
  3. 文件是否保存为 UTF-8 编码
  4. std.debug.print 是否误写成了别的名字
  5. 是否在 void 返回的函数里使用了 try

为什么编辑器提示和命令行编译结果不一致?

常见原因包括:

  • 编辑器使用的 Zig 版本和终端里的 Zig 版本不同
  • ZLS 版本和 Zig 版本不匹配
  • 编辑器缓存了旧的诊断结果

是不是必须立刻学会 std.process.Initstd.Io

不是。 现阶段只需知道:这是 Zig 0.16 中比较常见的新风格。 本章的目标是先把程序跑起来,而不是一开始就彻底理解新 I/O 体系。

本章小结

至此,读者应已建立一个可靠的起点:

  • Zig 已经安装成功
  • 掌握了验证版本的方法
  • 了解了基础的编辑器支持配置
  • 成功运行了第一个程序
  • 认识了 Zig 0.16 中几种常见的 main 写法
  • 熟悉了最常用的命令:zig runzig testzig fmtzig build-exe

变量、常量与基础类型

本章介绍 Zig 最基础的声明语法与类型系统,包括 constvar 的区别、作用域与初始化、整数与浮点、布尔值、字符串字面量,以及显式类型转换。

声明、作用域与风格约定

变量声明

Zig 是强类型语言,支持类型推断。变量声明使用 const(常量)或 var(变量):

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const constant: i32 = 42;    // 常量:不可变
    var mutable: i32 = 10;       // 变量:可变

    mutable = 30;                 // 合法
    // constant = 50;             // 编译错误:常量不可修改

    std.debug.print("constant: {}, mutable: {}\n", .{ constant, mutable });
}

预期输出:

constant: 42, mutable: 30

undefined 用于声明未初始化的变量,表示该内存区域尚未被赋予有意义的值:

var buffer: [256]u8 = undefined;  // 声明缓冲区,稍后填充
var x: i32 = undefined;           // 声明占位变量,解包赋值时立即覆盖

重要:读取 undefined 值是非法行为(Illegal Behavior)。在 Debug/ReleaseSafe 模式下会触发 panic。undefined 仅用于声明后立即赋值的场景(如解包赋值的占位符、缓冲区分配等)。

Zig 中 const 声明的值如果能在编译期确定,会自动成为编译期常量:

  • 顶层 const:文件级别的 const 声明默认是编译期求值的
  • 函数内 const:如果值是编译期已知的(如字面量、comptime 表达式),也会被编译期求值
const std = @import("std");

const PI = 3.14159;           // 顶层 const,编译期常量

pub fn main(_: std.process.Init) void {
    const answer = 42;         // 编译期常量(值已知)
    var runtime_val: i32 = 10; // 运行时变量
    _ = PI;
    _ = answer;
    _ = &runtime_val;
}

命名风格建议

这一节更适合作为本教程的代码风格约定来理解,而不是把它看成 Zig 语言层面的硬性规则。实际项目中,不同团队和代码库可能会有不同风格。

本教程后续示例主要采用下面这套较容易阅读的风格:

标识符类型建议风格示例
变量、常量snake_caseuser_name, max_size
函数camelCasecalculateTotal, isValid
类型(结构体、枚举、联合)PascalCasePerson, Status
局部辅助名称简短但清晰count, index, result

最重要的不是“死记某张表“,而是保持以下几点:

  • 同一项目内尽量一致
  • 名称要能表达意图
  • 不要为了简短而牺牲可读性

注释

Zig 支持三种注释形式:

注释类型语法用途
普通注释//代码说明,不参与文档生成
文档注释///写在声明前,为后面的声明添加文档,可被 zig doc 提取
顶层文档注释//!为当前文件对应的模块添加文档,通常写在文件开头
//! 本模块提供用户管理功能

/// 计算两个整数的和
fn add(a: i32, b: i32) i32 {
    return a + b; // 普通注释
}

变量遮蔽规则

在局部作用域中,Zig 对变量遮蔽(shadowing)采取了非常严格的态度。
对初学者来说,可以先把它理解为:

  • 嵌套作用域里不要重新声明外层已经存在的同名局部变量
  • 独立的兄弟作用域中可以出现同名变量

这样做的好处是:

  • 避免“看起来像在改同一个变量,实际上换了一个新变量“的错误
  • 降低阅读代码时的歧义
  • 让编译器更早发现潜在命名冲突
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const pi = 3.14;

    {
        // 编译错误:嵌套块中的变量遮蔽了外层的 pi
        // var pi: i32 = 1234; // error: local variable shadows declaration of 'pi'
    }
}

// 兄弟作用域示例:这是合法的
test "separate scopes" {
    {
        const pi = 3.14;
        _ = pi;
    }
    {
        var pi: bool = true;
        _ = π // 合法:这是不同的作用域,不构成遮蔽
    }
}

设计理念

  • 避免因变量遮蔽导致的逻辑错误
  • 提高代码可读性和可维护性
  • 编译器能够更早发现潜在的命名冲突
  • 一个标识符在其定义的作用域内始终保持相同的含义

基本数据类型

类型总览

Zig 提供了以下基础类型:

类型分类类型说明
整数i8i128u8u128isizeusize有符号/无符号整数
浮点f16, f32, f64, f80, f128IEEE 浮点数
布尔booltruefalse
void空类型,大小为 0 字节
不可达noreturn永不返回的类型
编译期comptime_int, comptime_float编译期确定的数值类型
可选?T可能为 null 的类型,后续章节展开

整数类型

Zig 提供了从 8 位到 128 位的整数类型,以及平台相关的 isize/usize

类型位数最小值最大值
i88-128127
u880255
i1616-32,76832,767
u1616065,535
i3232-2,147,483,6482,147,483,647
u323204,294,967,295
i6464≈ -9.2 × 10¹⁸≈ 9.2 × 10¹⁸
u64640≈ 1.8 × 10¹⁹
i128128≈ -1.7 × 10³⁸≈ 1.7 × 10³⁸
u1281280≈ 3.4 × 10³⁸
isize指针与平台相关与平台相关
usize指针0与平台相关

isize/usize 的大小与平台指针大小一致(64 位平台上为 64 位),常用于表示内存大小和索引。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const a: i32 = -100;
    const b: u32 = 200;
    const size: usize = 1024;

    std.debug.print("i32: {}, u32: {}, usize: {}\n", .{ a, b, size });
}

Zig 还支持任意宽度的整数类型,如 u3i12u24 等,宽度范围从 0 到 65535 位。这些类型在位操作、packed struct 字段和协议解析中很常见:

const flags: u3 = 0b101;
const port: u16 = 8080;

浮点类型

Zig 提供了多种浮点类型:f16f32f64f80f128。它们的主要区别在于可表示的精度和范围;位数越高,通常能表示更多有效数字,但相应地也会占用更多空间。

对初学者来说,可以先建立下面这些直觉:

  • f32f64 最常见
  • f64f32 精度更高
  • f16 精度较低,常见于特定场景
  • f80f128 提供更高精度,但并不是所有场景都需要
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const float_16: f16 = 3.14;
    const float_32: f32 = 3.14159;
    const float_64: f64 = 3.141592653589793;
    const float_80: f80 = 3.141592653589793238;
    const float_128: f128 = 3.14159265358979323846264338327950288;

    std.debug.print("f16: {}, f32: {}, f64: {}\n", .{ float_16, float_32, float_64 });
    std.debug.print("f80: {}, f128: {}\n", .{ float_80, float_128 });
}

预期输出:

f16: 3.140625, f32: 3.14159, f64: 3.141592653589793
f80: 3.141592653589793238, f128: 3.14159265358979323846264338327950288

需要注意的是,十进制浮点字面量在赋给二进制浮点类型时,往往不能被“完全精确“地表示,因此实际打印结果可能与书写时的十进制形式略有差异。这也是为什么不同精度的浮点类型,输出结果会有所不同。

数字字面量与编译期数值类型

Zig 的数字字面量支持多种写法:

const decimal = 42;           // 十进制整数字面量
const hex = 0xFF;             // 十六进制
const octal = 0o755;          // 八进制
const binary = 0b1010;        // 二进制
const float_val = 3.14;       // 浮点字面量
const readable = 1_000_000;   // 使用下划线提高可读性
const readable_hex = 0xFFFF_FFFF;
const readable_float = 1_000.0_001;

进制前缀

  • 十进制:无前缀(如 42
  • 十六进制:0x(如 0xFF
  • 八进制:0o(如 0o755
  • 二进制:0b(如 0b1010

下划线分隔符:数字中可插入 _ 提高可读性,例如 1_000_0000xFFFF_FFFF1_000.0_001

在没有被具体上下文约束时:

  • 整数字面量的类型语义是 comptime_int
  • 浮点字面量的类型语义是 comptime_float

这并不表示它们一开始就被自动推断成某个固定宽度的整数或浮点类型。更准确地说,在赋给具体类型变量、参与需要确定类型的表达式,或作为函数参数使用之前,它们仍然保持编译期数值语义;当上下文需要具体类型时,编译器才会将其落实为相应的整数或浮点类型,并检查该值是否能被目标类型表示。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const a = 42;   // comptime_int
    const b = 3.14; // comptime_float

    const i: i32 = 42;
    const f: f64 = 3.14;

    std.debug.print("a: {}, b: {}, i: {}, f: {}\n", .{ a, b, i, f });
}

预期输出:

a: 42, b: 3.14, i: 42, f: 3.14

如果需要,也可以显式写出编译期数值类型:

const int_val: comptime_int = 42;
const float_val: comptime_float = 3.14;

布尔类型

布尔类型表示逻辑值,只有 truefalse 两个取值:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const is_enabled: bool = true;
    const is_disabled: bool = false;

    const result_and = is_enabled and is_disabled;  // false
    const result_or = is_enabled or is_disabled;    // true
    const result_not = !is_enabled;                  // false

    std.debug.print("and: {}, or: {}, not: {}\n", .{ result_and, result_or, result_not });
}

预期输出:

and: false, or: true, not: false

要点

  • 独立的 bool 值通常可以按 1 字节来理解
  • 支持逻辑运算:and(与)、or(或)、!(非)
  • 主要用于条件判断和逻辑运算

进阶:布尔类型在控制流中的详细用法请参考控制流与资源管理

void 和 noreturn

void 是空类型,大小为 0 字节,用于不返回有用值的函数:

const std = @import("std");

fn logMessage(msg: []const u8) void {
    std.debug.print("{s}\n", .{msg});
}

noreturn 表示控制流不会返回到当前位置,典型场景包括 while (true) {}unreachablestd.process.exit()。更多用法见函数章节。

类型转换

为什么需要显式类型转换?

Zig 的设计哲学是“显式优于隐式“,不进行隐式类型转换。以下代码展示了隐式转换可能带来的问题:

// 假设 Zig 允许隐式转换(实际不允许):
// const x: u8 = 300;     // 静默溢出!300 超出 u8 范围
// const y: i32 = 3.14;   // 静默截断!丢失小数部分
// Zig 要求显式声明转换意图,避免此类隐患

转换方式一览

Zig 提供了多种类型转换方式,每种都有特定的用途和安全保证:

转换方式用途安全性示例
@as显式类型标注安全,不做值转换消除类型推断歧义
@intCast整数类型间转换运行时安全检查(Debug/ReleaseSafe模式panic,ReleaseFast/ReleaseSmall为未定义行为)u32u8
@floatFromInt整数转浮点不会 panic,但大整数可能丢失精度i32f32
@intFromFloat浮点转整数运行时安全检查(Debug/ReleaseSafe模式panic,ReleaseFast/ReleaseSmall为未定义行为)f64i32
@truncate截断高位不安全,直接丢弃高位(不检查范围)u32u8
@bitCast位模式重解释不安全,保持位模式f32u32

注意:上表中 @intCast@truncate@bitCast 等内建函数支持结果类型推断(Result Type Inference)——通过目标变量的类型自动推断转换的目标类型。例如 const x: u8 = @intCast(val); 中,@intCast 的目标类型由变量 x 的类型 u8 推断得出。

@as 用于显式指定表达式的类型,不做任何值转换:

const x = @as(u32, 42);  // 显式指定字面量类型

示例

const std = @import("std");

pub fn main(_: std.process.Init) void {
    // 安全转换:@intCast(运行时检查)
    const small: i32 = 100;
    const small_u8: u8 = @intCast(small); // OK: 100 在 u8 范围内
    std.debug.print("i32({}) -> u8({})\n", .{ small, small_u8 });

    // 不安全转换:@truncate(直接截断)
    const value: u32 = 300;
    const truncated: u8 = @truncate(value); // 300 % 256 = 44
    std.debug.print("u32({}) -> u8({}) [截断]\n", .{ value, truncated });

    // 位模式重解释:@bitCast
    const float_bits: f32 = 3.14159;
    const bits: u32 = @bitCast(float_bits);
    std.debug.print("f32({}) -> u32(0x{x})\n", .{ float_bits, bits });
}

重要区分

  • @intCast 用于安全转换:值必须在目标类型范围内,否则 panic
  • @truncate 用于不安全的截断:直接丢弃高位,不检查范围

最佳实践

  1. 优先使用语义明确的转换方式:例如整数缩窄时优先考虑 @intCast,避免直接使用 @truncate
  2. 区分“范围检查“和“精度丢失“@intCast@intFromFloat 主要关注值是否可表示;@floatFromInt 虽不会 panic,但大整数可能丢失精度
  3. 明确不安全操作:使用 @truncate@bitCast 时添加注释说明意图;对于可能失败的整数转换,可先检查范围再使用 @intCast,或使用 std.math.cast

进阶:类型转换失败时的错误处理机制将在错误处理基础中详细讲解。

字符和字符串

Zig 提供了强大的字符和字符串支持,原生支持 Unicode。字符和字符串在 Zig 中是两个不同的概念:字符是 Unicode 码位,字符串是 UTF-8 编码的字节序列。

Unicode 码位与 UTF-8 编码

核心概念

  • Unicode 码位:字符的唯一标识符,32 位无符号整数1(如 ‘我’ = 0x6211)
  • UTF-8 编码:不定长编码方式,一个码位对应 1-4 个字节(如 ‘我’ = E6 88 91,3字节)

UTF-8 编码长度规则

  • 1 字节:ASCII 字符(0x00-0x7F),如 ‘A’ = 0x41
  • 2 字节:部分欧洲字符(0x80-0x7FF)
  • 3 字节:大部分常用字符,包括中文(0x800-0xFFFF)
  • 4 字节:辅助平面字符,如部分表情符号(0x10000-0x10FFFF)

Zig 的处理方式

  • 字符字面量'我'):存储为 Unicode 码位
  • 字符串字面量"我"):存储为 UTF-8 编码的字节序列

字符字面量

单引号用于字符字面量,得到 Unicode 码位,类型为 comptime_int

const std = @import("std");

pub fn main(_: std.process.Init) void {
    // ASCII 字符
    const letter = 'A';
    std.debug.print("字符: {c}, 码位: {}\n", .{ letter, letter });

    // Unicode 字符(中文)
    const me_zh = '我';
    std.debug.print("字符: {0u} = 码位: 0x{0x}\n", .{me_zh});

    // 表情符号
    const emoji = '☔';
    std.debug.print("表情: {0u}, 码位: 0x{0x}\n", .{emoji});

    // 类型是 comptime_int
    const char_value: comptime_int = 'Z';
    std.debug.print("comptime_int 值: {}\n", .{char_value});
}

预期输出:

字符: A, 码位: 65
字符: 我 = 码位: 0x6211
表情: ☔, 码位: 0x2614
comptime_int 值: 90

要点

  • 字符字面量用单引号 'A',类型是 comptime_int
  • 支持完整的 Unicode 字符集
  • 可以直接打印码位,或使用 {c} 格式化为 ASCII 字符、{u} 格式化为 Unicode 字符
  • {0u}{0x} 这类写法中,前面的 0 表示重复使用第 0 个参数;其中 {u} 按 Unicode 字符输出,{x} 按十六进制输出

进阶:字符串格式化(如 {s}, {c}, {u} 等格式说明符)的详细用法请参考常用标准库模块详解中的相关内容。

字符串字面量

双引号用于字符串字面量,存储为 UTF-8 编码的字节序列:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const str = "Hello, Zig!";

    std.debug.print("字符串: {s}\n", .{str});

    // 字符串可以包含任意 Unicode 字符
    const chinese = "你好,世界!";
    std.debug.print("中文: {s}\n", .{chinese});

    // 字符串可以包含转义字符
    const escaped = "第一行\n第二行\t制表符";
    std.debug.print("转义: {s}\n", .{escaped});
}

预期输出:

字符串: Hello, Zig!
中文: 你好,世界!
转义: 第一行
第二行	制表符

要点

  • 字符串字面量用双引号 "Hello"
  • 支持 UTF-8 编码,可以包含任意 Unicode 字符
  • 支持常见的转义字符:\n(换行)、\t(制表符)、\\(反斜杠)、\"(双引号)

进阶:更准确地说,字符串字面量的底层类型可理解为哨兵终止字节数组的只读指针(如 *const [N:0]u8)。字符串的长度、索引访问以及哨兵终止数组的含义,将在复合类型章节详细讲解。

字符与字符串的区别

方面字符 '我'字符串 "我"
类型comptime_int*const [3:0]u8
存储内容Unicode 码位 0x6211UTF-8 字节 E6 88 91
长度不适用(单个码位)3 字节

常见误区

  • ❌ 字符串 "A" 不是字符 'A'
  • ❌ 字符串 "我" 的长度不是 1(而是 3 字节)
  • ✅ 字符表示单个码位,字符串表示字节序列

多行字符串字面量

多行字符串以 \\ 开头,不执行任何转义。行与行之间自动插入换行符,但最后一行末尾不包含换行符:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const multi_line =
        \\第一行
        \\第二行
        \\第三行
    ;

    std.debug.print("多行字符串:\n{s}\n", .{multi_line});

    // 包含特殊字符(无需转义)
    const code =
        \\fn main() void {
        \\    const x = "字符串";
        \\    std.debug.print("{s}\n", .{x});
        \\}
    ;

    std.debug.print("代码:\n{s}\n", .{code});
}

预期输出:

多行字符串:
第一行
第二行
第三行
代码:
fn main() void {
    const x = "字符串";
    std.debug.print("{s}\n", .{x});
}

特点

  • 不处理转义序列
  • 行与行之间自动插入换行符,最后一行末尾不包含换行符
  • 适合嵌入代码、JSON、XML 等文本

本章要点

本章核心要点:

  • 使用 const 表示不可变绑定,使用 var 表示可变绑定
  • undefined 只适用于“先声明、后立即覆盖“的场景,读取 undefined 值属于非法行为
  • Zig 鼓励显式、清晰的命名、注释和作用域管理;局部变量遮蔽规则也相对严格
  • 整数类型和浮点类型需要结合范围、精度和场景来选择
  • 数字字面量在未被上下文约束时,通常具有 comptime_intcomptime_float 的语义
  • bool 只有 truefalse 两个取值,常用于条件判断和逻辑运算
  • void 表示“没有有用返回值“,noreturn 表示控制流不会回到当前位置
  • Zig 不做隐式类型转换;数值转换应使用显式内建函数表达意图
  • 字符字面量和字符串字面量是两个不同概念:
    • 字符表示单个 Unicode 码位
    • 字符串表示 UTF-8 编码的字节序列
  • 多行字符串字面量适合嵌入原样文本,不执行转义

  1. 当前 Unicode 码位的取值范围是 0x00000x10FFFF,因此最多需要 21 个二进制位来表示;不过在实际编程中,通常会使用 32 位整数类型来存储它们。

函数定义与调用

函数是 Zig 程序组织逻辑的核心方式。本章涵盖:

  • 函数的声明、调用、参数与返回值
  • 参数传递的基本思路
  • 内建函数概览
  • 进阶特性:anytypeexternexportinline、函数类型

函数基础

函数语法结构

Zig 函数的基本语法结构如下:

fn 函数名(参数列表) 返回值类型 {
    函数体
}

组成部分说明

  1. fn 关键字:函数声明的开始
  2. 函数名:遵循 camelCase 命名规范(如 calculateTotalprocessData
  3. 参数列表
    • 格式:参数名: 类型
    • 多个参数用逗号分隔
    • 参数默认不可变
  4. 返回值类型
    • void 表示无返回值
    • ?T 表示可选返回值
    • !T 表示错误联合类型
    • noreturn 表示永不返回(如 panic、exit)
  5. 函数体:包含具体的逻辑代码

基本函数示例

const std = @import("std");

// 基本函数:两个参数,返回 i32
fn add(a: i32, b: i32) i32 {
    return a + b;
}

// 无返回值函数:使用 void
fn greet(name: []const u8) void {
    std.debug.print("Hello, {s}!\n", .{name});
}

// 可选返回值:使用 ?T
fn divide(a: i32, b: i32) ?i32 {
    if (b == 0) return null;
    return @divTrunc(a, b);
}

// 错误联合类型:使用 !T
const MathError = error{DivisionByZero};
fn safeDivide(a: i32, b: i32) MathError!i32 {
    if (b == 0) return MathError.DivisionByZero;
    return @divTrunc(a, b);
}

pub fn main(_: std.process.Init) void {
    // 调用基本函数
    const sum = add(10, 20);
    std.debug.print("sum: {}\n", .{sum});
    
    // 调用无返回值函数
    greet("Zig");
    
    // 处理可选返回值
    if (divide(10, 2)) |result| {
        std.debug.print("10 / 2 = {}\n", .{result});
    }
    
    // 处理错误联合类型
    const safe_result = safeDivide(10, 2) catch {
        std.debug.print("除零错误\n", .{});
        return;
    };
    std.debug.print("安全除法: {}\n", .{safe_result});
}

预期输出:

sum: 30
Hello, Zig!
10 / 2 = 5
安全除法: 5

深入学习:关于 ?T(可选类型)和 !T(错误联合类型)的详细对比,见错误处理章节。

Zig 函数的一些基础限制

Zig 不支持以下特性:

  • 函数重载:不能定义同名但参数不同的函数
  • 默认参数:所有参数必须显式传递
  • 运行时闭包:Zig 函数不能捕获外层作用域的运行时变量。需要传递上下文时,应显式通过参数传入。

替代方案

  • 使用 anytype 实现泛型
  • 使用可选参数 ?T 实现可选值
  • 使用结构体参数实现命名参数
const std = @import("std");

// ❌ 不支持:函数重载
// fn add(a: i32, b: i32) i32 { ... }
// fn add(a: f64, b: f64) f64 { ... }  // 编译错误:重复定义

// ✅ 替代方案:使用 anytype
// 注意:b: @TypeOf(a) 限制 b 与 a 同类型,非 anytype 的通用模式
fn add(a: anytype, b: @TypeOf(a)) @TypeOf(a) {
    return a + b;
}

// ❌ 不支持:默认参数
// fn greet(name: []const u8, greeting: []const u8 = "Hello") void { ... }

// ✅ 替代方案:使用可选参数
fn greet(name: []const u8, greeting: ?[]const u8) void {
    const g = greeting orelse "Hello";
    std.debug.print("{s}, {s}!\n", .{ g, name });
}

pub fn main(_: std.process.Init) void {
    const int_sum = add(10, 20);
    const float_sum = add(3.14, 2.86);
    std.debug.print("int: {}, float: {}\n", .{ int_sum, float_sum });
    
    greet("Zig", null);           // 使用默认值
    greet("World", "Hi");         // 显式传递
}

预期输出:

int: 30, float: 6
Hello, Zig!
Hi, World!

深入学习:anytype 的详细内容请参考编译期计算与元编程章节。

递归函数

Zig 支持递归函数,但需要注意栈深度限制:

const std = @import("std");

// 递归计算阶乘
fn factorial(n: u32) u32 {
    if (n <= 1) return 1;
    return n * factorial(n - 1);
}

// 尾递归形式(注意:Zig 目前不保证尾调用优化)
fn factorialTail(n: u32, acc: u32) u32 {
    if (n <= 1) return acc;
    return factorialTail(n - 1, n * acc);
}

pub fn main(_: std.process.Init) void {
    const result1 = factorial(5);
    const result2 = factorialTail(5, 1);
    std.debug.print("阶乘(5): {}\n", .{result1});
    std.debug.print("尾递归阶乘(5): {}\n", .{result2});
}

预期输出:

阶乘(5): 120
尾递归阶乘(5): 120

注意事项

  • 递归深度受栈大小限制
  • Zig 目前不保证尾调用优化,因此深度递归场景通常应优先考虑迭代实现

函数参数与调用方式

参数传递核心原则

理解 Zig 函数时,先抓住下面三条原则即可:

  1. 参数默认不可变:函数参数不能直接修改,这能减少意外副作用
  2. 优先按值语义理解代码:阅读代码时,先把参数看作“传入了一个值“
  3. 需要修改调用者数据时,要显式传递指针:修改行为必须清楚写出来

注意:编译器可能自动将较大的值参数通过引用传递以避免复制。这是透明的优化,不影响代码语义。

const std = @import("std");

// 值传递(原始类型):小类型通过值传递,复制成本很低
fn incrementValue(x: i32) i32 {
    // x += 1; // 编译错误:参数不可变
    return x + 1; // 返回新值
}

// 指针传递(可修改):当需要修改调用者的数据时,显式传递指针
fn incrementPointer(x: *i32) void {
    x.* += 1; // 通过指针修改
}

// 常量指针传递(不可修改):大类型通过常量指针传递以避免复制
const BigStruct = struct {
    values: [100]i32,
    name: []const u8,
};

fn printBigStruct(data: *const BigStruct) void {
    std.debug.print("名称:{s}, 第一个值:{}\n", .{ data.name, data.values[0] });
    // data.values[0] = 10; // 编译错误:常量指针不可修改
}

pub fn main(_: std.process.Init) void {
    var num: i32 = 10;
    
    // 值传递:num 不会被修改
    const result = incrementValue(num);
    std.debug.print("incrementValue 结果:{}\n", .{result});
    std.debug.print("原始值不变:{}\n", .{num});
    
    // 指针传递:num 会被修改
    incrementPointer(&num);
    std.debug.print("调用 incrementPointer 后:{}\n", .{num});
    
    // 常量指针传递:高效且安全
    var big_data = BigStruct{
        .values = [_]i32{0} ** 100,
        .name = "测试数据",
    };
    big_data.values[0] = 42;
    printBigStruct(&big_data);
}

预期输出:

incrementValue 结果:11
原始值不变:10
调用 incrementPointer 后:11
名称:测试数据, 第一个值:42

参数传递策略选择

数据类型推荐传递方式原因
原始类型(i32f64 等)值传递复制成本低
小结构体值传递语义直接,复制成本通常可接受
大结构体*const T避免复制,并明确只读借用
需要修改的数据*T显式表达可变借用
允许缺失的小值?T直接表达“值可能不存在“
允许缺失的大对象?*const T?*T同时表达“可能不存在“和“避免复制“

两种常见参数模式

  1. 切片参数:按值传递,但仍可修改底层元素
fn fillArray(arr: []u8, value: u8) void {
    for (arr) |*item| {
        item.* = value;
    }
}

这里的 arr 是切片,函数拿到的是切片这个值本身;但切片指向的底层数据仍然可以被修改。
如果不希望函数修改元素,应使用 []const u8

  1. 输出参数模式:通过指针写回附加结果

这种写法在 C 中很常见;在 Zig 中通常不是首选,但在与 C 交互、复用缓冲区或有明确性能需求时仍然有用。

fn divideWithRemainder(a: i32, b: i32, remainder: *i32) i32 {
    remainder.* = @mod(a, b);
    return @divTrunc(a, b);
}

内建函数(入门了解即可)

什么是内建函数?

内建函数(Builtin Functions)是 Zig 提供的特殊函数,以 @ 开头。它们:

  • 由编译器直接实现
  • 提供底层操作能力
  • 是 Zig 元编程的基础

常用内建函数分类

类别函数用途
类型操作@TypeOf, @typeInfo获取类型信息
内存操作@bitCast, @ptrCast内存重解释
指针操作@ptrFromInt, @intFromPtr指针与整数转换
编译期@compileError, @compileLog编译期诊断
数学函数@sqrt, @sin, @cos常见数学函数调用
const std = @import("std");

pub fn main(_: std.process.Init) void {
    // 类型信息:获取类型的详细信息
    const type_info = @typeInfo(i32);
    std.debug.print("i32 类型信息:{}\n", .{type_info});

    // 编译期类型推断:获取表达式的类型
    const T = @TypeOf(42);
    std.debug.print("42 的类型:{}\n", .{T});

    // 内存操作:位重解释
    const bytes: [4]u8 = [_]u8{ 1, 2, 3, 4 };
    const as_int: u32 = @bitCast(bytes);
    std.debug.print("字节转整数:{}\n", .{as_int});

    // 指针操作:获取变量地址
    var value: i32 = 42;
    const ptr: *const i32 = &value;
    const addr = @intFromPtr(ptr);
    std.debug.print("指针地址:0x{x}\n", .{addr});

    // 编译期断言
    comptime {
        std.debug.assert(@sizeOf(u64) == 8);
    }
}

预期输出:

i32 类型信息:.{ .int = .{ .signedness = .signed, .bits = 32 } }
42 的类型:comptime_int
字节转整数:67305985
指针地址:0x...

注意@ptrFromInt 将整数转换为指针,在非裸机环境下使用硬编码地址会导致未定义行为。仅在嵌入式开发等场景中使用,并确保地址有效。

函数高级特性(可先略读)

pub 是 Zig 的可见性修饰符,使函数或变量在当前文件外可见。默认情况下,Zig 中的声明是私有的(仅在当前文件可见)。

// 私有函数:仅当前文件可用
fn helper() void { ... }

// 公开函数:其他文件可以通过 @import 引用
pub fn publicApi() void { ... }

符号可见性对比

声明方式当前编译单元当前模块其他目标文件
fn foo()✅ 可见❌ 不可见❌ 不可见
pub fn foo()✅ 可见✅ 可见❌ 不可见
export fn foo()✅ 可见✅ 可见✅ 可见(全局符号)

anytype 参数类型

anytype 允许函数接受任意类型的参数,编译器会为每种类型生成专门的函数版本(单态化):

const std = @import("std");

fn print(value: anytype) void {
    std.debug.print("{}\n", .{value});
}

pub fn main(_: std.process.Init) void {
    print(42);      // 编译器生成 print(i32) 版本
    print(3.14);    // 编译器生成 print(f64) 版本
    print("hello"); // 编译器生成 print(*const [5:0]u8) 版本
}

anytype 参数会导致函数在编译期为每种实际传入的类型分别生成代码(单态化)。这意味着调用处的类型不匹配会产生编译错误,而不是运行时错误。对于性能敏感的泛型代码,这种方式不会引入运行时开销。

深入学习:anytype 的详细内容请参考编译期计算与元编程章节。

noreturn

noreturn 表示永不返回的函数,用于 std.process.exit、无限循环和 panic 等场景。基础用法见类型章节

函数类型

这一节展示“函数也是值“的基本概念。

Zig 支持将函数作为值传递,使用函数类型语法:

const std = @import("std");

// 定义函数类型:接受两个 i32,返回 i32
const BinaryOp = *const fn (i32, i32) i32;

fn add(a: i32, b: i32) i32 {
    return a + b;
}

fn multiply(a: i32, b: i32) i32 {
    return a * b;
}

pub fn main(_: std.process.Init) void {
    // 将函数赋值给变量
    const op: BinaryOp = add;
    std.debug.print("add(3, 4) = {}\n", .{op(3, 4)});
    
    // 动态选择函数
    const op2: BinaryOp = multiply;
    std.debug.print("multiply(3, 4) = {}\n", .{op2(3, 4)});
}

预期输出:

add(3, 4) = 7
multiply(3, 4) = 12

深入学习:函数指针在接口和 VTable 中的应用请参考接口与多态

本章要点

主题核心概念
函数基础fn 定义函数;参数不可变;支持 ?T/!T/noreturn 返回
参数传递值语义优先;大类型用 *const T;修改用 *T
内建函数@ 开头;类型操作、内存操作、编译期诊断
pub可见性修饰符;pub 跨文件可见,export 跨目标文件可见
anytype编译期单态化泛型;为每种类型生成专门版本
noreturn底类型,可隐式转换为任何类型;用于 panic、exit
export/externC ABI 互操作;export 导出符号,extern 声明外部符号
inline强制内联;适合小型频繁调用的函数
函数类型*const fn(...) type 语法;函数作为值传递

复合类型

本章介绍 Zig 中最常见的复合类型,包括数组、切片、枚举、联合、结构体和元组。它们用于把基础类型组织成更有结构的数据,是后续学习控制流、错误处理、内存管理和工程实践的基础。

数组

数组是固定大小的连续内存序列,其长度是编译期常量,也是类型的一部分。

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const array: [5]i32 = [_]i32{ 1, 2, 3, 4, 5 };

    const len = array.len;
    const first = array[0];
    const last = array[array.len - 1];

    for (array, 0..) |item, index| {
        std.debug.print("array[{}] = {}\n", .{ index, item });
    }

    std.debug.print("array length: {}, first: {}, last: {}\n", .{ len, first, last });

    const matrix: [3][3]i32 = [_][3]i32{
        [_]i32{ 1, 2, 3 },
        [_]i32{ 4, 5, 6 },
        [_]i32{ 7, 8, 9 },
    };
    for (matrix, 0..) |row, row_index| {
        for (row, 0..) |item, col_index| {
            std.debug.print("matrix[{}][{}] = {}\n", .{ row_index, col_index, item });
        }
    }
}

预期输出:

array[0] = 1
array[1] = 2
array[2] = 3
array[3] = 4
array[4] = 5
array length: 5, first: 1, last: 5
matrix[0][0] = 1
matrix[0][1] = 2
matrix[0][2] = 3
matrix[1][0] = 4
matrix[1][1] = 5
matrix[1][2] = 6
matrix[2][0] = 7
matrix[2][1] = 8
matrix[2][2] = 9

核心特性

  • 大小固定:数组大小在编译期确定,不可改变
  • 类型包含大小[5]i32[10]i32 是不同的类型
  • 值语义:数组赋值会复制所有元素
  • 内存连续:元素在内存中连续存储,访问高效
  • 边界检查:数组长度是编译期常量,编译器可以在索引已知时提前发现越界;索引为运行时变量时仍进行运行时边界检查

相关章节:数组遍历使用的 for 循环将在控制流与资源管理中详细讲解。

数组操作

初始化语法[_]T{...} 中的 _ 表示让编译器从元素数量推断数组长度。

连接(++:将两个编译期已知的数组连接为新数组。

重复(**:将数组重复指定次数,生成新数组。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const part1 = [_]u8{ 1, 2, 3 };
    const part2 = [_]u8{ 4, 5 };

    const combined = part1 ++ part2;
    std.debug.print("连接: {any}\n", .{combined});

    const repeated = part1 ** 3;
    std.debug.print("重复: {any}\n", .{repeated});
}

预期输出:

连接: { 1, 2, 3, 4, 5 }
重复: { 1, 2, 3, 1, 2, 3, 1, 2, 3 }

++** 都是编译期操作,操作数必须是编译期已知的值。

切片

切片是对连续内存区域的“视图“,包含指针和长度两个字段(胖指针)。切片本身大小固定(64 位系统上 16 字节),但可以在运行时引用不同长度的数据。

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    var array = [_]i32{ 1, 2, 3, 4, 5 };

    const slice: []i32 = array[1..4];
    std.debug.print("slice length: {}, first: {}\n", .{ slice.len, slice[0] });

    slice[0] = 99;
    std.debug.print("array[1] after modification: {}\n", .{array[1]});

    const subslice = slice[0..2];
    std.debug.print("subslice length: {}\n", .{subslice.len});
}

预期输出:

slice length: 3, first: 2
array[1] after modification: 99
subslice length: 2

核心特性

  • 胖指针:包含指针和长度两个字段(64 位系统上共 16 字节)
  • 引用语义:切片是对底层内存的引用,不拥有数据;修改切片会影响原数据
  • 边界检查:切片长度是运行时值,只能在运行时检查边界

进阶:胖指针是 Zig 指针系统的重要组成部分,指针、切片与对齐将详细讲解各种指针类型及其应用场景。

切片创建方式

方式语法说明
从数组切片array[start..end]包含 start,不包含 end
全切片array[:]等价于 array[0..array.len]
从 many-item pointer 构造切片ptr[0..len]需要已知起始位置和长度
重新切片slice[start..end]从已有切片创建子切片
const std = @import("std");

pub fn main(_: std.process.Init) void {
    var array = [_]i32{ 1, 2, 3, 4, 5 };

    const full: []i32 = array[:];
    const sub: []i32 = array[1..4];
    const reslice: []i32 = sub[0..2];

    std.debug.print("full len: {}, sub len: {}, reslice len: {}\n", .{ full.len, sub.len, reslice.len });
}

预期输出:

full len: 5, sub len: 3, reslice len: 2

数组 vs 切片

特性数组切片
大小编译期常量,类型的一部分运行时值,存储在 len 字段中
内存直接存储数据胖指针(ptr + len,共 16 字节)
语义值语义(赋值复制)引用语义(赋值共享底层数据)
边界检查索引已知时编译期检查,否则运行时检查运行时检查
graph TB
    classDef ptrStyle fill:#fff9c4,stroke:#f57f17,stroke-width:2px
    classDef lenStyle fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px
    classDef arrayElement fill:#e1f5ff,stroke:#01579b,stroke-width:3px
    classDef inactive fill:#f5f5f5,stroke:#999,stroke-dasharray: 5 5
    classDef container fill:#fafafa,stroke:#666,stroke-width:1px

    subgraph SliceVar["切片变量(栈上)- 胖指针结构"]
        direction LR
        Ptr["ptr (指针)<br/>8 字节<br/>指向 array[1]"]:::ptrStyle
        Len["len (长度)<br/>8 字节<br/>值: 3"]:::lenStyle
    end

    subgraph Array["底层数组(array)"]
        direction LR
        A0["[0]<br/>值: 1"]:::inactive
        A1["[1]<br/>值: 2"]:::arrayElement
        A2["[2]<br/>值: 3"]:::arrayElement
        A3["[3]<br/>值: 4"]:::arrayElement
        A4["[4]<br/>值: 5"]:::inactive
    end

    Ptr -.->|指向| A1

    class SliceVar container
    class Array container

选择指南

场景推荐使用原因
编译期已知大小数组性能更好,编译期检查
函数参数切片灵活,避免复制
返回值切片可以返回部分数据
全局常量数组存储在静态内存
动态大小切片唯一选择

哨兵终止数组

哨兵终止数组在数组末尾添加一个“哨兵值“来标记结束,主要用于 C 语言兼容性,以及需要明确终止标记的数据表示。

语法

  • [N:S]T:长度为 N、哨兵值为 S、元素类型为 T 的数组
  • [:S]T:带哨兵值 S 的切片
  • 最常见的:[:0]const u8 —— 以 0 结尾的字节切片,常用于 C 风格字符串
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const message: [5:0]u8 = "hello".*;

    std.debug.print("消息:{s}\n", .{&message});
    std.debug.print("长度(不含哨兵):{}\n", .{message.len});
    std.debug.print("哨兵在索引 {} 处\n", .{message.len});

    for (message, 0..) |byte, index| {
        std.debug.print("[{}] = {c} ({})\n", .{ index, byte, byte });
    }

    const str: [:0]const u8 = &message;
    std.debug.print("哨兵终止切片长度:{}\n", .{str.len});
}

注意事项

  1. 哨兵值不在 lenmessage.len 返回 5,但实际占用 6 字节
  2. 访问哨兵arr[arr.len] 返回哨兵值
  3. 编译期检查:Zig 会确保哨兵值正确设置
特性普通数组 [N]T哨兵数组 [N:S]T
长度信息编译期已知编译期已知
内存布局N 个元素N+1 个元素(含哨兵)
C 兼容性需要转换直接兼容

实际应用场景

extern "c" fn puts(s: [*:0]const u8) c_int;

pub fn callCFunction() void {
    const message = "Hello from Zig";
    _ = puts(message.ptr);
}
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const names: [3][:0]const u8 = .{ "Alice", "Bob", "Charlie" };
    for (names, 0..) |name, i| {
        std.debug.print("名字 {}:{s}\n", .{ i, name });
    }
}

相关章节:哨兵终止数组主要用于 C 互操作,详细内容请参考 C 互操作

枚举

枚举用于定义一组命名的整数值,提供类型安全和代码可读性。

Zig 枚举的特点

  • 可以指定底层整数类型
  • 可以包含方法
  • 与 C 枚举完全兼容
  • switch 语句必须穷尽所有枚举值

基本枚举

const std = @import("std");

const Color = enum {
    red,
    green,
    blue,
};

pub fn main(_: std.process.Init) void {
    const color: Color = .red;

    const color_name = switch (color) {
        .red => "红色",
        .green => "绿色",
        .blue => "蓝色",
    };
    std.debug.print("颜色:{s}\n", .{color_name});

    std.debug.print("序值:{}\n", .{@intFromEnum(color)});

    const green_value: Color = @enumFromInt(1);
    std.debug.print("从整数创建:{}\n", .{green_value});
}

预期输出:

颜色:红色
序值:0
从整数创建:.green

相关章节:枚举与 switch 语句配合使用时,编译器会强制穷尽性检查,详见控制流与资源管理

带整数类型的枚举

指定底层整数类型,用于 C 互操作、内存优化或协议兼容:

const std = @import("std");

const Priority = enum(u8) {
    low = 1,
    medium = 5,
    high = 10,
    critical = 20,
};

pub fn main(_: std.process.Init) void {
    const p: Priority = .high;
    std.debug.print("优先级:{s},值:{}\n", .{ @tagName(p), @intFromEnum(p) });
}

预期输出:

优先级:high,值:10

枚举方法

const std = @import("std");

const Direction = enum(u4) {
    north = 0,
    east = 1,
    south = 2,
    west = 3,

    fn toString(self: Direction) []const u8 {
        return switch (self) {
            .north => "北",
            .east => "东",
            .south => "南",
            .west => "西",
        };
    }

    fn opposite(self: Direction) Direction {
        return switch (self) {
            .north => .south,
            .east => .west,
            .south => .north,
            .west => .east,
        };
    }

    fn allDirections() [4]Direction {
        return .{ .north, .east, .south, .west };
    }
};

pub fn main(_: std.process.Init) void {
    const dir: Direction = .north;
    std.debug.print("方向:{s}\n", .{dir.toString()});
    std.debug.print("相反方向:{s}\n", .{dir.opposite().toString()});

    const all = Direction.allDirections();
    std.debug.print("所有方向数量:{}\n", .{all.len});
}

预期输出:

方向:北
相反方向:南
所有方向数量:4

非穷尽枚举

非穷尽枚举使用 _ 占位符表示未列出的值,适用于处理外部协议和 C 互操作时无法穷举所有可能值的场景:

const std = @import("std");

const TcpState = enum(u8) {
    closed = 0,
    listen = 1,
    established = 3,
    _, // 非穷尽:允许其他 u8 值
};

pub fn main(_: std.process.Init) void {
    const known: TcpState = .established;
    std.debug.print("已知状态:{s}\n", .{@tagName(known)});

    const unknown: TcpState = @enumFromInt(99);
    std.debug.print("未知状态值:{}\n", .{@intFromEnum(unknown)});

    switch (unknown) {
        .closed => std.debug.print("closed\n", .{}),
        .listen => std.debug.print("listen\n", .{}),
        .established => std.debug.print("established\n", .{}),
        _ => std.debug.print("其他状态\n", .{}),
    }
}

预期输出:

已知状态:established
未知状态值:99
其他状态

对非穷尽枚举进行 switch 时,需要使用 _else 处理未显式匹配到的值。两者的区别是:_ 更适合兜底未命名的底层 tag 值,并让编译器继续检查所有已知命名值是否已被显式处理;else 则会兜底所有未列出的情况,包括未列出的命名值和未命名值。

联合

联合允许在同一内存位置存储不同类型的数据。Zig 将联合分为两大类:

  • 带标签联合:有类型标签,自动跟踪活动成员,类型安全(推荐)
  • 无标签联合:无类型标签,需手动跟踪活动成员

带标签联合

带标签联合是联合和枚举的结合体,通过标签自动跟踪当前存储的值类型。这是 Zig 中实现安全多态的核心机制。

基本用法

const std = @import("std");

const Shape = union(enum) {
    circle: struct { radius: f32 },
    rectangle: struct { width: f32, height: f32 },
    triangle: struct { base: f32, height: f32 },

    fn area(self: Shape) f32 {
        return switch (self) {
            .circle => |c| std.math.pi * c.radius * c.radius,
            .rectangle => |r| r.width * r.height,
            .triangle => |t| t.base * t.height * 0.5,
        };
    }
};

pub fn main(_: std.process.Init) void {
    const shapes: [3]Shape = .{
        Shape{ .circle = .{ .radius = 1.0 } },
        Shape{ .rectangle = .{ .width = 3.0, .height = 5.0 } },
        Shape{ .triangle = .{ .base = 6.0, .height = 4.0 } },
    };

    for (shapes, 0..) |shape, i| {
        std.debug.print("形状 {} 面积:{:.2}\n", .{ i, shape.area() });
    }
}

预期输出:

形状 0 面积:3.14
形状 1 面积:15.00
形状 2 面积:12.00

两种定义方式

方式一(匿名标记,推荐):使用 union(enum),编译器自动生成枚举标签。

方式二(显式标签):先定义枚举类型,再定义联合引用它:

const ShapeTag = enum { circle, rectangle };
const Shape = union(ShapeTag) {
    circle: struct { radius: f32 },
    rectangle: struct { width: f32, height: f32 },
};

无标签联合

无标签联合没有类型标签,程序员需要自己跟踪当前活动的成员。根据内存布局的不同,分为三种:

类型内存布局访问非活动成员主要用途
普通 union由编译器决定安全模式下触发运行时错误通用场景
extern unionC ABI允许C 互操作、类型转换
packed union位级精确允许硬件编程、位操作

普通 union

const std = @import("std");

const Data = union {
    as_i32: i32,
    as_f32: f32,
    as_bytes: [4]u8,
};

pub fn main(_: std.process.Init) void {
    var data: Data = .{ .as_i32 = 42 };
    std.debug.print("as_i32: {}\n", .{data.as_i32});

    data = .{ .as_f32 = 3.14 };
    std.debug.print("as_f32: {}\n", .{data.as_f32});

    std.debug.print("联合大小: {} 字节\n", .{@sizeOf(Data)});
}

预期输出:

as_i32: 42
as_f32: 3.14
联合大小: 8 字节

注意:虽然所有成员都是 4 字节,但普通 union 的大小不一定等于最大成员的大小。普通 union 的内存布局由编译器决定,实际大小取决于编译器实现。访问非活动成员在安全构建模式下会触发运行时错误,在 ReleaseFast/ReleaseSmall 模式下是未定义行为。

extern union

extern union 遵循 C ABI,内存布局与 C 语言一致,大小等于最大成员的大小。与普通 union 不同,extern union 允许访问非活动成员,可用于类型重解释:

const std = @import("std");

const Data = extern union {
    as_i32: i32,
    as_f32: f32,
    as_bytes: [4]u8,
};

pub fn main(_: std.process.Init) void {
    const data: Data = .{ .as_i32 = 0x41424344 };
    std.debug.print("as_bytes: {s}\n", .{data.as_bytes});
    std.debug.print("联合大小: {} 字节\n", .{@sizeOf(Data)});
}

packed union

packed union 有位级精确的内存布局,所有成员必须有相同的位宽。可以作为 packed struct 的字段,用来表示同一段位数据的不同解释方式:

const std = @import("std");

const Data = packed union {
    as_u32: u32,
    as_i32: i32,
    as_f32: f32,
};

pub fn main(_: std.process.Init) void {
    const data: Data = .{ .as_u32 = 0x40490FDB };
    std.debug.print("as_u32: 0x{X}\n", .{data.as_u32});
    std.debug.print("as_f32: {}\n", .{data.as_f32});
}

预期输出:

as_u32: 0x40490FDB
as_f32: 3.1415927

进阶extern unionpacked union 的详细用法见高级部分的指针与内存章节。

高级特性

@tagName:获取带标签联合当前变体的名称字符串,常用于日志和调试:

const std = @import("std");

const Result = union(enum) {
    success: i32,
    failure: []const u8,
};

pub fn main(_: std.process.Init) void {
    const r = Result{ .success = 100 };
    std.debug.print("标签: {s}\n", .{@tagName(r)});
}

预期输出:

标签: success

结构体

结构体是 Zig 中定义复合类型的主要方式,将多个相关的数据字段组合成一个逻辑单元。

基本用法

const std = @import("std");

const Rectangle = struct {
    width: f32,
    height: f32,

    fn area(self: Rectangle) f32 {
        return self.width * self.height;
    }

    fn scale(self: *Rectangle, factor: f32) void {
        self.width *= factor;
        self.height *= factor;
    }

    fn square(size: f32) Rectangle {
        return Rectangle{
            .width = size,
            .height = size,
        };
    }
};

pub fn main(_: std.process.Init) void {
    var rect = Rectangle{
        .width = 10.0,
        .height = 5.0,
    };

    std.debug.print("面积: {d:.2}\n", .{rect.area()});

    rect.scale(2.0);
    std.debug.print("放大后面积: {d:.2}\n", .{rect.area()});

    const sq = Rectangle.square(4.0);
    std.debug.print("正方形面积: {d:.2}\n", .{sq.area()});
}

var/const 与字段可变性

结构体实例的字段可变性取决于绑定时用的是 var 还是 const

const Point = struct { x: f32, y: f32 };

var p = Point{ .x = 1.0, .y = 2.0 };
p.x = 3.0;  // 合法:p 是 var

const q = Point{ .x = 1.0, .y = 2.0 };
// q.x = 3.0;  // 编译错误:q 是 const

方法通过 self 参数区分能否修改字段:self: T(值传递,不可修改)与 self: *T(指针,可修改)。不带 self 的函数是关联函数(类似静态方法/构造函数),直接通过类型名调用如 Rectangle.square(4.0)

字段默认值

Zig 允许在结构体字段定义后直接指定默认值,创建实例时可以只覆盖需改动的字段:

const std = @import("std");

const Config = struct {
    host: []const u8 = "localhost",
    port: u16 = 8080,
    timeout: u32 = 30,
    debug: bool = false,
};

pub fn main(_: std.process.Init) void {
    const cfg = Config{ .host = "example.com" };
    std.debug.print("配置: {s}:{}\n", .{ cfg.host, cfg.port });
}

字段默认值直接写在字段定义上——host 默认为 "localhost"port 默认为 8080 等。创建结构体时只需提供要覆盖的字段,其余自动使用默认值。

注意:字段默认值必须在编译期确定。没有默认值的字段,结构体字面量初始化时必须显式提供。

结果位置语义

当目标类型已知时,可以省略结构体类型名,直接使用 .{ ... } 语法:

const std = @import("std");

const Point = struct { x: f32, y: f32 };

fn printPoint(p: Point) void {
    std.debug.print("Point({}, {})\n", .{ p.x, p.y });
}

pub fn main(_: std.process.Init) void {
    const p: Point = .{ .x = 1.0, .y = 2.0 };
    printPoint(p);
    printPoint(.{ .x = 3.0, .y = 4.0 });
}

适用场景:变量声明(类型注解提供结果位置)、函数参数、返回值。类型必须明确,否则编译错误。

结果位置同样适用于结构体上定义的命名常量——编译器根据左侧类型找到对应的声明:

// .empty:零值约定(标准库大量容器采用)
var list: std.ArrayList(u8) = .empty;
var map: std.StringHashMap(u32) = .empty;

// .default:自定义预设实例
const Threshold = struct {
    minimum: f32,
    maximum: f32,
    const default: @This() = .{ .minimum = 0.25, .maximum = 0.75 };
};
const t: Threshold = .default;

.empty.default 不是内置语法,只是结构体作者定义的命名常量;编译器根据结果位置类型在对应命名空间中查找。

注意.init(...) 不依赖结果位置语义。var arena = std.heap.ArenaAllocator.init(...) 中,init 的返回类型由函数签名确定,左侧 var arena 只是普通的返回值类型推断,与上述机制不同。

结构体布局

Zig 提供三种布局方式:

布局方式使用场景特点
默认大多数情况编译器可重排字段优化布局
packed位操作、协议解析紧凑存储,无填充,位级精确
extern与 C 互操作遵循 C ABI,按声明顺序排列
const std = @import("std");

const AutoLayout = struct { a: u8, b: u32, c: u16 };
const PackedStruct = packed struct { a: u8, b: u32, c: u16 };
const ExternStruct = extern struct { a: u8, b: u32, c: u16 };

pub fn main(_: std.process.Init) void {
    std.debug.print("AutoLayout: {} 字节, Packed: {} 字节, Extern: {} 字节\n",
        .{ @sizeOf(AutoLayout), @sizeOf(PackedStruct), @sizeOf(ExternStruct) });
}

进阶packed struct 的位操作详细用法见高级部分。

泛型结构体

Zig 通过 comptime 参数实现泛型结构体:

const std = @import("std");

fn Vector(comptime T: type) type {
    return struct {
        x: T,
        y: T,
        z: T,

        const Self = @This(); // @This() 获取当前正在定义的类型

        fn add(self: Self, other: Self) Self {
            return .{
                .x = self.x + other.x,
                .y = self.y + other.y,
                .z = self.z + other.z,
            };
        }
    };
}

pub fn main(_: std.process.Init) void {
    const Vec3f = Vector(f32);
    const v1 = Vec3f{ .x = 1.0, .y = 2.0, .z = 3.0 };
    const v2 = Vec3f{ .x = 4.0, .y = 5.0, .z = 6.0 };

    const v3 = v1.add(v2);
    std.debug.print("v1 + v2 = ({d:.1}, {d:.1}, {d:.1})\n", .{ v3.x, v3.y, v3.z });
}

预期输出:

v1 + v2 = (5.0, 7.0, 9.0)

进阶:泛型结构体的完整实现和高级用法请参考泛型编程章节。

元组

元组是一种特殊的匿名结构体,字段没有名称,使用数字索引访问。元组可以包含不同类型的元素。

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const tuple = .{ 1, "hello", 3.14, true };

    std.debug.print("第一个元素: {}\n", .{tuple[0]});
    std.debug.print("第二个元素: {s}\n", .{tuple[1]});
    std.debug.print("元组长度: {}\n", .{tuple.len});

    inline for (tuple, 0..) |item, index| {
        std.debug.print("tuple[{}] = {any}\n", .{ index, item });
    }
}

预期输出:

第一个元素: 1
第二个元素: hello
元组长度: 4
tuple[0] = 1
tuple[1] = { 104, 101, 108, 108, 111 }
tuple[2] = 3.14
tuple[3] = true

遍历元组必须使用 inline for,因为每个元素的类型可能不同,编译器需要在编译期为每个元素生成对应的代码。

元组操作

元组连接:使用 ++ 连接两个元组。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const a = .{ 1, 2 };
    const b = .{ "zig", true };
    const c = a ++ b;

    std.debug.print("{} {} {s} {}\n", .{ c[0], c[1], c[2], c[3] });
}

预期输出:

1 2 zig true

元组与结构体的关系:元组本质上是无字段名的匿名结构体,字段名为数字索引(0, 1, 2…)。

特性元组结构体数组
字段访问索引(0, 1, 2…)名称索引
元素类型可以不同可以不同必须相同
定义方式匿名命名类型命名类型
适用场景临时数据、多返回值长期存储、复用同类数据集合

解包赋值

Zig 支持从元组、数组或向量中一次性提取多个值到独立变量:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    // 元组解包
    const tuple = .{ 1, 2, 3 };
    var x: i32 = undefined;
    var y: i32 = undefined;
    var z: i32 = undefined;
    x, y, z = tuple;
    std.debug.print("元组解包:x={}, y={}, z={}\n", .{ x, y, z });

    // 数组解包
    const array = [_]u32{ 4, 5, 6 };
    var p: u32 = undefined;
    var q: u32 = undefined;
    var r: u32 = undefined;
    p, q, r = array;
    std.debug.print("数组解包:p={}, q={}, r={}\n", .{ p, q, r });

    // 混合声明:可以同时声明常量和变量
    const tuple2 = .{ 10, 20, 30 };
    const first, var second: i32, const third = tuple2;
    second = 25;
    std.debug.print("混合声明:{}, {}, {}\n", .{ first, second, third });
}

向量同样支持解包赋值。

本章要点

本章核心要点:

  • 数组 是长度固定、类型统一的连续数据;长度是类型的一部分。
  • 切片 是对连续数据的一段视图,运行时携带长度信息;它本身不拥有底层数据。
  • 哨兵终止数组 适合表示以特定结束值结尾的数据,常见于与 C 风格字符串或底层接口交互的场景。
  • 枚举 用于表示一组离散取值;带底层整数类型的枚举可以更明确地控制表示方式。
  • 非穷尽枚举 不能假定所有运行时值都已被当前源码完整列出;使用 switch 时要为未显式匹配到的情况保留兜底处理。
  • 联合 表示“一块存储在不同时间按不同类型解释“;如果需要让当前活跃字段始终可安全追踪,应优先考虑 带标签联合
  • 带标签联合 常用于表示“一个值在若干变体中取其一“的数据;读取时通常使用 switch 按标签分别处理。
  • 无标签联合 更接近底层内存重解释;只有在确切知道当前活跃字段时才适合使用。
  • 结构体 用于把多个相关字段组织成一个整体;可以同时拥有字段、方法、工厂函数和内部常量。
  • 结构体布局 需要根据目标选择:
    • 普通 struct 适合日常编程
    • packed struct 适合位级精确布局
    • extern struct 适合与 C ABI 或外部布局约定对齐
  • 字段默认值类型级默认实例 是两种不同机制:
    • 字段默认值允许在初始化时省略该字段
    • 类型级默认实例是为整个类型提供一个预设好的完整值
  • 泛型结构体 本质上是“返回类型的函数“,用于在同一模式下生成不同具体类型。
  • 元组 适合表示一组位置相关、通常较轻量的异构数据;它更强调“按位置访问“,而不是像结构体那样按字段名组织语义。

控制流、可选类型与资源管理

本章介绍 Zig 中最常用的控制流与资源管理机制:可选类型、ifwhileforswitchdefer 和块表达式。

Zig 的很多控制流结构不只是语句,也是表达式,可以直接返回值;再配合穷尽性检查、显式解包和作用域化的资源清理,代码的行为会更清楚、更容易验证。关于 errdefer 的详细用法见错误处理章节。

可选类型(Optional)

Zig 的可选类型使用 ?T 表示,用于表示值可能存在或不存在的情况。C 语言使用特殊值(如 -1NULL)表示“不存在“,容易出错;Java 的 null 引用导致 NullPointerException。Zig 通过可选类型在编译期强制处理“不存在“的情况,避免空指针异常。

核心概念

  • ?T 表示类型 Tnull;从语义上看,它表示“这个值可能存在,也可能不存在”
  • 不能直接使用可选值,必须先解包(通过 iforelse.? 等操作)
  • 类型系统区分 T?T,意图清晰,代码显式可读

?T 表示值可能不存在,!T 表示操作可能失败。两者的详细对比和各自的处理方式,分别在可选类型错误处理章节展开。

解包操作

Zig 提供了三种解包可选类型的方式:if 模式匹配、.? 操作符和 orelse 表达式。其中,if 解包会在后文介绍 if 语句时结合示例详细说明

.? 操作符

.? 操作符用于解包可选类型;如果值为 null,在 Debug / ReleaseSafe 等开启运行时安全检查的模式下会触发 panic,在关闭安全检查的模式下则不能依赖这种错误被捕获。因此只应在确信值不为 null 时使用。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const maybe_number: ?i32 = 42;
    
    const value = maybe_number.?;
    std.debug.print(".? 操作符: {}\n", .{value});
    
    // ⚠️ 如果为 null 会 panic
    // const maybe_null: ?i32 = null;
    // const bad = maybe_null.?; // 运行时错误:attempt to use null value
}

预期输出:

.? 操作符: 42

适用场景:确定值不为 null,否则是编程错误。

orelse 表达式

orelse 用于为 null 提供默认值:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const maybe_null: ?i32 = null;
    
    // 使用 orelse 提供默认值
    const value1 = maybe_null orelse 0;
    std.debug.print("orelse 默认值: {}\n", .{value1});
    
    // orelse 可以接块表达式(提前返回)
    const value2 = maybe_null orelse {
        std.debug.print("值为 null,提前返回\n", .{});
        return;
    };
    _ = value2;
}

预期输出:

orelse 默认值: 0
值为 null,提前返回

适用场景:需要为 null 提供合理的默认值或提前退出。

三种解包方式对比

方式用途安全性适用场景
if条件处理 null 和非 null需要区分 null 和非 null 的逻辑
.?确定不为 null 时使用确定值不为 null,否则是编程错误
orelse提供 null 时的默认值需要为 null 提供合理的默认值

if 语句

Zig 的 if 语句相对于其他语言,具有以下特性:

  • 模式匹配:直接解包可选类型(if (opt) |val|)和错误联合类型(if (result) |val| else |err|
  • 指针捕获:使用 |*val| 捕获指针,允许在分支内修改值
  • 类型安全:所有分支必须返回相同类型的值
  • 编译期执行:支持 comptime if,在编译期进行条件判断

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const number: i32 = 42;
    
    // 基本 if 语句:控制流
    if (number > 50) {
        std.debug.print("大于 50\n", .{});
    } else if (number > 30) {
        std.debug.print("大于 30 但小于等于 50\n", .{});
    } else {
        std.debug.print("小于等于 30\n", .{});
    }
    
    // if 作为表达式:返回值(所有分支必须返回相同类型)
    const result = if (number > 40) "大数" else "小数";
    std.debug.print("结果:{s}\n", .{result});
    
    // 条件初始化
    const max_value = if (number > 100) number else 100;
    std.debug.print("最大值:{}\n", .{max_value});
    
    // 嵌套 if 表达式
    const category = if (number < 10) "小"
                     else if (number < 100) "中"
                     else "大";
    std.debug.print("类别:{s}\n", .{category});
}

预期输出:

大于 30 但小于等于 50
结果:大数
最大值:100
类别:中

Zig 没有三元运算符(?:),而是使用 if 表达式:const result = if (condition) value1 else value2;。这是 Zig 故意的设计——if 表达式更具可读性且无歧义。

模式匹配解包可选类型

Zig 的 if 可以直接解构可选类型,这是 Zig 的重要特性:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const maybe_number: ?i32 = 42;

    // 如果 maybe_number 不为 null,number 绑定到内部值
    if (maybe_number) |number| {
        std.debug.print("数字是:{}\n", .{number});
        // number 的类型是 i32,不是 ?i32
    } else {
        std.debug.print("没有数字 (null)\n", .{});
    }

    // 捕获指针:可以修改值
    var mutable_number: ?i32 = 10;
    if (mutable_number) |*num| {
        num.* += 5;
    }
    std.debug.print("修改后:{any}\n", .{mutable_number});
    
    // if 表达式与可选类型结合:简洁的条件计算
    const maybe_value: ?i32 = 42;
    const result = if (maybe_value) |v| v * 2 else 0;
    std.debug.print("结果:{}\n", .{result});
}

预期输出:

数字是:42
修改后:15
结果:84

模式匹配解包错误联合类型

if 也可以解包错误联合类型(!T),语法与可选类型解包类似,详见错误处理章节。

while 循环

while 循环用于重复执行代码块,与 if 类似,while 也支持可选类型解包、错误联合类型解包和作为表达式使用。

Zig 的 while 循环支持:

  • continue 表达式:写在 while 条件后的 : (...) 部分,每轮迭代结束后、下一轮条件判断前执行;即使循环体中提前执行了 continue,它也仍会执行
  • 可选类型解包:while 可以直接处理可选类型,自动解包并在值为 null 时退出
  • 错误联合类型解包while 也可以直接处理错误联合类型;成功时自动解包值,遇到错误时停止继续解包,并将错误交给对应的 else |err| 分支处理
  • 标签:支持带标签的 break / continue 控制嵌套循环;当循环或代码块作为表达式使用时,也可以通过 break :label value 返回值

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    var i: usize = 0;

    // 基本 while 循环
    while (i < 5) {
        std.debug.print("i = {}\n", .{i});
        i += 1;
    }

    // 带 continue 表达式的 while
    // 格式:while (condition) : (continue_expression) { ... }
    var j: usize = 0;
    while (j < 10) : (j += 2) {
        std.debug.print("j = {}\n", .{j});
        // j += 2 在每次迭代后自动执行,即使 continue 也会执行
    }

    // 处理可选值的 while
    const numbers = [_]?i32{ 1, 2, null, 4, null };
    var index: usize = 0;

    // 方式1:while 直接处理可选值(遇到 null 时结束循环)
    while (numbers[index]) |num| : (index += 1) {
        std.debug.print("有效数字:{}\n", .{num});
    }

    std.debug.print("--\n", .{});

    // 方式2:使用 if 在 while 内部处理(跳过 null 继续)
    index = 0;
    while (index < numbers.len) : (index += 1) {
        if (numbers[index]) |num| {
            std.debug.print("有效数字:{}\n", .{num});
        }
    }

}

预期输出:

i = 0
i = 1
i = 2
i = 3
i = 4
j = 0
j = 2
j = 4
j = 6
j = 8
有效数字:1
有效数字:2
--
有效数字:1
有效数字:2
有效数字:4

错误联合类型解包

while 可以直接处理错误联合类型,成功时获取值,失败时通过 else 捕获错误:

const std = @import("std");

fn readByte() !u8 {
    return 'A'; // 模拟读取操作
}

pub fn main(_: std.process.Init) void {
    // while 解包错误联合类型
    while (readByte()) |byte| {
        std.debug.print("读取到:{c}\n", .{byte});
        break; // 示例中只读取一次
    } else |err| {
        std.debug.print("读取失败:{}\n", .{err});
    }
}

预期输出:

读取到:A

while 作为表达式

while 作为表达式使用时,break valueelse 分别对应两种不同的取值路径:前者用于提前结束并返回值,后者用于循环正常结束时提供值。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    var i: usize = 0;
    const result = while (i < 10) : (i += 1) {
        if (i == 5) break i * 2;
    } else 0;  // 循环正常结束时执行(没有 break)
    
    std.debug.print("结果: {}\n", .{result});
    
    // 查找第一个满足条件的元素
    const items = [_]i32{ 1, 3, 5, 7, 9 };
    var index: usize = 0;
    const found = while (index < items.len) : (index += 1) {
        if (items[index] > 6) break items[index];
    } else -1;
    
    std.debug.print("找到的元素: {}\n", .{found});
}

预期输出:

结果: 10
找到的元素: 7

关键点

  • while 循环的 else 分支在循环正常结束(没有 break)时执行
  • 使用 break value 可以提前退出并返回值
  • 所有退出路径(break 和 else)必须返回相同类型的值

for 循环

while 更适合“是否继续循环取决于条件”的场景;for 更适合遍历数组、切片、范围等已知序列

Zig 的 for 循环支持:

  • 单元素遍历:直接遍历数组、切片等序列中的每个元素
  • 带索引遍历:使用 for (target, 0..) |item, index| 同时获取元素和索引
  • 多序列并行遍历:按位置同时遍历多个序列;实际使用时通常应保证长度一致
  • 范围遍历:使用 start..end 遍历左闭右开的整数范围
  • 指针捕获:使用 |*item| 捕获元素指针;若要原地修改数组元素,通常需要遍历 &array
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const array = [_]i32{ 1, 2, 3, 4, 5 };

    // 遍历数组:只获取元素值
    for (array) |item| {
        std.debug.print("item = {}\n", .{item});
    }

    // 带索引遍历:同时获取元素和索引
    for (array, 0..) |item, index| {
        std.debug.print("array[{}] = {}\n", .{ index, item });
    }

    // 多序列并行遍历:这里两个数组长度相同,因此可以按位置一一对应
    const array2 = [_]i32{ 10, 20, 30, 40, 50 };
    for (array, array2) |a, b| {
        std.debug.print("{} + {} = {}\n", .{ a, b, a + b });
    }

    // 原地修改元素:遍历 &array,并用 |*item| 捕获元素指针
    var mutable_array = [_]i32{ 1, 2, 3, 4, 5 };
    for (&mutable_array) |*item| {
        item.* *= 2; // 直接写回原数组
    }

    for (mutable_array) |item| {
        std.debug.print("double item = {}\n", .{item});
    }

    // 范围遍历:0..5 表示 0 到 4,不包含 5
    for (0..5) |i| {
        std.debug.print("i = {}\n", .{i});
    }

    // 标签和 break/continue:带标签的 break 可以直接跳出外层循环
    outer: for (0..3) |i| {
        for (0..3) |j| {
            if (i == 1 and j == 1) break :outer;
            std.debug.print("({}, {})\n", .{ i, j });
        }
    }
}

预期输出:

item = 1
item = 2
item = 3
item = 4
item = 5
array[0] = 1
array[1] = 2
array[2] = 3
array[3] = 4
array[4] = 5
1 + 10 = 11
2 + 20 = 22
3 + 30 = 33
4 + 40 = 44
5 + 50 = 55
double item = 2
double item = 4
double item = 6
double item = 8
double item = 10
i = 0
i = 1
i = 2
i = 3
i = 4
(0, 0)
(0, 1)
(0, 2)
(1, 0)

for 作为表达式

while 一样,for 也可以作为表达式使用。当它被放在赋值、返回值等“需要结果”的位置时,所有可能的结束路径都必须产生一个值:

  • 如果在循环体中执行 break value,整个 for 表达式的值就是这个 value
  • 如果序列被遍历完、循环正常结束,则由 else 分支提供结果值

这种写法很适合表达“查找成功则返回结果,否则返回默认值”的模式。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const items = [_]i32{ 1, 3, 5, 7, 9 };

    // 找到第一个大于 6 的元素;若没找到则返回 -1
    const found = for (items) |item| {
        if (item > 6) break item;
    } else -1;

    std.debug.print("找到的元素: {}\n", .{found});

    // 返回满足条件元素的索引;若没找到则返回 null
    const index = search: for (items, 0..) |item, i| {
        if (item > 6) break :search i;
    } else null;

    if (index) |i| {
        std.debug.print("找到索引: {}\n", .{i});
    }
}

预期输出:

找到的元素: 7
找到索引: 3

关键点

  • for 作为表达式时,必须为所有结束路径提供结果
  • break value 用于提前结束循环,并把 value 作为整个 for 表达式的结果
  • else 分支在循环正常结束(没有执行 break)时提供结果
  • 第二个例子中,break :search i 产生 usizeelse null 产生 null,因此整个表达式的类型是 ?usize

switch 语句

if 适合处理少量条件判断;当分支较多,或者希望把一个值映射成另一个值时,switch 更清晰。在 Zig 中,switch 也是表达式——可以直接返回结果。它要求穷尽覆盖所有可能情况(否则编译报错),且无隐式 fallthrough。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const result = switch (@as(i32, 2)) {
        1 => "一",
        2 => "二",
        3 => "三",
        else => "其他",
    };
    std.debug.print("结果:{s}\n", .{result});

    const level = switch (@as(u8, 85)) {
        90...100 => "A",
        80...89 => "B",
        70...79 => "C",
        60...69 => "D",
        else => "F",
    };
    std.debug.print("等级:{s}\n", .{level});

    const is_vowel = switch (@as(u8, 'a')) {
        'a', 'e', 'i', 'o', 'u' => true,
        'A', 'E', 'I', 'O', 'U' => true,
        else => false,
    };
    std.debug.print("是元音:{}\n", .{is_vowel});
}

switch 的高级用法

const std = @import("std");

// 枚举匹配:编译器检查穷尽性,因此不需要 else
const Color = enum { red, green, blue };

fn colorToHex(color: Color) u32 {
    return switch (color) {
        .red => 0xFF0000,
        .green => 0x00FF00,
        .blue => 0x0000FF,
    };
}

// 捕获匹配值:|val| 绑定当前匹配到的具体值
fn classifyNumber(n: i32) []const u8 {
    return switch (n) {
        0 => "零",
        1...10 => |val| blk: {
            std.debug.print("小数字:{}\n", .{val});
            break :blk "小";
        },
        11...100 => "中",
        else => "大",
    };
}

// 配合指针:for 拿到指针,switch 根据值决定是否修改
fn doublePositive(numbers: []i32) void {
    for (numbers) |*n| {
        switch (n.*) {
            1...100 => |*val| val.* *= 2,
            else => {},
        }
    }
}

pub fn main(_: std.process.Init) void {
    std.debug.print("红色:0x{X}\n", .{colorToHex(.red)});
    std.debug.print("分类:{s}\n", .{classifyNumber(5)});

    var arr = [_]i32{ 3, 50, -1, 99 };
    doublePositive(&arr);
    std.debug.print("翻倍后:{any}\n", .{arr});
}

标签化 switch

switch 带有标签时,分支内可以使用两种跳转:

  • continue :label new_value —— 以新值重新进入同一个 switch(等价于 while + switch)
  • break :label result —— 提前退出 switch,返回 result 作为整个 switch 表达式的值

编译器可以将每个 continue 优化为直接跳转到目标分支,避免所有分支共用同一个分发点。

const std = @import("std");

fn countdown(n: i32) []const u8 {
    return loop: switch (n) {
        0 => break :loop "zero!",
        else => |v| {
            std.debug.print("{}\n", .{v});
            continue :loop v - 1;
        },
    };
}

pub fn main(_: std.process.Init) void {
    std.debug.print("{s}\n", .{countdown(3)});
}

输出:3、2、1、zero!

关键点

  • 标签由外层的 return loop: switch (...) { ... } 定义
  • continue :loop v - 1 以新值重新进入 switch,等价于循环递减
  • break :loop "zero!" 直接退出整个 switch,将其结果作为表达式的值
  • 编译期能针对 switch 值做分支预测优化,适合状态机和字节码解释器

defer 语句

if、while、for、switch 等控制流语句用于控制代码的执行路径,而 defer 则用于确保代码在作用域结束时执行,无论控制流如何跳转。defer 是 Zig 资源管理的核心机制,类似于其他语言的 RAII 模式——确保资源安全释放、代码清晰(获取和释放放在一起)、减少遗忘。

基本用法

const std = @import("std");

pub fn main(_: std.process.Init) void {
    defer std.debug.print("主函数结束\n", .{});
    std.debug.print("开始\n", .{});

    {
        defer std.debug.print("作用域结束\n", .{});
        std.debug.print("作用域中间\n", .{});
    }

    std.debug.print("结束\n", .{});
}

预期输出:

开始
作用域中间
作用域结束
结束
主函数结束

常见应用

// 文件操作:确保文件关闭
fn readFile(io: std.Io, path: []const u8) !void {
    const file = try std.Io.Dir.cwd().openFile(io, path, .{});
    defer file.close(io);
    // 使用文件...
}

// 内存管理:确保内存释放
fn processBuffer(allocator: std.mem.Allocator) !void {
    const buffer = try allocator.alloc(u8, 1024);
    defer allocator.free(buffer);
    // 使用缓冲区...
}

// 互斥锁:确保解锁
fn protectedOperation(mutex: *std.Thread.Mutex) void {
    mutex.lock();
    defer mutex.unlock();
    // 临界区代码...
}

LIFO(后进先出)原则

多个 defer 按照后进先出的顺序执行,确保资源的正确释放顺序:

const std = @import("std");

pub fn main(_: std.process.Init) void {
    defer std.debug.print("第一个 defer\n", .{});
    defer std.debug.print("第二个 defer\n", .{});
    defer std.debug.print("第三个 defer\n", .{});
    
    std.debug.print("主体代码\n", .{});
}

预期输出:

主体代码
第三个 defer
第二个 defer
第一个 defer

defer vs errdefer

errdeferdefer 类似,但只在函数返回错误时执行,正常返回时不执行。典型场景是所有权转移:函数成功时将资源返回给调用者(调用者负责释放),仅在失败时才需要清理。关于 errdefer 的完整用法、与 defer 的详细对比、以及失败路径清理的模式,将在错误处理章节展开。

块表达式(Block Expression)

if、while、for 等控制流语句都可以作为表达式返回值,而块表达式则提供了另一种创建表达式的方式。块表达式是一个带标签的作用域,可以包含多条语句和复杂的控制流逻辑,最终通过 break :label value 返回一个值。

基本语法

const result = blk: {
    const a = 10;
    const b = 20;
    break :blk a + b;  // 使用 break :label 返回值
};

要点

  • 块开始处必须有标签(如 blk:
  • 使用 break :label value 返回值
  • 不带标签的块不能返回值,只是一个作用域
  • 所有分支的返回值类型必须一致

类型一致性要求

块表达式的所有退出路径必须返回相同类型的值:

// ❌ 错误:不同分支返回不同类型
const result = blk: {
    if (true) {
        break :blk 42;      // i32
    } else {
        break :blk "hello"; // 编译错误:类型不匹配
    }
};

// ✅ 正确:所有分支返回相同类型
const value: i32 = 15;
const category = blk: {
    if (value < 10) break :blk "小";
    if (value < 20) break :blk "中";
    break :blk "大";  // 所有分支都返回 []const u8
};

完整示例

const std = @import("std");

pub fn main(_: std.process.Init) void {
    // 基本用法:计算并返回值
    const result = blk: {
        const a = 10;
        const b = 20;
        break :blk a + b;
    };
    std.debug.print("块表达式结果: {}\n", .{result});

    // 条件返回:在条件分支中提前退出
    const value: i32 = 15;
    const category = blk: {
        if (value < 10) break :blk "小";
        if (value < 20) break :blk "中";
        break :blk "大";
    };
    std.debug.print("值 {} 的类别: {s}\n", .{ value, category });

    // 嵌套块:使用不同标签区分层级
    const nested = outer: {
        const inner = inner: {
            break :inner 5;
        };
        break :outer inner * 2;
    };
    std.debug.print("嵌套块结果: {}\n", .{nested});
}

预期输出:

块表达式结果: 30
值 15 的类别: 中
嵌套块结果: 10

unreachable

unreachable 的核心含义是向编译器声明“这个条件在逻辑上一定为真“。它的类型是 noreturn,因此可以出现在任何需要值的位置。编译器可以利用这个声明做优化——例如声明了 b != 0,编译器就可以省去除零检查,甚至用位移替代除法。

在安全模式(Debug、ReleaseSafe)下,执行到 unreachable 会触发 panic,帮助在开发阶段定位问题。在非安全模式(ReleaseFast、ReleaseSmall)下,编译器假设 unreachable 路径永远不会被执行,并据此优化代码。

常见用途包括:

  • switch 中标记穷尽后不可能到达的分支
  • 在已知不会失败的 catch 中表达断言(如 catch unreachable
  • 在函数入口声明调用者必须满足的前提条件
const std = @import("std");

fn divide(a: u32, b: u32) u32 {
    if (b == 0) unreachable; // 调用者保证 b != 0
    return a / b;
}

pub fn main(_: std.process.Init) void {
    const result = divide(10, 2);
    std.debug.print("result = {}\n", .{result});
}

std.debug.assert

std.debug.assertunreachable 的一行封装:

// 这两种写法等价:
if (!(x > 0)) unreachable;
std.debug.assert(x > 0);

它不是宏,而是普通函数,因此表达式在所有构建模式下都会被求值——不会因为 release 模式就跳过。与某些语言中 assert 在 release 下消失不同,Zig 的 assert 只是比较检查可能被优化掉,表达式本身仍然执行。

注意unreachableassert 在非安全模式下是未定义行为。仅在确实能证明条件恒为真时使用,否则应使用正常的错误处理。

本章要点

主题核心概念
可选类型?T 表示值或 null;通过 if.?orelse 解包
if支持模式匹配解包可选类型和错误联合类型;是表达式可返回值
while支持 continue 表达式、可选/错误联合类型解包、else 分支
for遍历序列;支持索引(0..)、并行遍历、指针捕获、范围遍历
switch穷尽性检查;支持范围匹配、多值匹配、枚举匹配、值捕获
defer作用域结束时执行(LIFO);errdefer 仅错误时执行
块表达式带标签的作用域,通过 break :label value 返回值
unreachable向编译器声明“此条件恒为真“;辅助优化,安全模式下违反则 panic;std.debug.assert 是其一行封装

错误处理

错误处理是 Zig 最核心、也是最具辨识度的语言特性之一。

许多语言把失败路径放在异常系统中,函数签名不直接体现失败可能,控制流可能在运行时离开当前路径。Zig 采用了不同的设计:把失败纳入类型系统,通过类型和控制流清楚表达操作是否可能失败、失败时返回什么、错误应当在何处处理。这一设计使得接口更精确、资源管理更可靠,也更适合系统编程场景。语言设计层面的更多讨论见认识 Zig

本章围绕四个核心概念展开:

  • 错误集合(error set):定义“可能出现哪些错误“
  • 错误联合类型(error union):定义“结果要么是值,要么是错误“
  • try / catch:用于传播或处理错误
  • errdefer:用于失败路径上的资源清理

本章涵盖:

  • 错误联合类型 !T
  • 错误传播与处理策略
  • 失败路径清理:defererrdefer

错误集合

错误集合用于定义一组命名错误值。

它可以理解为:函数失败时返回的不是任意字符串或整数,而是一组受类型系统约束的错误值

为什么需要错误集合?

错误集合带来三方面好处:

  • 类型安全:错误不是随意拼接的文本
  • 语义明确:错误名本身就是接口语义的一部分
  • 编译期检查:函数签名与调用点都可以受到静态约束

例如,“文件不存在”和“权限不足”都表示操作失败,但它们含义不同,调用者也可能需要采用不同的恢复策略。将不同失败原因区分开来,是接口设计的一部分。

定义错误集合

const std = @import("std");

const FileError = error{
    NotFound,
    PermissionDenied,
    OutOfMemory,
};

pub fn main(_: std.process.Init) void {
    const err: FileError = error.NotFound;

    if (err == error.NotFound) {
        std.debug.print("文件未找到\n", .{});
    }
}

这里有几个基本要点:

  • error{ ... } 用于定义错误集合
  • 集合中的成员是命名错误值
  • 错误值之间可以比较
  • 在实际代码中,error.NotFound 往往比 FileError.NotFound 更常见

错误名的全局性

Zig 中的错误名是全局共享的。错误集合的作用是约束“当前上下文允许出现哪些错误名”,而不是为每个错误集合单独创建一套命名空间。

const A = error{NotFound};
const B = error{NotFound};

comptime {
    const a: A = error.NotFound;
    const b: B = error.NotFound;
    _ = .{ a, b };
}

这个例子说明:

  • AB 是两个不同的错误集合类型
  • 但它们都包含同一个全局错误名 NotFound
  • 因此赋值时统一使用 error.NotFound

可以把错误集合理解为“允许的错误名单”:

  • error{NotFound} 表示这里只允许 NotFound
  • error{NotFound, PermissionDenied} 表示这里只允许这两个错误

因此,错误集合约束的是可返回错误的范围,而不是重新定义一套彼此隔离的错误名。

错误类型与错误值

错误联合类型:!T

错误集合说明了“可能有哪些错误”,但还没有说明“函数成功时返回什么”。这正是错误联合类型要解决的问题。

ErrorSet!T 表示:

  • 成功时返回一个 T
  • 失败时返回一个属于 ErrorSet 的错误

例如:

const ParseError = error{
    InvalidFormat,
    OutOfRange,
};

fn parseNumber(str: []const u8) ParseError!u32 {
    if (str.len == 0) return error.InvalidFormat;

    var result: u32 = 0;
    for (str) |c| {
        if (c < '0' or c > '9') return error.InvalidFormat;
        result = result * 10 + (c - '0');
    }

    return result;
}

这里的 ParseError!u32 表示的不是“两个返回值”,而是“一个结果,其分支要么是 u32,要么是 ParseError 中的某个错误”。

!T?T 的区别

在进一步展开 !T 之前,有必要先把它和另一个容易混淆的类型做对比。!T?T 都表示“不能直接当作普通 T 使用“,但它们解决的问题不同:

  • !T:表示操作可能失败
  • ?T:表示值可能不存在
fn findUser(id: u32) ?[]const u8 {
    if (id == 1) return "alice";
    return null;
}

fn loadUserConfig(path: []const u8) ![]const u8 {
    if (path.len == 0) return error.NotFound;
    return "config";
}

这里:

  • findUsernull 表示“用户不存在”,这是正常业务结果
  • loadUserConfig 的错误表示“读取操作失败”,这是错误路径

可以用如下经验法则区分:

  • 缺席是正常业务状态 → 使用 ?T
  • 失败表示操作未完成 → 使用 !T

如果一个操作既可能失败,又可能成功但没有值,则可能出现组合类型;但在学习这一阶段,更重要的是先把 ?T!T 的职责区分清楚。

显式错误集与错误集推断

错误联合类型通常有两种写法:

  • SomeError!T
  • !T

二者的区别是:

  • SomeError!T:在签名中显式写出错误集合
  • !T:由编译器根据函数体推断错误集合
const std = @import("std");

fn explicit() error{NotFound, PermissionDenied}!void {
    return error.NotFound;
}

fn inferred() !void {
    return error.NotFound;
}

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    if (a == std.math.minInt(i32) and b == -1) {
        return error.Overflow;
    }
    return @divTrunc(a, b);
}

对于 divide,编译器会推断出包含 DivisionByZeroOverflow 的错误集合。

可以用下面的原则来判断:

  • 公共接口:优先显式写出错误集合,使边界更清楚
  • 内部实现:可以适度使用推断,减少重复维护

初学阶段更重要的是先理解:SomeError!T!T 都表示“可能失败“,区别只在于错误集合是显式写出,还是交给编译器推断

anyerror 是包含所有可能错误名的全局错误集合。它主要用于需要接受任意错误的边界场景(如日志函数、通用错误处理器),但会降低接口精度,不适合作为常规函数签名的默认选择。

错误集合之间的关系与转换

这一节最需要掌握的是三件事:

  1. 错误集合之间有子集超集关系
  2. 接口边界上常常需要做显式映射
  3. @errorCast 只用于已经证明安全的局部收窄

子集与超集

如果一个错误集合是另一个的子集,那么:

  • 子集可以隐式转换为超集
  • 超集不能隐式转换为子集
const FileError = error{ NotFound, PermissionDenied };
const SpecificError = error{NotFound};

fn example() void {
    const specific: SpecificError = error.NotFound;

    const broad: FileError = specific;
    _ = broad;

    // const narrow: SpecificError = broad;
    // 上面这行会编译错误:超集不能隐式缩小为子集
}

可以把它理解为:把“更具体”的集合当成“更一般”的集合是安全的;反过来则不安全,因为较宽的错误集可能包含目标集合中不存在的错误。

显式映射

当底层错误集不适合直接暴露给上层接口时,应显式整理其语义,而不是直接把底层细节泄漏出去:

const LowLevelError = error{
    FileNotFound,
    PermissionDenied,
    DiskFull,
};

const PublicError = error{
    NotFound,
    Unavailable,
};

fn mapError(err: LowLevelError) PublicError {
    return switch (err) {
        error.FileNotFound => error.NotFound,
        error.PermissionDenied => error.Unavailable,
        error.DiskFull => error.Unavailable,
    };
}

这里的重点不是保留原始错误名,而是把多个底层错误重新组织为更适合对外暴露的接口语义。

@errorCast 的使用边界

@errorCast 适用于另一类情况:错误语义并不改变,只是当前错误值的静态类型过宽,而当前控制流已经证明它属于更小的目标错误集合。

const std = @import("std");

const BroadError = error{
    NotFound,
    PermissionDenied,
    DiskFull,
};

const NotFoundError = error{NotFound};

fn reportMissing(err: NotFoundError) void {
    std.debug.print("配置文件不存在:{s}\n", .{@errorName(err)});
}

fn handleError(err: BroadError) void {
    switch (err) {
        error.NotFound => reportMissing(@errorCast(err)),
        error.PermissionDenied, error.DiskFull => {
            std.debug.print("配置文件读取失败:{s}\n", .{@errorName(err)});
        },
    }
}

这里进入 error.NotFound 分支后,当前控制流已经证明 err 只能是 error.NotFound,因此可以安全地用 @errorCast(err) 收窄类型。

可以用下面的标准区分两种做法:

  • 需要重新组织接口语义:使用显式映射
  • 不改变语义,只做局部且可证明安全的收窄:使用 @errorCast

补充:错误集合并

如果一个函数可能整合多个来源的错误,也可以使用 || 合并错误集合:

const FileError = error{
    NotFound,
    PermissionDenied,
};

const NetworkError = error{
    ConnectionFailed,
    Timeout,
};

const CombinedError = FileError || NetworkError;

这种写法常见于上层函数整合多个子系统错误的场景。初学阶段知道它的作用即可,更重要的是先掌握错误集的关系、映射与收窄。

错误传播与处理

当一个操作返回错误联合类型时,调用者需要决定如何处理失败路径。常见方式包括:

  • 使用 try 将错误继续向上传播,适合当前层无法恢复、也不适合决定处理策略的场景
  • 使用 catch 在当前层处理错误,适合提供默认值、记录日志、转换错误或终止当前分支
  • 使用 if 分别处理成功值与错误值,适合在同一处同时展开两条控制流并保持表达式风格

选择哪一种方式,取决于当前层是否掌握足够的上下文来处理错误,以及是否需要保留清晰的接口边界。

try:传播错误

try 用于传播错误。

它的行为可以概括为:

  • 如果表达式成功,取出其中的值
  • 如果表达式失败,立即将错误返回给当前函数的调用者
fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

fn calculate() !i32 {
    const result = try divide(10, 2);
    return result * 2;
}

在这个例子中:

  • divide(10, 2) 成功,result 得到正常值
  • 若其失败,calculate 直接返回对应错误

try 的等价理解

可以把 try 近似理解为下面这种写法:

const result = divide(10, 2) catch |err| {
    return err;
};

这种写法并不意味着 try 只是简单的语法替换,而是用于说明它的控制流语义:失败则立即返回,成功才继续执行后续逻辑。

try 的使用限制

try 只能出现在当前函数本身也允许返回错误的上下文中。

可以把下面这段理解为“说明性伪示例”:

fn mightFail() !void {
    return error.Failed;
}

// 下面这种写法会编译报错:bad 不能返回错误,却试图用 try 继续传播
fn bad() void {
    // try mightFail();
}

fn good() !void {
    try mightFail();
}

判断原则可以表述为:只有当当前函数能够继续向上传播错误时,才可以使用 try

catch:在当前层处理错误

如果不希望继续传播错误,而是希望在当前层将其处理掉,可以使用 catch

catch 的基本形式是 expression catch handler,handler 有以下几种写法。

catch 默认值兜底

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

const result = divide(10, 0) catch 0;

catch 0 的含义是:如果 divide 失败,用 0 作为替代值。

这种方式适用于“失败后存在合理默认值“的场景。

catch { ... } 执行代码块

如果不需要错误本身的具体信息,只想在失败时执行一段逻辑,可以省略错误捕获:

const std = @import("std");

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

fn example() void {
    const result = divide(10, 0) catch {
        std.debug.print("计算出错,使用默认值\n", .{});
        return; // 从 example 中退出
    };

    std.debug.print("结果:{}\n", .{result});
}

catch { ... } 也可以用来做错误转换——在代码块中从外层函数返回另一个错误:

fn safeDivide(a: i32, b: i32) error{InvalidArg}!i32 {
    const result = divide(a, b) catch {
        return error.InvalidArg; // 捕获任意错误,转为上层语义
    };
    return result;
}

这里不关心 divide 具体失败原因,只要失败就统一转为 error.InvalidArg 并退出 safeDivide

需要注意 catch 代码块的类型必须与成功值的类型匹配。如果函数返回 !Tcatch { error.X } 不能直接作为表达式值(因为 error 不是 T),只能通过 return 提前退出函数来实现错误转换。

catch |err| { ... } 捕获错误值

如果需要根据错误内容做不同处理,可以捕获错误值:

const std = @import("std");

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

fn example() void {
    const result = divide(10, 0) catch |err| {
        std.debug.print("错误:{s}\n", .{@errorName(err)});
        return;
    };

    std.debug.print("结果:{}\n", .{result});
}

这里 catch |err| 将错误值绑定到 err@errorName(err) 可以获取错误的名称。常见的后续处理包括:

  • 记录日志
  • 转换错误
  • 返回默认值
  • 提前结束当前函数

catch unreachable

如果能够严格证明某个操作不会失败,可以写成:

const value = parseNumber("42") catch unreachable;

它的含义不是“忽略错误“,而是断言这里不可能失败;一旦失败,就说明程序的逻辑假设不成立。

关于 unreachable 在不同构建模式下的行为,见控制流章节的 unreachable 小节。它只适合用于逻辑上确实可以证明不失败的场景,不应用来省略本应存在的错误处理。

catch |err| switch 按错误类别分别处理

如果不同错误需要不同处理方式,可以在 catch 后配合 switch 使用。

const std = @import("std");

const FileError = error{
    NotFound,
    PermissionDenied,
    DiskFull,
};

fn processFile() FileError!void {
    return error.NotFound;
}

fn handleFile() void {
    processFile() catch |err| switch (err) {
        error.NotFound => std.debug.print("文件未找到\n", .{}),
        error.PermissionDenied => std.debug.print("权限不足\n", .{}),
        error.DiskFull => std.debug.print("磁盘已满\n", .{}),
    };
}

这种写法适合以下场景:

  • 根据错误类别给出不同提示
  • 统计不同错误
  • 将底层错误映射为更高层的语义

if 同时处理成功和失败

错误联合类型也可以使用 if 解包。

const std = @import("std");

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

fn example() void {
    if (divide(10, 2)) |value| {
        std.debug.print("成功:{}\n", .{value});
    } else |err| {
        std.debug.print("失败:{s}\n", .{@errorName(err)});
    }
}

失败路径清理:errdefer

defererrdefer 的区别

defererrdefer 都用于作用域结束时的清理,但两者的触发条件不同:

  • defer:无论成功还是失败,作用域结束时都会执行
  • errdefer:只有当前函数以错误返回时才执行

因此,errdefer 适合处理“成功时将资源交给调用者,失败时由当前函数回收资源”的场景。

const std = @import("std");

fn withDefer(allocator: std.mem.Allocator) !void {
    const memory = try allocator.alloc(u8, 100);
    defer allocator.free(memory);

    _ = memory;
}

fn withErrdefer(allocator: std.mem.Allocator) ![]u8 {
    const memory = try allocator.alloc(u8, 100);
    errdefer allocator.free(memory);

    return memory;
}

withErrdefer 中,成功时 memory 要返回给调用者。如果这里误用 defer,那么函数返回时内存会被立即释放,调用者得到的将是无效内存。

可以用下面这个标准来判断:

  • 资源生命周期在当前函数内结束 → 使用 defer
  • 成功时资源所有权转移给调用者 → 使用 errdefer

基本用法:失败时回收,成功时转移所有权

errdefer 最常见的用途是:资源先由当前函数获取;如果后续失败,就由当前函数回收;如果成功返回,就把资源交给调用者继续管理。

const std = @import("std");

const Config = struct {
    name: []const u8,
    items: []u32,
};

fn loadConfig(allocator: std.mem.Allocator, name: []const u8, count: usize) !*Config {
    const config = try allocator.create(Config);
    errdefer allocator.destroy(config);

    const items = try allocator.alloc(u32, count);
    errdefer allocator.free(items);

    config.* = .{
        .name = name,
        .items = items,
    };

    if (count > 1000) return error.TooManyItems;

    return config;
}

这个例子体现了 errdefer 的典型模式:

  • configitems 获取成功后,后续步骤仍可能失败
  • 如果函数以错误返回,已经获取的资源会自动清理
  • 如果函数成功返回,资源所有权转移给调用者,由调用者负责后续释放

这里故意把失败检查放在资源获取之后,是为了说明:当函数在“部分成功”之后出错时,errdefer 可以自动完成回滚。

如果 count > 1000,函数会以错误返回,此时会先释放 items,再销毁 config。这也说明多个 errdeferdefer 一样,都是按**后进先出(LIFO)**的顺序执行。

errdefer |err|

errdefer 还可以捕获当前即将返回的错误值:

const std = @import("std");

fn sendRequest(url: []const u8) !void {
    errdefer |err| {
        std.debug.print("请求失败:{s}\n", .{@errorName(err)});
    }

    if (!std.mem.startsWith(u8, url, "https://")) {
        return error.InvalidUrl;
    }

    return error.Timeout;
}

这种写法适合:

  • 记录失败日志
  • 在清理时附加错误上下文
  • 按错误类型执行简单的收尾逻辑

但应当注意,errdefer |err| 的主要职责仍然是失败路径上的收尾,不宜在其中放入过多复杂业务逻辑。

一个完整示例

下面将 !Ttrycatcherrdefer 放在同一个例子中:

const std = @import("std");

const Buffer = struct {
    data: []u8,
    len: usize,
};

fn createBuffer(allocator: std.mem.Allocator, content: []const u8, max_size: usize) !Buffer {
    if (content.len == 0) return error.EmptyContent;
    if (content.len > max_size) return error.ContentTooLarge;

    const data = try allocator.alloc(u8, max_size);
    errdefer allocator.free(data);

    @memcpy(data[0..content.len], content);

    return .{
        .data = data,
        .len = content.len,
    };
}

pub fn main(_: std.process.Init) !void {
    var gpa = std.heap.DebugAllocator(.{}).init;
    defer _ = gpa.deinit();

    const allocator = gpa.allocator();

    const buffer = createBuffer(allocator, "Hello, Zig!", 1024) catch |err| {
        std.debug.print("创建缓冲区失败:{s}\n", .{@errorName(err)});
        return err;
    };
    defer allocator.free(buffer.data);

    std.debug.print(
        "缓冲区 {} 字节:{s}\n",
        .{ buffer.len, buffer.data[0..buffer.len] },
    );
}

预期输出:

缓冲区 11 字节:Hello, Zig!

这个示例把前面的几个要点串在了一起:

  • createBuffer 使用 !Buffer 表示“该操作可能失败”
  • 资源分配成功后,用 errdefer 保证失败路径不会泄漏
  • main 中的 catch 并不是为了吞掉错误,而是先补充一条日志,再把错误继续返回给上层
  • 成功获得资源后,由调用者用 defer 管理资源生命周期

这也是 Zig 中较为典型的错误处理组织方式。

实践建议与常见问题

实践建议

  1. 把错误处理当成接口设计的一部分。
    设计接口时,最好尽早想清楚三件事:函数会因为什么失败、哪些错误应暴露给调用者、成功与失败时资源分别由谁负责。边界越清楚,后续实现通常越稳定。

  2. 公共接口优先使用清晰、具体的错误集。

    const ConfigError = error{
        FileNotFound,
        InvalidFormat,
        MissingRequiredField,
        ValueOutOfRange,
    };
    
    // 不推荐
    const BadError = error{
        Failed,
        Bad,
        Error,
    };
    

    错误名应尽量语义明确,并能帮助调用者决定处理策略。像 FailedBadError 这样的名称通常过于笼统。

  3. 关于错误传播与处理策略的选择(何时用 try、何时用 catch),见前面的 try:传播错误catch:在当前层处理错误小节。

  4. 关于 catch unreachable 的使用注意,见前面的 catch unreachable小节。

  5. 避免把 anyerror 当作默认方案。
    anyerror 会降低接口精度。除非确实处于边界适配、原型验证或特殊抽象层中,否则应优先使用具体错误集。

常见问题

  1. 错误集不能随意缩小。
    函数签名声明了哪些错误,就只能返回这些错误。需要把更宽的错误集变成更窄的错误集时,应显式映射;只有在能够证明安全时,才使用 @errorCast

  2. 不要把 errdefer 当成普通清理工具。
    资源生命周期在当前函数内结束时,应使用 defer;只有成功时资源要交给调用者、失败时当前函数负责回滚,才使用 errdefer

  3. 区分“没有值”和“操作失败”。
    ?T 适合表示正常的“没有结果”,!T 适合表示操作失败。两者混用会削弱接口语义。

调试建议

  • 使用 @errorName(err) 打印错误名,便于观察失败原因。
  • 在 Debug 模式下,错误通过 try 传播时会自动记录栈追踪信息。当错误最终未被处理时,运行时会打印完整的传播路径,便于定位错误源头。
  • 问题尚未定位时,避免过早用 catch 0catch returncatch unreachable 吞掉错误。
  • @errorCastcatch unreachable 这类依赖逻辑前提的写法,应在带安全检查的模式下验证。

本章要点

本章核心要点:

  1. 失败是显式的。
    Zig 不把错误隐藏在隐式机制里,而是要求通过类型和控制流明确表达“这里可能失败”。

  2. 错误集合与错误联合类型分工明确。
    错误集合描述“可能因为什么失败”,错误联合类型 !T 描述“结果要么是值,要么是错误”。

  3. 传播与处理要有边界。
    当前层不能处理时,用 try 继续传播;能够处理时,再用 catchif 明确展开成功与失败两条路径。

  4. “没有值”与“操作失败”不是一回事。
    ?T 表示值可能不存在,!T 表示操作可能失败;两者语义不同,不应混用。

  5. 资源清理要与失败路径一起设计。
    defer 用于正常生命周期内的清理,errdefer 用于失败路径上的回滚,尤其适合成功时将资源交给调用者的场景。

  6. 接口设计应兼顾错误语义与所有权边界。
    公共接口应优先使用清晰、具体的错误集,并尽量明确成功与失败时资源分别由谁负责。

构建系统入门

章节定位:本章位于基础部分,主题是从“直接操作单个源文件“过渡到“组织一个项目的构建流程“。交叉编译、依赖管理、复杂构建配置等主题放在高级部分的构建系统与包管理章节展开。

前面的章节大量使用 zig runzig test 等单文件命令。这些命令适合语法练习和临时验证,但项目开发通常需要统一的构建入口来组织工作流。

从单文件命令到项目构建

单文件命令直接作用于当前文件:

zig run hello.zig
zig test parse.zig

项目构建则围绕整个项目组织工作流:

zig build
zig build run
zig build test

两者的区别不在于“命令更多了“,而在于操作对象不同:

  • zig run hello.zig:直接操作一个文件
  • zig build run:执行项目定义好的 run 步骤

zig build 的作用不是替代手写的编译或运行命令,而是在项目层面组织工作流。当命令行变得冗长、需要构建多个目标、需要暴露配置选项、或者构建流程因平台不同而变化时,zig build 就变得很有价值。

zig init 生成的最小项目

在一个空目录中执行下面的命令:

mkdir my-project
cd my-project
zig init

生成的结构如下:

my-project/
├── build.zig
├── build.zig.zon
└── src/
    ├── main.zig
    └── root.zig

这些文件的职责如下

build.zig

build.zig 是构建脚本,使用 Zig 语言编写。它描述项目的构建结构:要构建哪些目标、如何运行这些目标、如何暴露 runtest 等步骤,以及哪些参数可以从命令行传入。

zig buildzig build runzig build test 的行为都由这里定义。

build.zig.zon

build.zig.zon 是项目清单文件,用来描述项目的基础元信息,也参与依赖来源的声明。它属于项目配置的一部分,更完整的依赖管理会在高级章节展开。

一个最小的 build.zig.zon 往往类似这样:

.{
    .name = .my_project,
    .version = "0.0.0",
    .fingerprint = 0xa8b2f3e4c59d7061, // zig init 自动生成,请勿手动修改
    .minimum_zig_version = "0.16.0",
    .dependencies = .{},
    .paths = .{
        "build.zig",
        "build.zig.zon",
        "src",
    },
}

版本说明:Zig 0.16-dev 起,build.zig.zon 新增了 .fingerprint.minimum_zig_version.paths 字段。.fingerprintzig init 自动生成,用于全局唯一标识一个包,不应手动修改。.minimum_zig_version 声明包所支持的最低 Zig 版本。.paths 列出包中需要纳入哈希计算和分发的文件集合。

src/main.zig 与 src/root.zig

src/main.zig 通常是可执行程序入口所在的位置。src/root.zig 通常作为库的根模块入口使用。很多最小项目在前期主要关注可执行入口,因此 root.zig 可能暂时不会频繁使用。

build.zig 在做什么

build.zig 的核心作用不是把几条命令改写成脚本,而是描述项目有哪些目标、这些目标如何构建,以及外部可以通过哪些步骤触发它们。

最小示例如下:

const std = @import("std");

pub fn build(b: *std.Build) void {
    const target = b.standardTargetOptions(.{});
    const optimize = b.standardOptimizeOption(.{});

    const exe = b.addExecutable(.{
        .name = "my-app",
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = target,
            .optimize = optimize,
        }),
    });

    b.installArtifact(exe);

    const run_cmd = b.addRunArtifact(exe);
    const run_step = b.step("run", "Run the application");
    run_step.dependOn(&run_cmd.step);
}

这段代码包含了一个最小项目的几个核心部分。

targetoptimize

const target = b.standardTargetOptions(.{});
const optimize = b.standardOptimizeOption(.{});

这两行给项目接入了标准构建参数:

  • target:目标平台,即产物面向的运行环境。当前在 macOS 上开发但需要生成 Windows 或 Linux 产物时,就需要指定:
    zig build -Dtarget=x86_64-windows
    
  • optimize:优化级别,即这次构建更偏向调试还是发布:
    zig build -Doptimize=ReleaseFast
    

Zig 提供四种优化模式,各有侧重:

模式特点典型场景
Debug包含完整调试信息,启用所有安全检查,不优化性能开发调试阶段(默认)
ReleaseSafe启用优化,同时保留运行时安全检查对安全性要求高的发布(服务端、加密、金融)
ReleaseFast最大性能优化,移除安全检查对性能要求极致的场景(游戏、高频计算)
ReleaseSmall优化二进制体积嵌入式、资源受限环境

完整优化行为差异请参考 Zig 官方文档。

如果不传 -Dtarget-Doptimize,它们会使用合理的默认值:

  • target 默认为当前主机的原生平台(native target)
  • optimize 默认为 Debug 模式

这两个默认值恰好是本地开发时最常用的配置。Zig 的“显式“原则在这里体现为:build.zig 的作者显式调用standardTargetOptionsstandardOptimizeOption,并显式将结果传递addExecutable.target.optimize 字段。命令行参数没有传入时使用默认值,这属于“有合理默认值的显式配置“,而不是“隐式行为“——运行 zig build --help 可以看到这些参数及其说明。

另外需要注意,targetoptimize 传入 addExecutable 后控制的是编译器行为(生成什么平台的代码、启用哪些优化)。如果你的源代码需要读取这些信息(比如根据目标平台选择不同的代码路径),那是另一个层面的问题,需要通过后面讲到的 addOptions 机制把配置从构建脚本显式传入程序。

addExecutable

const exe = b.addExecutable(.{
    .name = "my-app",
    .root_module = b.createModule(.{
        .root_source_file = b.path("src/main.zig"),
        .target = target,
        .optimize = optimize,
    }),
});

这一段定义了一个可执行目标,包括:

  • 目标名称:my-app
  • 入口源文件:src/main.zig
  • 构建参数:targetoptimize

其中 root_module 表示这个编译目标的根模块配置,用来组织源文件和构建参数。

installArtifact

b.installArtifact(exe);

这一行的作用是把构建产物纳入项目的安装流程,也就是默认输出的一部分。没有这一步,定义出来的目标不会自动进入默认构建流程。

对应关系如下:

  • addExecutable:定义目标
  • installArtifact:把目标纳入默认输出流程

addRunArtifactstep("run", ...)

const run_cmd = b.addRunArtifact(exe);

const run_step = b.step("run", "Run the application");
run_step.dependOn(&run_cmd.step);

这里分成两个动作:

  • addRunArtifact(exe):定义“如何运行这个产物“
  • step("run", ...):把这个运行动作暴露成项目里的 run 步骤

这样项目里才会出现下面的命令入口:

zig build run

zig build 能执行哪些步骤,不是固定不变的,而是由当前项目的 build.zig 决定的。

构建图初步概念

Zig 的构建系统基于有向无环图(DAG)。build.zig 中定义的每一个编译目标、运行命令、安装动作都是一个“步骤“(Step),步骤之间通过依赖边连接。构建系统根据依赖关系确定执行顺序,没有依赖关系的步骤可以并发执行。

install 步骤是默认的主步骤——直接运行 zig build 时,构建系统会执行所有挂载到 install 下的步骤。installArtifact 就是把一个编译目标的输出挂载到 install 步骤上。

构建产物的输出涉及两个目录:

  • zig-out/:安装前缀目录,存放最终产物。用户可以通过 -p 选项自定义路径。
  • .zig-cache/:构建缓存目录,存放中间产物和增量编译所需的缓存信息,用于加速后续构建。它可以安全删除(下次构建会重新生成),通常不应纳入版本控制。

构建脚本应该通过构建系统提供的 API 来引用路径,而不是硬编码输出目录。硬编码路径会破坏缓存机制、并发安全性和构建图的可组合性。

一个最小可运行项目的闭环

把前面的内容串起来,一个最小项目的基本工作流就是这几个命令:

命令作用
zig build执行项目默认构建(即 install 步骤)
zig build run执行项目定义的 run 步骤
zig build run -- arg1 arg2向程序传递命令行参数(-- 分隔构建参数与程序参数)
zig build test执行项目定义的 test 步骤
zig build --help查看当前项目定义了哪些步骤

其中 zig build runzig build test 能否使用,取决于项目是否定义了对应步骤。接手新项目时,优先查看 zig build --help

把配置从构建脚本传给程序

前面提到的 targetoptimize 控制的是编译器行为,你的源代码通常不需要关心它们。但构建系统也可以把配置值传给你的程序代码,例如:

  • 是否开启日志
  • 是否启用某个实验特性
  • 是否切换某种行为模式

最小示例如下:

const std = @import("std");

pub fn build(b: *std.Build) void {
    const target = b.standardTargetOptions(.{});
    const optimize = b.standardOptimizeOption(.{});

    const enable_logging = b.option(
        bool,
        "logging",
        "Enable logging output",
    ) orelse false;

    const exe = b.addExecutable(.{
        .name = "my-app",
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = target,
            .optimize = optimize,
        }),
    });

    const options = b.addOptions();
    options.addOption(bool, "enable_logging", enable_logging);
    exe.root_module.addOptions("config", options);

    b.installArtifact(exe);
}

这个过程包含三个动作:用 b.option(...) 从构建命令读取参数,用 b.addOptions() 组织这些配置,再把它们作为一个模块加到程序里。

这样,代码中就可以通过 @import("config") 读取配置:

const std = @import("std");
const config = @import("config");

pub fn main() void {
    if (config.enable_logging) {
        std.debug.print("logging enabled\n", .{});
    }
}

运行时可以这样传入参数:

zig build -Dlogging=true

build.zig 不只决定如何构建,也可以决定程序在构建时拿到哪些配置。

如何把测试接入 zig build test

单文件测试前面已经出现过:

zig test math.zig

项目阶段更常见的做法,是把测试接入项目工作流,使测试也成为统一入口的一部分:

zig build test

最小示例如下:

const std = @import("std");

pub fn build(b: *std.Build) void {
    const target = b.standardTargetOptions(.{});
    const optimize = b.standardOptimizeOption(.{});

    const unit_tests = b.addTest(.{
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = target,
            .optimize = optimize,
        }),
    });

    const run_unit_tests = b.addRunArtifact(unit_tests);

    const test_step = b.step("test", "Run unit tests");
    test_step.dependOn(&run_unit_tests.step);
}

这一段和前面的 run 逻辑对应关系很直接:

  • addTest(...):定义测试目标
  • addRunArtifact(...):定义如何运行测试产物
  • step("test", ...):给项目提供 zig build test 入口

zig build test 能否使用,取决于项目是否定义了对应的 test 步骤。

两种测试方式的区别如下:

  • zig test file.zig:直接对一个文件或目标执行测试
  • zig build test:执行项目定义好的测试工作流

两者都很常见,只是面向的层级不同。

更复杂的工程组织

模块拆分、多目标项目(多可执行文件+库+测试)、静态库/动态库构建、外部依赖接入、系统库链接、文件生成与代码生成、交叉编译发布等高级主题,详见构建系统与包管理

最常用的几个构建命令

本章提到的命令有:

# 构建项目
zig build

# 运行项目中定义的 run 步骤
zig build run

# 运行项目中定义的 test 步骤
zig build test

# 指定优化级别
zig build -Doptimize=ReleaseFast

# 指定目标平台
zig build -Dtarget=x86_64-windows

# 查看当前项目定义了哪些步骤
zig build --help

比命令本身更重要的是下面两点:

  1. zig build runzig build test 的前提是项目里定义了对应步骤。
  2. 不清楚一个项目支持什么时,优先看 zig build --help

本章要点

  1. 单文件命令适合练习和最小实验,项目开发更需要统一的构建入口。
  2. build.zig 的核心作用不是“写几条命令“,而是描述项目的构建、运行和测试工作流。
  3. zig init 生成的最小项目中,build.zig 负责构建流程,build.zig.zon 是项目清单,src/main.zigsrc/root.zig 分别对应常见的可执行入口和库入口。
  4. addExecutable 用于定义目标,installArtifact 用于把产物纳入默认安装或输出流程。
  5. addRunArtifact 定义“如何运行这个产物“,而 step("run", ...)step("test", ...) 则是在项目里显式提供命令入口。
  6. zig build runzig build test 是否可用,取决于项目是否定义了对应步骤。
  7. targetoptimize 是最常见的构建参数,分别对应目标平台和优化级别。
  8. build.zig 也可以把构建期配置传给程序代码。
  9. 构建系统基于有向无环图(DAG),步骤之间通过依赖边连接。zig-out/ 存放最终产物,.zig-cache/ 存放构建缓存。

相关阅读构建系统与包管理 — 深入构建图机制、库目标、代码生成、交叉编译发布和依赖管理。

常用标准库模块详解

std.mem

std.mem 是最基础、也最常用的标准库模块之一。

在 Zig 里,很多看起来像“字符串处理”的问题,本质上其实是:

  • 处理 []const u8
  • 处理 []u8
  • 处理一段连续内存
  • 在已有缓冲区上做查找、比较、裁剪、复制

所以 std.mem 的核心不是“高级文本功能”,而是:

把切片和内存当作程序中的基础数据视图来处理。

常见入口包括:

  • std.mem.eql
  • std.mem.startsWith
  • std.mem.endsWith
  • std.mem.find
  • std.mem.indexOfScalar
  • std.mem.trim
  • std.mem.splitScalar
  • std.mem.copyForwards

下面这个例子模拟一个很常见的任务:读取一行配置文本,判断格式、拆分键值、去掉空白,并把结果复制到固定缓冲区中。

const std = @import("std");

pub fn main(_: std.process.Init) !void {
    const line = "  mode = release-fast  ";

    // 先把首尾空白去掉,后续判断和拆分都基于规范化后的切片。
    const trimmed = std.mem.trim(u8, line, " \t\r\n");
    std.debug.print("trimmed = [{s}]\n", .{trimmed});

    // 先做一个最基本的格式检查,确认这一行至少像 key=value。
    if (!std.mem.containsAtLeast(u8, trimmed, 1, "=")) {
        std.debug.print("invalid config line\n", .{});
        return;
    }

    // 按分隔符拆开,再分别清理 key 和 value 两侧的空白。
    var parts = std.mem.splitScalar(u8, trimmed, '=');
    const raw_key = parts.next() orelse return;
    const raw_value = parts.next() orelse return;

    const key = std.mem.trim(u8, raw_key, " \t\r\n");
    const value = std.mem.trim(u8, raw_value, " \t\r\n");

    if (std.mem.eql(u8, key, "mode")) {
        std.debug.print("recognized key: {s}\n", .{key});
    }

    if (std.mem.startsWith(u8, value, "release")) {
        std.debug.print("release mode detected: {s}\n", .{value});
    }

    if (std.mem.endsWith(u8, value, "fast")) {
        std.debug.print("fast suffix detected\n", .{});
    }

    if (std.mem.find(u8, value, "-")) |pos| {
        std.debug.print("separator '-' at index {}\n", .{pos});
    }

    // 已经有目标缓冲区时,可以把结果复制进去,供后续继续处理。
    var buffer: [32]u8 = undefined;
    @memset(&buffer, 0);
    std.mem.copyForwards(u8, buffer[0..value.len], value);

    std.debug.print("copied value = {s}\n", .{buffer[0..value.len]});
}

eql:比较切片内容

切片比较最常见的需求是“内容是否相同”,这时通常用 std.mem.eql

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const a = "zig";
    const b = "zig";
    const c = "zag";

    // `eql` 比较的是切片内容,而不是“是不是同一个对象”。
    std.debug.print("a == b: {}\n", .{std.mem.eql(u8, a, b)});
    std.debug.print("a == c: {}\n", .{std.mem.eql(u8, a, c)});
}

这里的 u8 表示比较的是 u8 元素切片。对字符串字面量来说,这通常就是最常见的写法。

startsWith / endsWith

判断前缀和后缀时,直接使用 std.mem.startsWithstd.mem.endsWith

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const name = "chapter-standard-library-detail.md";

    // 前缀和后缀判断常用于文件名、参数和协议头处理。
    std.debug.print("starts with chapter: {}\n", .{
        std.mem.startsWith(u8, name, "chapter"),
    });
    std.debug.print("ends with .md: {}\n", .{
        std.mem.endsWith(u8, name, ".md"),
    });
}

这类判断在下面这些场景里都很常见:

  • 文件扩展名判断
  • 命令行参数前缀判断
  • 协议头判断
  • 配置项前缀判断

find

查找子串时,使用std.mem.find,它返回 ?usize

  • 找到时返回位置
  • 找不到时返回 null
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const text = "hello zig world";

    // `find` 返回可选值:找到时是位置,找不到时是 `null`。
    if (std.mem.find(u8, text, "zig")) |pos| {
        std.debug.print("found at: {}\n", .{pos});
    } else {
        std.debug.print("not found\n", .{});
    }
}

trim

处理用户输入、配置文件、文本行时,trim 几乎是高频操作。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const raw = "  zig  ";
    const trimmed = std.mem.trim(u8, raw, " ");

    std.debug.print("trimmed: [{s}]\n", .{trimmed});
}

第三个参数是“要裁掉的字符集合”,常见值有:

  • " "
  • " \t\r\n"

copyForwards

当你已经有目标缓冲区时,copyForwards 是最直接的复制方式之一。

const std = @import("std");

pub fn main(_: std.process.Init) void {
    var buffer: [8]u8 = undefined;
    const source = "zig";

    // 先把缓冲区清零,便于观察复制后的结果。
    @memset(&buffer, 0);
    std.mem.copyForwards(u8, buffer[0..source.len], source);

    std.debug.print("{s}\n", .{buffer[0..source.len]});
}

std.fmt

std.fmt 负责格式化。

它解决的问题不是“打印到哪里”,而是:

  • 如何把值格式化成文本
  • 如何把格式化结果写入缓冲区
  • 如何在需要时分配一段新的格式化结果

所以 std.fmt 的核心职责可以概括为:

把结构化数据变成文本表示。

常见格式化占位符

最常用的四个:

  • {}:默认格式
  • {d}:十进制整数
  • {s}:字符串切片
  • {any}:调试输出任意值

这几个占位符的区别可以先这样理解:

  • {} 表示“使用默认格式”,适合布尔值这类简单值的直接输出
  • {d} 明确表示“按十进制输出整数”,比 {} 更适合计数、长度、端口号这类数值
  • {s} 用于字符串切片,最常见的是 []const u8
  • {any} 更偏向调试用途,适合快速查看数组、元组、结构体等复合值

可以用一个很简单的顺序来判断:

  1. 字符串切片优先用 {s}
  2. 整数优先用 {d}
  3. 简单值快速输出时可以用 {}
  4. 复合值调试时优先想到 {any}
const std = @import("std");

pub fn main(_: std.process.Init) void {
    const name = "zig";
    const count: u32 = 3;
    const enabled = true;
    const pair = .{ name, count };

    std.debug.print("name={s}, count={d}\n", .{ name, count });
    std.debug.print("enabled={}\n", .{enabled});
    std.debug.print("pair={any}\n", .{pair});
}

构造一条完整消息

下面这个例子模拟一个常见任务:程序先在固定缓冲区里构造一条消息,再在需要长期保存时分配一份完整文本。

const std = @import("std");

pub fn main(_: std.process.Init) !void {
    var stack_buffer: [128]u8 = undefined;

    // 已有固定缓冲区时,直接把格式化结果写进去。
    const short_message = try std.fmt.bufPrint(
        &stack_buffer,
        "user={s} id={} active={}",
        .{ "alice", 42, true },
    );

    std.debug.print("short message: {s}\n", .{short_message});

    // 需要独立拥有一段新文本时,再使用会分配内存的 `allocPrint`。
    const allocator = std.heap.page_allocator;
    const long_message = try std.fmt.allocPrint(
        allocator,
        "report: user={s}, score={d}, tags={any}",
        .{ "alice", 98, [_][]const u8{ "zig", "std", "fmt" } },
    );
    defer allocator.free(long_message);

    std.debug.print("long message: {s}\n", .{long_message});
}

这个例子体现了 std.fmt 最常见的两条主线:

  • 短生命周期、固定大小:优先 bufPrint。返回值是实际写入的切片,不是整个数组;缓冲区不够大会返回错误。
  • 结果长度不方便预估,或者需要独立拥有结果:使用 allocPrint。它会发生堆分配,因此必须传入 allocator,返回结果由调用者负责释放 (defer allocator.free(...))。

std.debug

std.debug 是学习阶段和开发阶段都非常高频的模块。

它最重要的价值不是“功能多”,而是:

让你更快看见程序当前的状态,并尽早暴露不应该发生的逻辑错误。

最常用的入口通常就是两个:

  • std.debug.print
  • std.debug.assert

下面这个例子模拟一个简单的解析流程:先打印中间状态,再用 assert 验证关键不变量。

const std = @import("std");

fn parsePort(text: []const u8) !u16 {
    std.debug.print("raw input = [{s}]\n", .{text});

    const trimmed = std.mem.trim(u8, text, " \t\r\n");
    std.debug.print("trimmed input = [{s}]\n", .{trimmed});

    // `assert` 用来表达内部假设:这里不应该再出现空输入。
    std.debug.assert(trimmed.len > 0);

    const port = try std.fmt.parseInt(u16, trimmed, 10);
    std.debug.assert(port > 0);

    std.debug.print("parsed port = {}\n", .{port});
    return port;
}

pub fn main(_: std.process.Init) !void {
    const port = try parsePort(" 8080 ");
    std.debug.print("final port = {}\n", .{port});
}

这个例子体现了 std.debug 的两个核心用法:

  • std.debug.print:开发时快速观察变量值、确认分支执行路径、理解程序行为。它不是完整日志系统的替代品,更适合「开发时看状态」。
  • std.debug.assert:验证内部不变量——这里必须成立,如果不成立说明程序逻辑本身已出问题。它和错误处理(try/catch)的职责不同:try/catch 处理可预期的运行时失败,assert 暴露不应发生的逻辑错误。

std.testing

函数用途
expect验证布尔条件为真
expectEqual比较两个值是否相等(带类型推导,失败信息更清楚)
expectEqualStrings比较两个字符串内容
expectEqualSlices比较两个切片的逐元素内容
expectError验证错误联合体返回了特定错误

测试代码中需要分配内存时,优先使用带有泄漏检测功能的 std.testing.allocator

测试的完整写法、命名规范、错误路径验证和资源释放测试,见测试章节

文件操作:std.Io.Dirstd.Io.File

在 Zig 0.16 中,文件系统操作的核心是 std.Io.Dir(目录)和 std.Io.File(文件)。所有 I/O 操作都需要显式传入 io: std.Io 参数。

下面这个例子演示了最典型的文件操作流程:读取 → 处理 → 写入。

const std = @import("std");

pub fn main(init: std.process.Init) !void {
    const io = init.io;
    const gpa = init.gpa;

    const content = try std.Io.Dir.cwd().readFileAlloc(io, "input.txt", gpa, .limited(1024 * 1024));
    defer gpa.free(content);

    const trimmed = std.mem.trim(u8, content, " \t\r\n");

    const output_file = try std.Io.Dir.cwd().createFile(io, "output.txt", .{ .truncate = true });
    defer output_file.close(io);

    try output_file.writeStreamingAll(io, "processed: ");
    try output_file.writeStreamingAll(io, trimmed);
    try output_file.writeStreamingAll(io, "\n");
}

几个关键习惯:

  • Io.Dir.cwd() 获取当前目录句柄,openFile / createFile 从目录出发
  • 打开的资源用 defer xxx.close(io) 确保释放
  • 读取到堆内存后用 defer gpa.free(...) 配对释放

遍历目录项

openDir 配合 .iterate = true 打开一个目录,iterate() 返回迭代器,每次调用 next(io) 返回一个目录项。entry.name 是该项的文件名。

var dir = try std.Io.Dir.cwd().openDir(io, ".", .{ .iterate = true });
defer dir.close(io);

var it = dir.iterate();
while (try it.next(io)) |entry| {
    std.debug.print("{s}\n", .{entry.name});
}

std.process

std.process 负责程序作为进程运行时的上下文:命令行参数、环境变量、进程级 allocator(gpa)和 I/O(io)。这些能力在 Zig 0.16 中通过 maininit: std.process.Init 参数显式传入,不复用全局状态。

下面这个例子演示了一个典型的 CLI 主线:读参数 → 读环境变量 → 打开文件 → 输出处理结果。

const std = @import("std");

pub fn main(init: std.process.Init) !void {
    var args = init.minimal.args.iterate();
    _ = args.next(); // 第一个参数是程序自身路径

    const input_path = args.next() orelse {
        std.debug.print("usage: app <input-file>\n", .{});
        return;
    };

    const mode = init.environ_map.get("APP_MODE") orelse "default";

    const io = init.io;
    const file = try std.Io.Dir.cwd().openFile(io, input_path, .{});
    defer file.close(io);

    var read_buf: [1024]u8 = undefined;
    var file_reader = file.reader(io, &read_buf);
    const content = try file_reader.interface.allocRemaining(init.gpa, .limited(1024 * 1024));
    defer init.gpa.free(content);

    const trimmed = std.mem.trim(u8, content, " \t\r\n");
    std.debug.print("content = [{s}]\n", .{trimmed});
}

几个要点:

  • init.minimal.args.iterate() 返回迭代器,逐个读取命令行参数
  • init.environ_map.get(...) 返回 ?[]const u8,环境变量不存在时为 null
  • init.gpainit.io 分别提供进程级的通用 allocator 和 I/O 入口
  • 这些值都不是全局状态,而是从 main 入口显式传入

std.ArrayList

std.ArrayList(T) 是标准库提供的动态数组。它在运行时可以自动扩容,是处理“数量不确定的一组同类型元素“的首选结构。

大多数语言里的“列表“或“数组“默认就是动态的(Python 的 list、JavaScript 的 Array)。但 Zig 中 [N]T 是固定大小的——动态数组需要通过 std.ArrayList 显式创建。

在 Zig 0.16 中,ArrayList 采用**非托管(unmanaged)**设计:结构体内部不存储 allocator,而是由调用方在每个需要分配的方法上显式传入。这与前面各模块中 allocator 通过参数传递的模式一致。

容量与长度

动态数组有两个容易混淆的概念:

  • 长度items.len):当前实际存储了多少个元素
  • 容量capacity):当前已分配的空间能容纳多少个元素

容量总是 ≥ 长度。当 items.len == capacity 时,再追加元素会触发重新分配——分配一块更大的内存,将已有元素复制过去,释放旧内存。这个过程代价较高,所以如果能预估元素数量,应该用 initCapacity 预先分配足够空间。

创建与销毁

const std = @import("std");

pub fn main(_: std.process.Init) !void {
    const allocator = std.heap.page_allocator;

    // 方式一:空列表,按需增长
    var list: std.ArrayList(u8) = .empty;

    // 方式二:预分配容量,避免后续重新分配(推荐)
    var buf = try std.ArrayList(u8).initCapacity(allocator, 100);

    // 使用完毕后释放内存
    list.deinit(allocator);
    buf.deinit(allocator);
}

初始化方式对比:

方式写法适用场景
空列表var list: std.ArrayList(T) = .empty不确定最终大小
预分配try std.ArrayList(T).initCapacity(gpa, n)能预估元素数量

ArrayList 的核心字段只有两个,都可以直接访问:

字段类型含义
items[]T当前所有元素组成的切片
capacityusize已分配空间能容纳的元素数

items 就是普通切片——所有切片操作(索引、for 遍历、传给函数)都适用。

追加元素

var list: std.ArrayList(u8) = .empty;
defer list.deinit(allocator);

try list.append(allocator, 'H');
try list.append(allocator, 'e');
try list.append(allocator, 'l');
try list.append(allocator, 'l');
try list.append(allocator, 'o');
try list.appendSlice(allocator, " World");

std.debug.print("{s}\n", .{list.items}); // Hello World
std.debug.print("len={}, capacity={}\n", .{list.items.len, list.capacity});
  • append 添加单个元素
  • appendSlice 添加一个切片的所有元素
  • 两者都可能触发重新分配,返回 Allocator.Error!void

如果已经通过 ensureTotalCapacity 预留了足够空间,可以使用 appendAssumeCapacityappendSliceAssumeCapacity——它们不会触发分配,也不返回 error,但如果容量不足会触发安全断言。

删除元素

// pop:移除并返回最后一个元素,列表为空时返回 null
const last = list.pop(); // ?T

// orderedRemove:按下标移除,保持剩余元素顺序,O(n)
// 返回被移除的值
const removed = list.orderedRemove(3);

// swapRemove:按下标移除,用末尾元素填补空位,O(1)
// 不保持顺序,但更快
const removed2 = list.swapRemove(0);

三种删除方式的对比:

方法复杂度顺序返回值
pop()O(1)只删末尾?T
orderedRemove(i)O(n)保持T
swapRemove(i)O(1)不保持T

这三种方法都不需要传入 allocator——它们只缩小列表,不涉及内存分配。

插入与其他操作

// 在指定位置插入单个元素
try list.insert(allocator, 0, 'X');

// 在指定位置插入一个切片
try list.insertSlice(allocator, 1, "YY");

// 预分配更多空间(不改变长度)
try list.ensureTotalCapacity(allocator, 200);

// 清空但保留已分配的内存(后续追加时可复用)
list.clearRetainingCapacity();

// 清空并释放内存
list.clearAndFree(allocator);

// 将内容转移为调用方拥有的切片,列表变为空
const owned = try list.toOwnedSlice(allocator);
defer allocator.free(owned);

std.HashMap

std.HashMap 是基于哈希表的键值存储结构。给定一个 key,可以快速查找、插入或删除对应的 value。Zig 标准库提供了两个系列的实现:

类型特点适用场景
AutoHashMap(K, V)开放寻址,通用哈希整数、枚举、指针等基础类型作为 key
StringHashMap(V)同上,key 为 []const u8字符串作为 key
array_hash_map.Auto(K, V)数组存储,保留插入顺序需要有序遍历
array_hash_map.String(V)同上,key 为 []const u8字符串 key + 有序遍历

AutoHashMapStringHashMap托管的——结构体内部存储 allocator,调用方法时不需要额外传入。array_hash_map 系列是非托管的——每个可能分配的方法都需要传入 allocator。

创建与基本操作

const std = @import("std");

pub fn main(_: std.process.Init) !void {
    const allocator = std.heap.page_allocator;

    var scores = std.AutoHashMap(u32, u16).init(allocator);
    defer scores.deinit();

    // 插入
    try scores.put(1001, 89);
    try scores.put(1002, 55);
    try scores.put(1003, 41);

    // 查询
    std.debug.print("count={}\n", .{scores.count()});
    std.debug.print("score of 1002={}\n", .{scores.get(1002).?});
    std.debug.print("has 9999={}\n", .{scores.contains(9999)});

    // 删除
    if (scores.remove(1003)) {
        std.debug.print("removed 1003\n", .{});
    }
    std.debug.print("count after removal={}\n", .{scores.count()});
}

常用方法一览:

方法返回值说明
put(key, value)!void插入或覆盖已有值
get(key)?V按键查值,不存在返回 null
getPtr(key)?*V返回值的指针(可就地修改)
contains(key)bool是否存在该 key
remove(key)bool删除,返回是否成功
fetchRemove(key)?KV删除并返回被删除的键值对
count()u32当前元素数量
getOrPut(key)!GetOrPutResult存在则返回指针,不存在则插入空位

get 返回 ?V——使用前必须处理“不存在“的情况。这是 Zig 显式错误处理的体现:你不可能意外地访问一个不存在的值。

遍历

var iter = scores.iterator();
while (iter.next()) |entry| {
    std.debug.print("key={}, value={}\n", .{entry.key_ptr.*, entry.value_ptr.*});
}

迭代器返回的 Entry 包含 key_ptrvalue_ptr(都是指针)。通过解引用可以读取值,也可以在遍历中修改值:

var iter = scores.iterator();
while (iter.next()) |entry| {
    if (entry.key_ptr.* == 1002) {
        entry.value_ptr.* = 99; // 就地修改
    }
}

也可以只遍历键或值:

var ki = scores.keyIterator();
while (ki.next()) |key| {
    std.debug.print("key={}\n", .{key.*});
}

注意HashMap 的迭代器在任何修改操作(putremove 等)后会失效。如果需要边遍历边修改,应该先把要操作的键收集到一个列表中,遍历结束后再统一修改。

字符串作为 key

当 key 是字符串时,使用 StringHashMap

var ages = std.StringHashMap(u8).init(allocator);
defer ages.deinit();

try ages.put("Alice", 25);
try ages.put("Bob", 30);

std.debug.print("Alice's age={}\n", .{ages.get("Alice").?});

StringHashMap 按字符串内容进行哈希和比较,不是按指针地址。key 的内存由调用方管理——StringHashMap 不会复制或释放 key 字符串本身。这意味着如果 key 指向的内存在 map 使用期间被释放,会导致未定义行为。

有序哈希表:array_hash_map

AutoHashMap 不保证遍历顺序——每次插入或删除都可能改变内部布局。如果需要保持插入顺序或频繁遍历,应该使用 array_hash_map

const ArrayMap = std.array_hash_map.Auto(u32, []const u8);

var map: ArrayMap = .empty;
defer map.deinit(allocator);

try map.put(allocator, 3, "three");
try map.put(allocator, 1, "one");
try map.put(allocator, 2, "two");

// 遍历顺序就是插入顺序:3, 1, 2
for (map.keys(), map.values()) |key, val| {
    std.debug.print("{} = {s}\n", .{key, val});
}

// 删除方式有两种:
_ = map.swapRemove(1);    // O(1),不保持顺序
// 或
_ = map.orderedRemove(3); // O(n),保持剩余元素的顺序

array_hash_mapAutoHashMap 的关键区别:

特性AutoHashMaparray_hash_map.Auto
allocator 传递托管(内部存储)非托管(方法参数传入)
遍历顺序不确定插入顺序
直接访问键/值通过迭代器.keys() / .values() 返回切片
删除方法remove(key)swapRemove(key) / orderedRemove(key)

.keys().values() 直接返回切片,这让 array_hash_map 在需要序列化、调试输出或批量处理时更方便。

std.heap

std.heap 提供了一系列 allocator:page_allocator(最直接的分配方式)、ArenaAllocator(集中分配集中释放)、FixedBufferAllocator(在已有内存块上分配)等。

完整的 allocator 选择、使用和资源责任管理,见内存管理模型

本章小结

本章覆盖了标准库中最常用的模块。它们的分工可以这样记忆:

模块定位
std.process程序入口:参数、环境变量、gpa + io
std.Io文件与目录读写
std.mem切片处理、字节级操作
std.fmt格式化文本(bufPrint 写缓冲区,allocPrint 分配新内存)
std.debugprint 观察状态,assert 验证不变量
std.testing固定行为、覆盖边界和错误路径
std.ArrayList动态数组(非托管,方法传 allocator)
std.HashMap哈希表(StringHashMap 按值查找,array_hash_map 保持顺序)
std.heapallocator 的选择与资源组织策略

相关阅读内存管理模型测试与验证CLI 工具开发

编译期计算与元编程

Zig 的 comptime 让一部分代码在编译阶段执行,从而把类型生成、约束检查、代码选择和预计算提前完成。它不是宏系统或 DSL,而是用普通 Zig 代码参与编译阶段的计算与决策——编译期检查和运行时逻辑共享同一套表达方式,泛型和普通函数风格一致。本章聚焦于 comptime 的机制——语法、内建函数、能力边界。泛型设计模式将在泛型编程中展开。

编译期和运行时:核心区分

维度编译期(compile time)运行时(runtime)
执行时机编译器生成程序时程序真正运行时
能处理的数据编译期已知的值、类型、结构信息用户输入、文件内容、网络数据等动态值
典型用途类型生成、约束检查、分支裁剪、预计算真正处理业务数据
错误暴露时机编译期报错运行时报错或返回错误

只有编译期已知的值和类型信息才能参与 comptime 计算。类型参数、常量、结构体字段信息属于编译期已知;用户输入、文件内容、网络请求则属于运行时。

comptime 参数

这是最基础也最常用的机制——函数参数标记为 comptime,调用者必须在编译期提供值。

const std = @import("std");

fn max(comptime T: type, a: T, b: T) T {
    return if (a > b) a else b;
}

pub fn main() void {
    const a = max(i32, 10, 20);
    const b = max(f64, 3.14, 2.72);

    std.debug.print("int max: {}\n", .{a});
    std.debug.print("float max: {d}\n", .{b});
}

要点:

  • T 必须在编译期已知,不能由运行时值决定
  • 编译器会为每个不同的 T 生成一份特化实现
  • 这就是 Zig 泛型的底层机制——详见泛型编程

comptime 参数不限于 type,也可以是整数、枚举等编译期值:

const std = @import("std");

fn repeat(comptime n: u32, value: u8) [n]u8 {
    return [_]u8{value} ** n;
}

pub fn main() void {
    const buf = repeat(5, 'A');
    std.debug.print("{s}\n", .{&buf}); // AAAAA
}

inline fn vs comptime 参数

两者都涉及“编译器在调用处展开代码“,容易混淆。但 inline 只是生成优化建议,不会把参数变成编译期值——comptime 参数才真正约束调用者必须在编译期提供值。

comptime 参数inline fn
参数是否必须编译期已知
是否生成多份特化代码是(按参数值特化)否(只是内联展开)
主要用途泛型、编译期计算性能优化、避免函数调用开销
类型参数化能力有(comptime T: type

inline 不等于编译期——它只是建议编译器在调用处展开函数体,不会让参数变成编译期值。

comptime T: type vs anytype

两者都能让函数接受不同类型,但机制不同:

comptime T: typeanytype
类型是否可命名是(T 可在函数体内直接使用)否(需用 @TypeOf(param) 间接获取)
适用位置任意参数位置只能用于单个参数(且只能是最后一个泛型参数)
类型反射@typeInfo(T) / @sizeOf(T) 直接可用需先通过 const T = @TypeOf(x) 获取类型
主要用途泛型数据结构、显式类型约束快速实现“接受任意类型“的辅助函数
const std = @import("std");

// comptime T: type — 类型有名,可反射
fn printTypeInfo(comptime T: type) void {
    std.debug.print("size of {} = {}\n", .{ T, @sizeOf(T) });
}

// anytype — 适合"我只是把值转发出去"的场景
fn double(x: anytype) @TypeOf(x) {
    return x + x;
}

pub fn main() void {
    printTypeInfo(i32);                          // size of i32 = 4
    std.debug.print("{d}\n", .{double(21)});     // 42
}

anytype 的本质是“推迟类型推导“——编译器在调用处根据实参类型生成一份特化函数,但函数体内无法直接引用这个类型。如果需要在函数体内做类型判断、构造该类型的值、或者返回该类型的指针,comptime T: type 更合适。

comptime

comptime { } 块用于显式写出“一段代码必须在编译期执行“。典型用法是在类型定义中写编译期检查:

const std = @import("std");

const Block = struct {
    data: [block_size]u8 = undefined,

    const block_size = 4096;

    comptime {
        // 编译期断言:block_size 必须是 2 的幂
        std.debug.assert(block_size > 0 and (block_size & (block_size - 1)) == 0);
    }
};

pub fn main() void {
    var b: Block = .{};
    b.data[0] = 42;
    std.debug.print("first byte: {}\n", .{b.data[0]});
}

如果断言不成立,错误会在编译阶段直接暴露出来。

comptime var

comptime 参数和 comptime 块处理的都是编译期已知的固定值。但如果编译期计算需要循环累积中间结果,就需要一个能在编译期被修改的变量——这正是 comptime var 的设计意图:声明一个只存在于编译期的可变变量。

const std = @import("std");

fn fibonacci(comptime n: u32) u32 {
    comptime var a: u32 = 0;
    comptime var b: u32 = 1;
    inline for (0..n) |_| {
        const tmp = a + b;
        a = b;
        b = tmp;
    }
    return a;
}

test "fibonacci at comptime" {
    // fibonacci(10) == 55,编译期计算完毕
    try std.testing.expectEqual(55, comptime fibonacci(10));
}

comptime var 只能在编译期执行的代码中修改——包括 comptime 函数体、comptime 块和 inline for / inline while 循环体。普通运行时 for 不能修改 comptime var,因为运行时代码执行时编译期变量已不存在。inline for 之所以可以,是因为它在编译期展开:每次迭代生成一份独立的编译期语句,所有语句都在编译期执行完毕后才进入运行时。

@typeInfo@compileError

@typeInfo 返回一个类型的结构化描述,可以在编译期根据类型信息做分支决策:

const std = @import("std");

fn zeroValue(comptime T: type) T {
    return switch (@typeInfo(T)) {
        .int => 0,
        .float => 0.0,
        .bool => false,
        else => @compileError("unsupported type for zeroValue"),
    };
}

test "zeroValue" {
    try std.testing.expectEqual(@as(i32, 0), zeroValue(i32));
    try std.testing.expectEqual(@as(f64, 0.0), zeroValue(f64));
    try std.testing.expectEqual(false, zeroValue(bool));
}

读取结构体字段信息:

const std = @import("std");

fn fieldCount(comptime T: type) usize {
    return switch (@typeInfo(T)) {
        .@"struct" => |info| info.fields.len,
        else => @compileError("expected struct type"),
    };
}

const User = struct {
    id: u32,
    name: []const u8,
    active: bool,
};

test "fieldCount" {
    try std.testing.expectEqual(3, fieldCount(User));
}

.@"struct" => |info| 捕获的 info 是一个 std.builtin.Type.Struct,包含:

  • fields[]const StructField,每个字段含 name(名称)、type(类型)、default_value_ptr(默认值指针)、is_comptimealignment
  • decls[]const Declaration,类型内部的声明(函数、常量)
  • layoutContainerLayout,结构体布局方式(.auto / @"packed"
  • is_tuple — 是否为元组(匿名结构体)

这组信息使得编译期代码可以遍历字段、按名称查找、根据字段类型做条件分支,是系列化、配置映射和代码生成的基础。inline for 一节将展示如何遍历 fields

@compileError@typeInfoelse 分支中用于阻止不支持的用法,也可单独用于类型前置校验:

const std = @import("std");

fn safeDiv(comptime T: type, a: T, b: T) T {
    switch (@typeInfo(T)) {
        .int => {},
        .float => {},
        else => @compileError("safeDiv only supports integer and float types"),
    }
    if (b == 0) return 0;
    return a / b;
}

test "safeDiv" {
    try std.testing.expectEqual(@as(i32, 3), safeDiv(i32, 10, 3));
    try std.testing.expectEqual(@as(f64, 2.5), safeDiv(f64, 5.0, 2.0));
    try std.testing.expectEqual(@as(i32, 0), safeDiv(i32, 10, 0));
}

inline for:编译期循环展开

inline for 在编译期展开循环,每次迭代的捕获值都是编译期已知的,可在循环体内做编译期类型推导:

const std = @import("std");

fn printFieldNames(comptime T: type) void {
    const fields = @typeInfo(T).@"struct".fields;
    inline for (fields) |field| {
        std.debug.print("{s}\n", .{field.name});
    }
}

const Config = struct { host: []const u8, port: u16, debug: bool };

pub fn main() void {
    printFieldNames(Config);
}

输出:host / port / debug

@hasDecl@hasField:编译期鸭子类型

const std = @import("std");

fn canSerialize(comptime T: type) bool {
    return @hasDecl(T, "serialize");
}
fn hasNameField(comptime T: type) bool {
    return @hasField(T, "name");
}

const S = struct {
    data: u32,
    pub fn serialize(_: @This()) []const u8 { return "ok"; }
};
const P = struct { name: []const u8, value: u32 };

test "@hasDecl and @hasField" {
    try std.testing.expect(canSerialize(S));
    try std.testing.expect(!canSerialize(P));
    try std.testing.expect(hasNameField(P));
    try std.testing.expect(!hasNameField(S));
}

@hasDecl 检查命名空间声明,@hasField 检查数据字段。详见泛型编程

@embedFile:编译期嵌入文件

@embedFile 在编译期将文件内容嵌入为 *const [N:0]u8 字节数组常量:

// const version = @embedFile("data/version.txt");
// 返回 *const [N:0]u8,NUL 结尾

典型场景:嵌入配置文件、模板、shader 源码、静态资源、版本号或构建信息。

类型构造内建函数

@typeInfo 结果构造类型的能力由一组专用内建函数提供:

内建函数用途
@Int(signedness, bits)构造整数类型
@Struct(...)构造结构体类型
@Union(...)构造联合体类型
@Enum(...)构造枚举类型
@Pointer(...)构造指针类型
@Fn(...)构造函数类型
@Tuple(field_types)构造元组类型

这些内建函数与 @typeInfo 形成拆解—组装的对应关系:@typeInfo 把一个类型拆成结构化信息(std.builtin.Type 标签联合的某个 variant),内建函数把这些信息重新组装成类型。例如 @typeInfo(i32) 返回 .int = .{ .signedness = .signed, .bits = 32 }@Int(.signed, 32) 则用同样的信息构造出 i32。下面的 DoubleWidth 就是这个模式的最好示范——读出、修改、重建。

根据需求选择最小整数类型:

fn SmallestUint(comptime max_val: comptime_int) type {
    if (max_val < (1 << 8)) return u8;
    if (max_val < (1 << 16)) return u16;
    if (max_val < (1 << 32)) return u32;
    return u64;
}

使用 @Int 构造精确位宽:

fn DoubleWidth(comptime T: type) type {
    const info = @typeInfo(T).int;
    return @Int(info.signedness, info.bits * 2);
}

@Struct 可在编译期重建结构体:

// 5 个参数:layout, backing_integer, 字段名数组, 类型数组, 默认值属性数组
const MyStruct = @Struct(
    .auto,                    // layout
    null,                     // backing_integer(packed 时使用)
    &.{ "x", "y" },          // field names
    &.{ u8, u8 },            // field types
    &.{                      // field default attributes
        .{ .@"comptime" = false, .@"align" = null, .default_value_ptr = null },
        .{ .@"comptime" = false, .@"align" = null, .default_value_ptr = null },
    },
);

编译期的硬性限制

comptime 能力强大,但有明确的边界:

const std = @import("std");

comptime {
    // 编译期可以做的:
    var x: u32 = 0;
    for (0..10) |i| {
        x += @as(u32, @intCast(i));
    }
    std.debug.assert(x == 45);

    // 编译期不能做的(取消注释会产生编译错误):
    // _ = std.heap.page_allocator;     // 运行时分配器
    // _ = @import("std").Io.Dir.cwd(); // 编译期不能访问文件系统
}
限制说明
无 I/O不能读写文件、网络、标准输入输出(@embedFile 是例外——由编译器特殊处理)
无运行时指针不能解引用指向运行时内存的指针
有限内存编译期求值器有内存上限,过大的数据结构会触发 "eval branch quota exceeded" 或内存不足
递归深度限制默认分支配额 1000,可用 @setEvalBranchQuota 提高,但不能无限
无内联汇编asm 在编译期不可用
无运行时副作用不能修改全局可变状态、不能调用外部函数

本章小结

机制关键语法适用场景
comptime 参数fn f(comptime T: type, ...)泛型数据结构与函数——详见泛型编程
comptimecomptime { }编译期断言与静态检查
comptime 变量comptime var x = ...编译期循环中累积状态
类型反射 + 约束@typeInfo(T) + @compileError根据类型生成代码、编译期约束检查
编译期鸭子类型@hasDecl, @hasField检查类型是否具备某声明或字段
循环展开inline for编译期遍历与展开
文件嵌入@embedFile("path")嵌入外部资源
类型构造@Int, @Struct, @Enum编译期生成自定义类型

边界与常见陷阱

  • 别把运行时问题硬塞进编译期——用户输入、文件、网络数据天然属于运行时。
  • 编译期 ≠ 免费——编译期计算会增加编译时间,不要为省下微不足道的运行时开销而大幅拖慢编译。
  • 先学稳基础再玩反射——推荐顺序:comptime 参数 → 编译期条件分支 → 类型构造 → @typeInfo 反射。跳过前面直接沉迷复杂反射,代码往往自己也看不清。

注意:如果需要运行时切换实现、类型擦除或 VTable,那更适合运行时抽象而非 comptime。完整对比见接口与设计模式章节。


相关阅读泛型编程

泛型编程

泛型本质上是 comptime 能力的延伸:把类型作为编译期值传入函数或结构体,编译器为每个具体类型生成一份特化实现。没有独立的 template/trait 语法——类型即值,约束靠编译期检查显式表达。

泛型函数

const std = @import("std");

fn add(comptime T: type, a: T, b: T) T {
    return a + b;
}

test "add" {
    try std.testing.expectEqual(@as(i32, 7), add(i32, 3, 4));
    try std.testing.expectEqual(@as(f64, 5.5), add(f64, 2.0, 3.5));
}

T 是编译期已知的类型参数,每个调用点生成一份特化函数。

anytype 可以省略显式类型参数,适合“接受任意值并原样返回同一类型“的简短函数:

fn double(value: anytype) @TypeOf(value) {
    return value * 2;
}

需要类型反射、类型约束或返回该类型的指针时,使用 comptime T: type。更多对比见编译期计算中的 comptime T: type vs anytype 小节。

多个类型参数

const std = @import("std");

fn Pair(comptime K: type, comptime V: type) type {
    return struct {
        key: K,
        value: V,
    };
}

fn makePair(comptime K: type, comptime V: type, key: K, value: V) Pair(K, V) {
    return .{ .key = key, .value = value };
}

test "pair with two type parameters" {
    const p1 = makePair([]const u8, u32, "port", 8080);
    try std.testing.expectEqualStrings("port", p1.key);
    try std.testing.expectEqual(@as(u32, 8080), p1.value);

    const p2 = makePair(u8, bool, 1, true);
    try std.testing.expectEqual(@as(u8, 1), p2.key);
    try std.testing.expectEqual(true, p2.value);
}
  • Pair(K, V) 是类型工厂——返回一个具体类型
  • makePair(...) 是值构造函数——返回该类型的实例

泛型结构体

泛型结构体的本质是返回 type 的函数:

const std = @import("std");

fn Point(comptime T: type) type {
    return struct {
        x: T,
        y: T,

        const Self = @This();

        pub fn init(x: T, y: T) Self {
            return .{ .x = x, .y = y };
        }

        pub fn add(self: Self, other: Self) Self {
            return .{
                .x = self.x + other.x,
                .y = self.y + other.y,
            };
        }
    };
}

test "generic Point type" {
    const P2i = Point(i32);
    const a = P2i.init(1, 2);
    const b = P2i.init(3, 4);
    const c = a.add(b);

    try std.testing.expectEqual(@as(i32, 4), c.x);
    try std.testing.expectEqual(@as(i32, 6), c.y);
}

Point 本身是类型工厂,Point(i32) 得到一个具体结构体类型。@This() 让方法内引用“当前这个具体结构体类型“更方便。

非类型编译期参数

comptime 参数不限于类型,也可以是编译期已知的数值:

const std = @import("std");

fn FixedBuffer(comptime N: usize) type {
    return struct {
        data: [N]u8 = .{0} ** N,
        len: usize = 0,

        const Self = @This();

        pub fn append(self: *Self, byte: u8) error{BufferFull}!void {
            if (self.len >= N) return error.BufferFull;
            self.data[self.len] = byte;
            self.len += 1;
        }

        pub fn slice(self: *const Self) []const u8 {
            return self.data[0..self.len];
        }
    };
}

test "FixedBuffer with comptime size" {
    var buf = FixedBuffer(8){};
    try buf.append('Z');
    try buf.append('i');
    try buf.append('g');
    try std.testing.expectEqualStrings("Zig", buf.slice());
}

FixedBuffer(8)FixedBuffer(16)不同的类型——数组大小烙进类型,实例化发生在编译期。

也可以同时接收类型参数和数值参数:

fn BoundedArray(comptime T: type, comptime capacity: usize) type {
    return struct {
        data: [capacity]T = undefined,
        len: usize = 0,

        const Self = @This();

        pub fn append(self: *Self, value: T) error{AtCapacity}!void {
            if (self.len >= capacity) return error.AtCapacity;
            self.data[self.len] = value;
            self.len += 1;
        }

        pub fn items(self: *const Self) []const T {
            return self.data[0..self.len];
        }
    };
}

标准库中的 std.BoundedArray 是这种模式的工程级实现。

泛型约束:@typeInfo + @compileError

泛型不等于对任意类型都成立——接受哪种类型、不接受哪种类型,需要自己表达。

const std = @import("std");

fn abs(comptime T: type, value: T) T {
    return switch (@typeInfo(T)) {
        .int => |info| if (info.signedness == .unsigned) value else if (value < 0) -value else value,
        .float => if (value < 0) -value else value,
        else => @compileError("abs 只接受整数或浮点类型,实际得到 " ++ @typeName(T)),
    };
}

test "abs for numeric types" {
    try std.testing.expectEqual(@as(i32, 5), abs(i32, 5));
    try std.testing.expectEqual(@as(i32, 3), abs(i32, -3));
    try std.testing.expectEqual(@as(f64, 1.5), abs(f64, -1.5));
}

有符号整数的最小值取反可能溢出(如 @as(i8, -128)),这个例子用于演示类型约束而非完整的边界处理。

约束也可以抽成独立的类型校验函数:

fn Numeric(comptime T: type) type {
    return switch (@typeInfo(T)) {
        .int, .float, .comptime_int, .comptime_float => T,
        else => @compileError("需要数值类型,实际得到 " ++ @typeName(T)),
    };
}

fn square(comptime T: type, value: Numeric(T)) T {
    return value * value;
}

Numeric(T) 把“适用范围“前置到类型层面,调用方在传参时就受到约束,错误信息也更明确。

泛型与错误联合

泛型和错误处理是正交的,可以自由组合:

fn firstOrError(comptime T: type, items: []const T) !T {
    if (items.len == 0) return error.EmptySlice;
    return items[0];
}

test "generic error union" {
    const ints = [_]i32{ 10, 20, 30 };
    try std.testing.expectEqual(@as(i32, 10), try firstOrError(i32, &ints));

    const empty: []const f64 = &.{};
    try std.testing.expectError(error.EmptySlice, firstOrError(f64, empty));
}

!T 的含义不受类型参数影响——trycatcherrdefer 照常使用,调用方不需要关心泛型细节。

泛型容器

泛型在实际工程中最常见的用途是做类型安全的容器。下面是一个最小栈实现:

fn Stack(comptime T: type) type {
    return struct {
        const Self = @This();
        items: std.ArrayList(T),

        pub fn init() Self {
            return .{ .items = .empty };
        }

        pub fn deinit(self: *Self, allocator: std.mem.Allocator) void {
            self.items.deinit(allocator);
        }

        pub fn push(self: *Self, allocator: std.mem.Allocator, value: T) !void {
            try self.items.append(allocator, value);
        }

        pub fn pop(self: *Self) ?T {
            return self.items.pop();
        }
    };
}

test "generic stack" {
    var list = Stack(i32).init();
    defer list.deinit(std.testing.allocator);

    try list.push(std.testing.allocator, 10);
    try list.push(std.testing.allocator, 20);

    try std.testing.expectEqual(@as(i32, 20), list.pop().?);
    try std.testing.expectEqual(@as(i32, 10), list.pop().?);
    try std.testing.expect(list.pop() == null);
}

注意泛型不会隐藏资源决策——allocator 仍需在方法中显式传入。

测试泛型代码

泛型代码需用多种类型分别测试。不同类型可能触发不同的编译期分支,每个分支至少覆盖一种类型。为每种目标写独立 test 块,失败时定位更快。

注意事项

  • 泛型不等于万能适配器——边界和约束需要显式表达,不适合的类型应在编译期报错
  • anytype 不是 comptime T: type 的替代——需要类型反射、显式约束或返回类型时,使用 comptime T: type
  • 约束服务于可读性——不要为小事引入复杂的类型校验层

相关阅读编译期计算指针与内存

指针、切片与对齐

类型总览

类型语法含义常见用途
单项指针*T指向一个 T传参、原地修改、避免复制
只读单项指针*const T指向一个只读 T只读借用
可选指针?*T可能有 T,也可能没有查找结果、可空句柄
数组指针*[N]T指向固定长度数组保留数组长度信息
多项指针[*]T指向连续元素,不携带长度底层内存、C 互操作
切片[]T指针 + 长度动态序列视图
只读切片[]const T只读切片视图字符串、只读序列参数
哨兵切片[:S]T带长度,以哨兵值结尾C 风格数据协作
哨兵多项指针[*:S]T无长度,以哨兵值结尾C 风格字符串

日常最常用的是 *T*const T[]T[]const T。多项指针、哨兵指针和裸地址转换主要用于系统/底层场景。

单项指针 *T

*T 指向一个确定存在的 T 值,不可为空。取地址用 &value,解引用用 ptr.*

const std = @import("std");

const User = struct {
    id: u32,
    score: i32,
};

fn printUser(user: *const User) void {
    std.debug.print("user id = {}, score = {}\n", .{ user.id, user.score });
}

fn bumpScore(user: *User) void {
    user.score += 1;
}

test "single item pointer" {
    var x: i32 = 42;
    const ptr: *i32 = &x;
    ptr.* = 100;

    var user = User{ .id = 1, .score = 10 };
    printUser(&user);
    bumpScore(&user);
    try std.testing.expect(user.score == 11);
}

*User 允许修改数据,*const User 承诺不修改——可变性由类型表达。

切片 []T

切片是 Zig 的序列视图,携带起始地址和长度,索引访问做边界检查。

const std = @import("std");

fn sum(nums: []const i32) i32 {
    var total: i32 = 0;
    for (nums) |n| total += n;
    return total;
}

test "slice basics" {
    var array = [_]i32{ 10, 20, 30, 40, 50 };
    const slice: []i32 = array[1..4];

    try std.testing.expect(slice.len == 3);
    try std.testing.expect(slice[0] == 20);

    slice[1] = 99;
    try std.testing.expect(array[2] == 99);

    try std.testing.expect(sum(&[_]i32{ 1, 2, 3, 4 }) == 10);
}

array[1..4] 是原数组的一段视图,不是复制;修改切片元素会反映到原数组。

const 位置:限制元素还是限制切片本身?

切片声明中 const 的位置决定了限制的对象:

var slice: []i32        // 元素和切片变量都可修改
const slice: []i32      // 切片变量不可改(不能重新赋值),元素可改
var slice: []const i32  // 切片变量可改,元素不可改
const slice: []const i32 // 两者都不可改

const []T 是最少见的——「切片变量锁定为这一份视图」,不关心元素可变性。一个典型场景是 const items = list.items:拿到 items 后不应该换一段内存,但元素本身由容器控制。

const []const T 是「完全不可变视图」——切片句柄不可替换,元素也不可改。常见于结构体中存储的只读数据:

const Result = struct {
    data: const []const u8;  // 既不能改内容,也不能替换为另一段视图
};

[]const T 是最常见的——函数参数用 []const u8 表示「我只读不写也不拥有」,切片变量本身是栈上的副本,改不改都看不到外面。

字符串

Zig 中没有独立的字符串类型——字符串就是 []const u8(只读字节切片)。

test "string as readonly byte slice" {
    const name: []const u8 = "zig";
    try std.testing.expect(name.len == 3);
    try std.testing.expect(name[0] == 'z');
}

哨兵切片与哨兵指针

C 接口常用哨兵值(如 0)标记结尾:

  • [:0]const u8 — 带长度,以 0 结尾的切片
  • [*:0]const u8 — 无长度,以 0 结尾的多项指针

Zig 将哨兵信息写进类型而非隐藏。

切片的底层字段

切片是一个“胖指针“,可直接访问 .ptr.len

test "slice ptr and len" {
    var array = [_]i32{ 10, 20, 30, 40 };
    const slice: []i32 = &array;

    try std.testing.expect(slice.len == 4);
    try std.testing.expect(slice.ptr[0] == 10);
}

.ptr 的类型是 [*]i32,访问时不携带长度信息也不做边界检查。

其他指针类型

数组指针 *[N]T

数组指针指向固定长度数组,长度是类型的一部分:

fn xorBlock(block: *[16]u8, value: u8) void {
    for (block) |*byte| byte.* ^= value;
}

test "array pointer" {
    var arr = [_]u8{ 1, 2, 3, 4 };
    const ptr: *[4]u8 = &arr;
    ptr[1] = 99;
    try std.testing.expect(arr[1] == 99);

    var block = [_]u8{0} ** 16;
    xorBlock(&block, 0xff);
    try std.testing.expect(block[0] == 0xff);
}

*[N]T 的长度在编译期已知;[]T 的长度在运行时可变。

可选指针 ?*T

?*T 允许为 null,常见于查找函数返回“找到了则修改“的语义:

fn findValue(items: []i32, target: i32) ?*i32 {
    for (items) |*item| {
        if (item.* == target) return item;
    }
    return null;
}

test "optional pointer" {
    var data = [_]i32{ 10, 20, 30 };
    if (findValue(&data, 20)) |ptr| ptr.* = 99;
    try std.testing.expect(data[1] == 99);
    try std.testing.expect(findValue(&data, 100) == null);
}

返回 ?*T 时,底层数据的生命周期由调用者保证——数据被释放后指针失效。

多项指针 [*]T

[*]T 指向连续元素但不携带长度。普通代码应优先使用 []T,多项指针主要用于 C 互操作和底层内存操作。

test "many item pointer" {
    var array = [_]i32{ 1, 2, 3, 4 };
    const ptr: [*]i32 = &array;

    try std.testing.expect(ptr[0] == 1);
    const slice = ptr[0..array.len];
    try std.testing.expect(slice.len == 4);
}

Zig 不支持 C 风格的指针算术(ptr + 1)。偏移访问使用 slice[i]ptr[i]

隐式指针强制转换

Zig 支持从更具体的类型向更宽泛的类型自动转换:

源类型目标类型说明
*[N]T[]T
*[N]T[*]T
*[N:s]T[:s]T
*T*const T放弃可变性
[]T[]const T放弃可变性
[:s]T[]T丢弃哨兵信息
*T*anyopaque类型擦除

反方向需要显式操作。

对齐

对齐指值的地址满足特定倍数边界(如 4 字节、16 字节)。正常声明的变量自动满足基本对齐要求。手动指针转换、SIMD 或 MMIO 场景中需要显式处理。

test "aligned value" {
    var value: i32 align(16) = 42;
    const ptr: *align(16) i32 = &value;

    try std.testing.expect(ptr.* == 42);
    try std.testing.expect(@intFromPtr(ptr) % 16 == 0);
}

不能将普通 *i32 当作 *align(16) i32——这等于对编译器做更强的保证。错误的对齐假设可能导致性能下降或未定义行为。

指针转换

@ptrCast

@ptrCast 将一种指针类型转为另一种,前提是底层内存兼容、地址满足目标对齐:

test "ptrCast" {
    var value: u32 = 0x11223344;
    const byte_ptr: *u8 = @ptrCast(&value);
    _ = byte_ptr;
}

@ptrCast 是底层工具,处理字节序列时优先使用更安全的接口。

@intFromPtr / @ptrFromInt

@intFromPtr 将指针转为整数地址;@ptrFromInt 将整数转为指针,仅在裸机、内核、MMIO 等明确知道地址有效的场景下使用:

test "pointer to integer" {
    var value: i32 = 123;
    const addr = @intFromPtr(&value);
    try std.testing.expect(addr != 0);
}

volatile 指针

volatile 表示该地址的读写具有外部可观察语义,编译器不应优化掉这些访问。用于内存映射寄存器(MMIO)和硬件设备访问。

const UART_DR: *volatile u32 = @ptrFromInt(0x4000_1000);

test "volatile pointer" {
    _ = UART_DR;
}

volatile 不等于线程安全或并发同步。线程同步应使用锁或原子操作。

@fieldParentPtr:从字段指针反推结构体

@fieldParentPtr 从某个字段的指针反推出整个结构体对象的指针,典型场景是侵入式链表——遍历时只拿到节点字段的指针,但需要访问包含它的上层结构体:

const std = @import("std");

const ListNode = struct {
    next: ?*ListNode,
};

const Task = struct {
    node: ListNode,  // 嵌入链表节点
    name: []const u8,
    priority: u32,
};

fn taskFromNode(node_ptr: *ListNode) *Task {
    return @fieldParentPtr("node", node_ptr);
}

test "fieldParentPtr" {
    var task_a = Task{ .node = .{ .next = null }, .name = "build", .priority = 1 };
    var task_b = Task{ .node = .{ .next = null }, .name = "test", .priority = 2 };

    task_a.node.next = &task_b.node;

    // 遍历链表时,只拿到 ListNode 指针,需要反推出 Task
    var it: ?*ListNode = &task_a.node;
    while (it) |node_ptr| : (it = node_ptr.next) {
        const task = taskFromNode(node_ptr);
        std.debug.print("{s} (priority={})\n", .{ task.name, task.priority });
    }
}

taskFromNode 接收的是 *ListNode,无法直接访问 Task 的其他字段。@fieldParentPtr("node", node_ptr) 根据 node 字段在 Task 中的偏移量反推出 Task 指针。链表遍历代码只持有 ListNode,但通过它就能拿到完整任务信息。

内存管理模型

Zig 没有垃圾回收器,没有借用检查器。内存管理的核心原则只有一条:需要分配内存的函数,显式接收 Allocator 参数。谁分配、谁拥有、谁释放——全部由开发者显式决定。

Allocator 接口

std.mem.Allocator 是所有分配器的统一接口,内部是 ptr + vtable(详见接口与设计模式)。核心方法:

方法用途用法
create(T)分配单个 T 并返回 *Tvar p = try a.create(i32)
destroy(ptr)释放 create 返回的指针a.destroy(p)
alloc(T, n)分配 nT 值的空间var buf = try a.alloc(u8, 64)
free(slice)释放 alloc 返回的切片a.free(buf)
realloc(s, n)调整已有切片的大小buf = try a.realloc(buf, 128)

allocfree 配对,createdestroy 配对——混用会导致未定义行为。跨分配器混用(如 Arena 分配后用 page_allocator 释放)同样是未定义行为:不同分配器的内部布局、元数据和释放策略各不相同,常见的后果包括运行时崩溃、堆损坏或静默泄漏。

realloc 用于调整已有切片的大小——分配器会在原地尝试扩容,空间不够时自动分配新内存并复制数据、释放旧区域:

所有权

转移所有权:函数分配,调用者释放

const std = @import("std");

fn createBuffer(allocator: std.mem.Allocator, len: usize) ![]u8 {
    const buffer = try allocator.alloc(u8, len);
    return buffer; // 所有权转移给调用者
}

test "transfer ownership" {
    const a = std.testing.allocator;
    const buf = try createBuffer(a, 128);
    defer a.free(buf);
}

createBuffer 分配并返回内存——调用者接收所有权,负责释放。

借用:只读视图不拥有

fn countSpaces(text: []const u8) usize {
    var count: usize = 0;
    for (text) |ch| {
        if (ch == ' ') count += 1;
    }
    return count;
}

[]const u8 表示「借用一段只读数据」,不拥有、不释放。

栈 vs 堆

栈变量随作用域自动回收,不需要 allocator:

var value: i32 = 42; // 栈上

堆内存通过 allocator 申请,生命周期可超出作用域,必须手动释放:

const a = std.testing.allocator;
const ptr = try a.create(i32); // 堆上
defer a.destroy(ptr);

能用栈时优先用栈——需要动态大小或跨作用域生命周期时再引入堆分配。

常用分配器

Zig 0.16 中,main 函数通过 std.process.Init 直接提供 gpaiogpa 实际上是一个 GeneralPurposeAllocator,内部组合了多种分配策略,适合作为程序的通用分配器:

pub fn main(init: std.process.Init) !void {
    const gpa = init.gpa;
    const io = init.io;
    // ...
}

std.testing.allocator

测试专用,自带泄漏检测。每个 test 块结束时自动检查,发现泄漏则测试失败:

test "testing allocator" {
    const a = std.testing.allocator;
    const buf = try a.alloc(u8, 32);
    defer a.free(buf);
}

std.heap.ArenaAllocator

批量分配,统一释放。适合阶段性对象(解析配置、构造 AST、单次请求):

var arena = std.heap.ArenaAllocator.init(std.heap.page_allocator);
defer arena.deinit();
const a = arena.allocator();

const first = try a.alloc(u8, 10);
const second = try a.alloc(u8, 20);
// 不需要逐项 free——arena.deinit() 统一回收

0.16 中 ArenaAllocator 已是 lock-free 且线程安全,无需额外包装。代价是中间无法回收单个对象,arena 生命周期过长可能退化为慢性泄漏。

std.heap.FixedBufferAllocator

在已有内存块上分配,不向系统扩张。适合已知大小上限或嵌入式场景:

var buf: [4096]u8 = undefined;
var fba = std.heap.FixedBufferAllocator.init(&buf);
const a = fba.allocator();

const slice = try a.alloc(u8, 256); // 从 buf 中分配

超量分配直接报错——「宁可早点失败,不无限增长」。

std.heap.DebugAllocator

任何程序中启用泄漏检测和双重释放检测。非测试环境下最实用的调试工具:

var debug_alloc: std.heap.DebugAllocator(.{}) = .init;
const a = debug_alloc.allocator();

const buf = try a.alloc(u8, 1024);
a.free(buf);

_ = try a.alloc(u8, 512); // 故意不释放

const check = debug_alloc.deinit(); // 打印泄漏回溯到 stderr
if (check == .leak) @panic("memory leak");

std.testing.allocator 底层就是 DebugAllocator

std.heap.page_allocator

直接向操作系统申请内存,常用作 Arena 或 DebugAllocator 的后端:

const a = std.heap.page_allocator;
const buf = try a.alloc(u8, 4096);
defer a.free(buf);

资源清理:defererrdefer

正常路径

const buf = try a.alloc(u8, 64);
defer a.free(buf);
// 函数结束时 buf 自动释放

半初始化资源清理

多次分配时,任何一次失败都必须回收已分配的资源。errdefer 只在函数以错误返回时执行:

fn makePair(a: std.mem.Allocator) !struct { x: []u8, y: []u8 } {
    const x = try a.alloc(u8, 8);
    errdefer a.free(x); // 后续失败时回收 x

    const y = try a.alloc(u8, 16);
    errdefer a.free(y); // 后续失败时回收 y

    return .{ .x = x, .y = y };
}

test "makePair" {
    const a = std.testing.allocator;
    const pair = try makePair(a);
    defer a.free(pair.x);
    defer a.free(pair.y);
}

模式:每次成功分配后紧跟 errdefer。成功返回时 errdefer 不执行,失败时按 LIFO 逆序回收。多个 defer / errdefer 混用时,执行顺序也是 LIFO——最后注册的最先执行。

实践:如何保证 Allocator 使用正确

跨分配器混用的根因通常是生命周期不清。掌握 defer/errdefer 之后,以下是保证 Allocator 使用正确的几种实用模式。

始终在同一函数内分配并释放——分配和释放距离越近,越难出错。defer 天然支撑这个模式:

fn process(allocator: std.mem.Allocator) !void {
    const buf = try allocator.alloc(u8, 64);
    defer allocator.free(buf);
}

批量对象用 Arena——整个阶段用一个 Arena 分配,只需一次 deinit,不存在「该用哪个 allocator 释放」的问题。解析器、请求处理器、构建 AST 都是典型场景:

var arena = std.heap.ArenaAllocator.init(std.heap.page_allocator);
defer arena.deinit();
const a = arena.allocator();

const config = try parseConfig(a, path);   // 内部可能频繁 alloc
const report = try generateReport(a, config);
// defer arena.deinit() 统一回收,无需逐项 free

转移所有权时从函数名上区分——dupetoOwnedcreate 等前缀表明返回的是新分配的数据,调用者负责释放;trimeqlcount 不分配:

const owned = try allocator.dupe(u8, slice);  // 调用者必须 free
const view = std.mem.trim(u8, slice, " ");    // 借用视图,无须释放

测试用 std.testing.allocator——每个 test 结束自动扫描泄漏,不正确的 allocator 使用直接测试失败。

这些模式的核心思路相同:让 allocator 的责任边界在代码中是可见的——分配和释放在同一作用域、用 Arena 减少释放点、用命名传达所有权。

0.16 容器与 Allocator

0.16 中 ArrayList 和大部分容器采用非托管设计——内部不存 allocator,每个需要分配的方法都显式传入:

test "ArrayList in 0.16" {
    const a = std.testing.allocator;
    var list: std.ArrayList(u32) = .empty;       // 零初始化,无需 allocator
    defer list.deinit(a);                         // 释放时传入

    try list.append(a, 42);                       // 每个操作传 allocator
    try list.appendSlice(a, &.{ 10, 20, 30 });

    try std.testing.expectEqual(@as(usize, 4), list.items.len);
}

这个设计与 allocator 显式传递一脉相承:容器的内存策略完全由调用方控制,不会有隐藏分配。

HashMap 系列中,AutoHashMapStringHashMap 仍是托管类型(结构体内存 allocator),这是为了保持 key/value 查询 API 的简洁性。详见常用标准库模块详解

要点

  • 显式传递 allocator——不依赖全局状态,分配策略由调用方决定
  • 所有权清楚——函数分配 → 调用者释放;接收 []const T → 只借用
  • errdefer 是安全网——半初始化资源必须回收
  • 能用栈先用栈——堆分配引入生命周期和释放责任
  • 选对分配器——测试用 testing.allocator,批量对象用 Arena,调试用 DebugAllocator
  • 0.16 容器不存 allocator——.empty 初始化,方法传 allocator

相关阅读接口与设计模式指针、切片与对齐常用标准库模块详解

接口、组合与设计模式

在 Zig 中抽象一组行为时,选择取决于两个维度:编译期还是运行时?封闭集合还是开放集合?

三种方案按推荐优先级:

方案适用场景成本与特点
泛型 / anytype编译期已知类型零运行时开销
union(enum)封闭变体集合编译器穷尽检查
VTable / *anyopaque + 函数指针运行时动态替换实现最灵活,也最复杂

泛型:anytype

具体类型在编译期已知时,泛型是默认首选。

const std = @import("std");

fn writeLine(writer: anytype, line: []const u8) !void {
    try writer.writeAll(line);
    try writer.writeAll("\n");
}

test "泛型 writeLine" {
    var buf: [64]u8 = undefined;
    var writer: std.Io.Writer = .fixed(&buf);

    writeLine(writer, "hello") catch unreachable;
    writeLine(writer, "world") catch unreachable;

    try std.testing.expectEqualStrings("hello\nworld\n", writer.buffered());
}

函数不要求提前定义统一接口类型,只要求传入对象具备 writeAll 方法。编译器在实例化时检查约束。

优点:无运行时分发开销、编译期类型检查、代码简洁。

局限:不能把不同实现放进同一个运行时容器,不能在运行时切换实现类型。

Tagged Union:union(enum)

实现集合有限且封闭时,union(enum) 比 VTable 更清楚。

const std = @import("std");

const Output = union(enum) {
    buffer: *std.ArrayList(u8),
    stderr,

    fn write(self: Output, msg: []const u8) !void {
        switch (self) {
            .buffer => |list| try list.appendSlice(msg),
            .stderr => std.debug.print("{s}", .{msg}),
        }
    }
};

test "union 分发" {
    var list = std.ArrayList(u8).init(std.testing.allocator);
    defer list.deinit();

    const out = Output{ .buffer = &list };
    try out.write("hello from union");

    try std.testing.expectEqualStrings("hello from union", list.items);
}

优势:分支穷尽检查、结构明确、易阅读调试、无需维护函数指针表。

适用场景:AST 节点、命令类型、有限状态机、项目内部固定的几种策略。

VTable:*anyopaque + 函数指针

VTable 是开放集合与运行时抽象的工具,核心三步:类型擦除*anyopaque)→ 运行时分发(函数指针)→ 类型恢复@ptrCast(@alignCast(...)),将 *anyopaque 还原为具体类型)。关于指针转换的安全前提,见指针、切片与对齐

只有在需要以下能力时才引入:

  • 运行时动态替换实现
  • 擦除具体类型,将不同实现存入统一容器
  • 跨模块边界暴露稳定的运行时接口
  • 插件式架构
const std = @import("std");

const Writer = struct {
    ptr: *anyopaque,
    vtable: *const VTable,

    const VTable = struct {
        write: *const fn (ptr: *anyopaque, data: []const u8) anyerror!void,
    };
    pub fn write(self: Writer, data: []const u8) !void {
        try self.vtable.write(self.ptr, data);
    }
};

// 实现一:写入 ArrayList
const Buf = struct {
    list: *std.ArrayList(u8),
    fn write(ptr: *anyopaque, data: []const u8) anyerror!void {
        const self: *Buf = @ptrCast(@alignCast(ptr));
        try self.list.appendSlice(data);
    }
    const vtable = Writer.VTable{ .write = write };
    pub fn writer(self: *Buf) Writer {
        return .{ .ptr = self, .vtable = &vtable };
    }
};

// 实现二:只计数,不存储
const Count = struct {
    n: usize = 0,
    fn write(ptr: *anyopaque, data: []const u8) anyerror!void {
        const self: *Count = @ptrCast(@alignCast(ptr));
        self.n += data.len;
    }
    const vtable = Writer.VTable{ .write = write };
    pub fn writer(self: *Count) Writer {
        return .{ .ptr = self, .vtable = &vtable };
    }
};

test "VTable 多实现" {
    var list = std.ArrayList(u8).init(std.testing.allocator);
    defer list.deinit();

    var buf = Buf{ .list = &list };
    var cnt = Count{};

    // 同一个 Writer 类型,赋值为不同实现
    var w: Writer = buf.writer();
    try w.write("hello");       // 写入 list
    w = cnt.writer();
    try w.write("discarded");   // 只计数,不存储

    try std.testing.expectEqualStrings("hello", list.items);
    try std.testing.expectEqual(@as(usize, 9), cnt.n);
}

BufCount 是两个不同实现,但 var w: Writer 可以先后指向两者——这就是 VTable 解决的核心问题:在运行时替换实现,无需修改调用代码。

注意:VTable 接口的定义(Writer 的 VTable 和 write 方法)只在声明接口时写一次。实现侧的 const vtable = ...pub fn writer(...) 是机械的固定模式。工程中标准库已经把最常见接口(AllocatorIo.Writer/Reader)给出了成品,大多数场景下是实现既有接口而非创建新 VTable。

何时避免 VTable

以下场景通常不需要运行时接口:

  • 只有两三个固定实现
  • 调用点具体类型已知
  • 只是想减少重复函数,并非需要运行时多态
  • 项目规模小,抽象边界不稳定
  • 仅仅因为“别的语言先定义接口“而引入

这类场景引入 VTable 只会增加样板代码、复杂调试路径和模糊的生命周期边界。

常见陷阱

  1. 生命周期不清ptr: *anyopaque 指向的对象由谁拥有、谁负责释放?接口值是否可能比底层对象活得更久?
  2. 类型恢复写错@ptrCast(@alignCast(ptr)) 恢复时,类型与假设不一致会导致未定义行为。
  3. 过度抽象 — 允许运行时多态不代表应该使用。
  4. 错误边界过宽 — 所有函数返回 anyerror 让接口语义模糊。
  5. 把泛型问题当成 VTable 问题 — 很多场景一个 anytype 函数就足够。

标准库中的 VTable

std.mem.Allocatorstd.Io.Writer 是 Zig 标准库中两个最核心的 VTable 实例。它们的实现模式和前面的 Writer 完全一致,但规模更大、更工程化。

std.mem.Allocator

Allocator 的结构与上面的 Writer 一致:

// lib/std/mem/Allocator.zig(简化)
ptr: *anyopaque,
vtable: *const VTable,

pub const VTable = struct {
    alloc: *const fn (*anyopaque, len: usize, alignment: Alignment, ret_addr: usize) ?[*]u8,
    resize: *const fn (*anyopaque, memory: []u8, alignment: Alignment, new_len: usize, ret_addr: usize) bool,
    remap: *const fn (*anyopaque, memory: []u8, alignment: Alignment, new_len: usize, ret_addr: usize) ?[*]u8,
    free: *const fn (*anyopaque, memory: []u8, alignment: Alignment, ret_addr: usize) void,
};

具体实现(如 FixedBufferAllocator)通过 allocator() 方法返回 Allocator,与前面 BufferWriter.writer() 的模式一致。

std.Io.Writer

std.Io.Writer 也是 VTable 结构,增加了内置缓冲区:

// lib/std/Io/Writer.zig(简化)
vtable: *const VTable,
buffer: []u8,
end: usize = 0,

组合比继承更重要

在 Zig 中,组合比模拟继承体系更自然。依赖关系、模块边界和生命周期通过结构体字段显式表达:

const Service = struct {
    allocator: std.mem.Allocator,
    io: std.Io,

    pub fn process(self: *Service, path: []const u8) !void {
        const file = try std.Io.Dir.cwd().openFile(self.io, path, .{});
        defer file.close(self.io);

        var buf: [4096]u8 = undefined;
        var reader = file.reader(self.io, &buf);
        const content = try reader.interface.allocRemaining(self.allocator, .limited(1024 * 1024));
        defer self.allocator.free(content);

        // 业务逻辑...
    }
};

这里的 Service 不“继承“任何父类型,但通过持有 allocatorio 两个字段,自然获得了内存管理和文件 I/O 的能力。这与 VTable 模式互补:组合定义依赖关系,VTable 在需要运行时替换时才引入。

小结

  • 泛型 / anytype — 默认首选,编译期已知类型,零运行时开销。
  • union(enum) — 封闭变体集合,编译器穷尽检查。
  • VTable — 开放运行时抽象,最灵活也最复杂。std.mem.Allocatorstd.Io.Writer 是成熟范例。

区分清楚三种方案的适用边界,就解决了大多数接口设计问题。


相关阅读与 C 语言的互操作性

std.Io 接口详解

版本说明

本章基于 Zig 0.16 的 std.Io 接口编写。std.Io 已可用于常见场景,但后续版本仍可能继续调整细节。

std.Io 的位置

std.Io 是 Zig 0.16 中统一的 I/O 与并发入口。文件系统、网络、时间、任务调度和一部分同步能力都围绕 Io 展开。

与旧接口相比,最直接的变化是:大多数 I/O 操作都显式接收一个 io: std.Io 参数。

这带来两点变化:

  • I/O 依赖变成显式输入,和 Allocator 的传递方式一致
  • 同一套业务代码可以运行在不同 Io 实现之上

对大多数代码,首先需要建立的直觉只有一个:文件、Reader、Writer、异步任务,都从 Io 出发。

获取 Io 实例

常见来源有三种:测试中的 std.testing.iostd.process.Init 提供的 init.io、手动构造的 std.Io.Threaded

测试代码中的 std.testing.io

const std = @import("std");

test "use testing io" {
    const io = std.testing.io;
    _ = io;
}

main(init: std.process.Init) 中的 init.io

const std = @import("std");

pub fn main(init: std.process.Init) !void {
    const io = init.io;
    const gpa = init.gpa;
    _ = io;
    _ = gpa;
}

这是 0.16 中最常见的入口写法。

手动创建 std.Io.Threaded

const std = @import("std");
const Io = std.Io;

pub fn main() !void {
    var threaded: Io.Threaded = .init_single_threaded;
    const io = threaded.io();
    _ = io;
}

std.Io.Threaded 是当前最常见的实现。手动创建通常用于需要明确控制运行方式的场景。

文件与目录操作

文件操作从 std.Io.Dir 开始。最常用的入口是 Io.Dir.cwd()

打开、创建、关闭

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;
    const cwd = Io.Dir.cwd();

    const input = try cwd.openFile(io, "input.txt", .{});
    defer input.close(io);

    const output = try cwd.createFile(io, "output.txt", .{});
    defer output.close(io);
}

迁移时最容易注意到的变化是:

  • 旧写法:std.fs.cwd().openFile(path, .{})
  • 新写法:std.Io.Dir.cwd().openFile(io, path, .{})

openFile 的第三个参数是 OpenFlags,常用选项:

标志作用
.mode = .read_only只读(默认)
.mode = .write_only只写
.mode = .read_write读写

createFile 默认只写,加 .read = true 可同时开放读取。

直接写入整个字节切片

整块写入时,可以直接使用 File.writeStreamingAll

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    const file = try Io.Dir.cwd().createFile(io, "output.txt", .{});
    defer file.close(io);

    try file.writeStreamingAll(io, "hello from zig\n");
}

这种写法适合一次性写入现成的数据。需要缓冲、格式化输出或分步写入时,使用 File.Writer

整体读取与流式读取

读取通常分成两类:

  • 文件内容整体进入内存
  • 通过 Reader 逐步消费数据

读取整个文件

已知大小上限时,readFileAlloc 更直接:

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;
    const gpa = init.gpa;

    const contents = try Io.Dir.cwd().readFileAlloc(io, "input.txt", gpa, .limited(1024 * 1024));
    defer gpa.free(contents);

    std.debug.print("{s}\n", .{contents});
}

这适合小文件或有明确上限的输入。上限被超过时会返回 error.StreamTooLong

File.Reader 流式读取

File.Reader 适合按行、按块或按结构读取。

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    const file = try Io.Dir.cwd().openFile(io, "input.txt", .{});
    defer file.close(io);

    var buf: [1024]u8 = undefined;
    var file_reader: Io.File.Reader = file.reader(io, &buf);

    while (file_reader.interface.takeDelimiter('\n')) |maybe_line| {
        const line = maybe_line orelse break;
        std.debug.print("{s}\n", .{line});
    } else |err| switch (err) {
        error.ReadFailed => return file_reader.err.?,
        error.StreamTooLong => return err,
    }
}

这里有两个要点:

  • file.reader(io, &buf) 创建具体的 File.Reader
  • 通用读取操作通过 file_reader.interface 完成

不复制 interface

File.Reader 持有具体状态,interface 只是它暴露出来的通用读接口。应直接使用,或传递指针:

const reader = &file_reader.interface;
_ = reader;

不要把 interface 复制到另一个值里再长期使用。

行长未知时的读取方式

固定缓冲区适合常规行读取。行长无法预估时,可以把数据流式写入 Io.Writer.Allocating

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;
    const gpa = init.gpa;

    const file = try Io.Dir.cwd().openFile(io, "input.txt", .{});
    defer file.close(io);

    var read_buf: [64]u8 = undefined;
    var file_reader: Io.File.Reader = file.reader(io, &read_buf);

    var line: Io.Writer.Allocating = .init(gpa);
    defer line.deinit();

    while (file_reader.interface.streamDelimiter(&line.writer, '\n')) |_| {
        file_reader.interface.toss(1);
        std.debug.print("{s}\n", .{line.written()});
        line.clearRetainingCapacity();
    } else |err| switch (err) {
        error.ReadFailed, error.WriteFailed => return file_reader.err.?,
        error.EndOfStream => {
            if (line.written().len != 0) {
                std.debug.print("{s}\n", .{line.written()});
            }
        },
        else => return err,
    }
}

更细粒度的读取

Io.Reader 还提供字节、整数和固定长度切片等读取方式:

const byte = try file_reader.interface.takeByte();
const value = try file_reader.interface.takeInt(u32, .little);
const chunk = try file_reader.interface.take(16);

_ = byte;
_ = value;
_ = chunk;

使用 File.Writer

需要缓冲、格式化或多次写入时,使用 File.Writer

缓冲 IO 与 flush

Zig 的 Reader 和 Writer 要求显式传入缓冲区——与 C 的 FILE*(隐式分配内部缓冲区)不同,程序员完全控制缓冲区的大小和生命周期,符合“无隐藏分配“原则。数据先写入缓冲区,调用 flush() 后才真正落到底层 IO 资源。忘记 flush() 最常见的结果是输出不完整。

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    const file = try Io.Dir.cwd().createFile(io, "output.txt", .{});
    defer file.close(io);

    var buf: [1024]u8 = undefined;
    var file_writer: Io.File.Writer = file.writer(io, &buf);

    try file_writer.interface.writeAll("hello\n");
    try file_writer.interface.print("count = {d}\n", .{42});
    try file_writer.interface.writeInt(u32, 1234, .little);
    try file_writer.interface.flush();
}

写入内存缓冲区

写入内存而不是文件时,可以直接使用 Io.Writer.fixed

const std = @import("std");

pub fn main() !void {
    var buf: [128]u8 = undefined;
    var writer: std.Io.Writer = .fixed(&buf);

    try writer.writeAll("hello");
    try writer.writeByte('\n');
    try writer.print("value = {d}\n", .{42});

    const written = writer.buffered();
    std.debug.print("{s}", .{written});
}

标准输入输出

操作系统为每个进程创建三个标准通道:stdin(输入)、stdout(输出)、stderr(错误)。Zig 通过 std.Io.File 暴露它们:

const std = @import("std");
const Io = std.Io;

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    // stdout:正常输出
    var out_buf: [1024]u8 = undefined;
    var stdout_writer = Io.File.stdout().writer(io, &out_buf);
    try stdout_writer.interface.writeAll("hello stdout\n");
    try stdout_writer.interface.flush();

    // stderr:错误和警告
    var err_buf: [1024]u8 = undefined;
    var stderr_writer = Io.File.stderr().writer(io, &err_buf);
    try stderr_writer.interface.writeAll("error: something went wrong\n");
    try stderr_writer.interface.flush();

    // stdin:读取用户输入(阻塞直到收到换行)
    var in_buf: [1024]u8 = undefined;
    var stdin_reader = Io.File.stdin().reader(io, &in_buf);
    const name = try stdin_reader.interface.takeDelimiter('\n');
    std.debug.print("you typed: {s}\n", .{name});
}

stdout 和 stderr 都用于输出,区别在于约定:正常输出走 stdout,错误和警告走 stderr(终端中通常以不同颜色显示)。

ReadFailedWriteFailed.err

Io.ReaderIo.Writer 的通用接口会把底层错误折叠成较高层的错误:

  • 读取侧常见为 error.ReadFailed
  • 写入侧常见为 error.WriteFailed

具体错误保存在具体实现的 .err 字段里。

这意味着分层代码通常有一个稳定模式:

  • 只接收 *Io.Reader / *Io.Writer 的下层函数,直接传播高层错误
  • 持有 File.Reader / File.Writer 的调用点,负责从 .err 取出具体错误
const std = @import("std");
const Io = std.Io;

fn consume(reader: *Io.Reader) !void {
    _ = try reader.takeByte();
}

fn run(io: Io, file: Io.File) !void {
    var buf: [256]u8 = undefined;
    var file_reader = file.reader(io, &buf);

    consume(&file_reader.interface) catch |err| switch (err) {
        error.ReadFailed => return file_reader.err.?,
        else => |e| return e,
    };
}

这个模式在异步场景里同样重要,因为 error.Canceled 也需要通过具体实现继续向上传递。

异步任务与 Future

std.Io 不只是文件接口,也提供任务启动、等待和取消能力。

io.async

io.async 启动一个任务,返回 Future

const std = @import("std");
const Io = std.Io;

fn save(io: Io, file_name: []const u8, data: []const u8) !Io.File {
    const file = try Io.Dir.cwd().createFile(io, file_name, .{});
    errdefer file.close(io);
    try file.writeStreamingAll(io, data);
    return file;
}

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    var future = io.async(save, .{ io, "output.txt", "hello\n" });
    defer if (future.cancel(io)) |file| file.close(io) else |_| {};

    const file = try future.await(io);
    file.close(io);
}

awaitcancel

  • await 等待任务完成并取得结果
  • cancel 请求取消,并等待任务结束
  • 任务已经完成时,cancel 的行为与 await 等价

最常见的资源管理写法是:启动任务后立刻 defer future.cancel(io)

这样做的原因不是语法习惯,而是生命周期完整:如果后续流程提前返回,仍然有人回收 Future 和任务返回值。

io.concurrent

io.async 表示异步执行;io.concurrent 额外要求运行时为任务分配真实的并发执行资源。并发不可用时会返回 error.ConcurrencyUnavailable

var future = try io.concurrent(save, .{ io, "output.txt", "hello\n" });
defer if (future.cancel(io)) |file| file.close(io) else |_| {};

任务协调工具

std.Io 里常见的多任务协调工具有三种:

Io.Queue(T)

多生产者、多消费者 FIFO 队列,适合生产者-消费者模型。

  • putOne(io, value) 写入元素
  • getOne(io) 读取元素
  • close(io) 关闭队列,让等待中的消费者最终退出

Io.Group

适合管理一组返回 void 或可取消 void 的任务。

  • group.async(io, f, args) 把任务加入组
  • group.await(io) 等待整组完成
  • group.cancel(io) 取消整组任务

Io.Select(U)

适合等待多种不同结果类型的任务,把结果统一到一个 tagged union 中。

  • select.async(tag, f, args) 提交任务
  • select.next(io) 取得下一个完成的结果
  • select.cancel(io)select.cancelDiscard(io) 停止剩余任务

这三者的关系可以概括为:

  • 队列解决数据流转
  • Group 解决一组同类任务的收尾
  • Select 解决多路结果竞争

时间相关能力

std.Io 也提供时间接口,常见类型包括:

  • std.Io.Clock
  • std.Io.Timestamp
  • std.Io.Duration

例如:

const std = @import("std");

pub fn main(init: std.process.Init) !void {
    const io = init.io;

    const start = std.Io.Timestamp.now(io, .awake);
    const end = std.Io.Timestamp.now(io, .awake);
    const elapsed = start.durationTo(end);

    _ = elapsed;
}

对文件 I/O 教程来说,这一组接口只需要先把握两点:

  • 时间能力也依赖 io
  • 异步任务中的休眠、等待和取消,与普通文件 I/O 使用同一套运行时语义

一个最小完整例子

下面的例子把本章最常见的几件事放在一起:打开文件、按行读取、格式化写入、刷新缓冲区。

const std = @import("std");
const Io = std.Io;

fn processFile(io: Io, input_path: []const u8, output_path: []const u8) !void {
    const input = try Io.Dir.cwd().openFile(io, input_path, .{});
    defer input.close(io);

    const output = try Io.Dir.cwd().createFile(io, output_path, .{});
    defer output.close(io);

    var read_buf: [1024]u8 = undefined;
    var file_reader: Io.File.Reader = input.reader(io, &read_buf);

    var write_buf: [1024]u8 = undefined;
    var file_writer: Io.File.Writer = output.writer(io, &write_buf);

    var line_no: usize = 0;

    while (file_reader.interface.takeDelimiter('\n')) |maybe_line| {
        const line = maybe_line orelse break;
        line_no += 1;
        try file_writer.interface.print("{d}: {s}\n", .{ line_no, line });
    } else |err| switch (err) {
        error.ReadFailed => return file_reader.err.?,
        error.StreamTooLong => return err,
    }

    try file_writer.interface.flush();
}

pub fn main(init: std.process.Init) !void {
    try processFile(init.io, "input.txt", "output.txt");
}

从旧 API 迁移

旧写法新写法
std.fs.cwd()std.Io.Dir.cwd()
cwd.openFile(path, .{})cwd.openFile(io, path, .{})
cwd.createFile(path, .{})cwd.createFile(io, path, .{})
cwd.readFileAlloc(gpa, path, max)cwd.readFileAlloc(io, path, gpa, .limited(max))
file.readToEndAlloc(gpa, max)file.reader(io, &buf).interface.allocRemaining(gpa, .limited(max))
file.writeAll(data)file.writeStreamingAll(io, data)File.Writer
file.close()file.close(io)
std.time.sleep(...)使用 std.Io 的时间与休眠接口

最大的迁移变化不是某一个函数名,而是:I/O 依赖从隐式环境变成显式参数。

本章小结

std.Io 这一章可以压缩成四个判断:

  1. io 是 0.16 中 I/O 与并发能力的统一入口
  2. 文件操作从 Io.DirIo.File 展开
  3. 流式读写通过 File.Reader / File.Writer 和它们的 interface 完成
  4. 异步任务需要显式等待或取消,不能把 Future 留给隐式清理

相关阅读

参考

与 C 语言的互操作性

Zig 与 C 的互操作核心是 ABI 边界:函数签名、数据布局、字符串表示、所有权责任、构建与链接。真正的难点不在 @cImport 语法本身,而在于确保边界两侧的类型和对齐一致。

四类边界决定了互操作的成败:

  1. 函数调用边界 — Zig ↔ C 的函数调用约定
  2. 数据表示边界 — 基本类型、结构体、指针、字符串在 ABI 上是否匹配
  3. 资源管理边界 — 分配与释放的归属
  4. 构建与链接边界 — 头文件、系统库的路径与链接

ABI 与类型差异

ABI(Application Binary Interface)决定了函数参数如何传递、返回值如何传回、结构体如何布局。Zig 的切片 []T(指针+长度)、可选类型 ?T、错误联合 !T 等在 Zig 内部很有表达力,但跨 ABI 边界时应退回到更基础的表示:裸指针、显式长度、整数错误码、extern struct

跨边界时需明确:

  • 传的是切片还是裸指针?是否需要传长度?
  • 是否要求 NUL 终止?
  • 是否要求 extern struct 保证 C ABI 布局?
  • 错误该转换成什么?

导入 C

@cImport

const c = @cImport({
    @cInclude("stdio.h");
});

pub fn main() void {
    _ = c.printf("hello from C\n");
}

字符串字面量是 *const [N:0]u8,自动强转为 [:0]const u8,NUL 终止,传给 C 是安全的。但运行时构造的 []const u8 并不保证 NUL 终止——这是最常见的坑。

zig translate-c

zig translate-c 将 C 头文件翻译为等价的 Zig 声明,用于了解 C 类型在 Zig 中的对应关系:

zig translate-c point.h

对于 C 端的 typedef struct { float x, y; } Point;,输出大致为:

pub const Point = extern struct { x: f32, y: f32 };
pub extern fn make_point(x: f32, y: f32) Point;

翻译结果是机器生成的参考,不适合直接复制到项目中。

字符串

C 和 Zig 对字符串的表示有本质区别:

C 字符串 (char*)Zig []const u8Zig [:0]const u8
结构裸指针 + '\0' 结尾指针 + 长度指针 + 长度 + 保证 NUL
NUL 终止必须不保证保证
直接传 C✓(通过 .ptr

核心规则:[]const u8 不是合法的 C 字符串。使用 allocator.dupeZ 复制并追加 NUL:

const std = @import("std");

const c = @cImport({
    @cInclude("stdio.h");
});

pub fn main() !void {
    var gpa: std.heap.DebugAllocator(.{}) = .init;
    defer _ = gpa.deinit();
    const allocator = gpa.allocator();

    const zig_path: []const u8 = "example.txt";

    // dupeZ 复制切片并追加 NUL,返回 [:0]u8
    const c_path = try allocator.dupeZ(u8, zig_path);
    defer allocator.free(c_path);

    const file = c.fopen(c_path.ptr, "rb");
    if (file == null) {
        std.debug.print("failed to open file\n", .{});
        return;
    }
    defer _ = c.fclose(file);
}

dupeZ 返回 [:0]u8,编译器层面保证 NUL 终止。非零哨兵值可用 allocator.dupeSentinel(u8, slice, sentinel_value)

资源与所有权

跨语言边界的资源管理遵循三条原则:

  1. 谁分配,谁释放 — Zig 分配 → Zig 释放,C 分配(malloc)→ C 释放(free)。
  2. 不混用分配器 — Zig allocator 和 C allocator 的实现、元数据布局、调试状态都可能不同,混用会导致未定义行为。
  3. 优先使用 C 库提供的构造函数 — 如果 C 库提供了 xxx_create() / xxx_destroy() 等入口,应优先使用它们,因为库作者往往隐含了字段初始化顺序、额外状态位、平台相关设置等约束。手工填结构体字段容易被库内部约定所困。

extern struct

跨 ABI 边界传递或共享布局的结构体应使用 extern struct,保证字段顺序与 C 一致、对齐规则匹配 C ABI:

const std = @import("std");

const Pixel = extern struct {
    r: u8,
    g: u8,
    b: u8,
    a: u8,

    fn isOpaque(self: Pixel) bool {
        return self.a == 0xFF;
    }
};

test "Pixel layout" {
    try std.testing.expectEqual(4, @sizeOf(Pixel));
    try std.testing.expectEqual(0, @offsetOf(Pixel, "r"));
    try std.testing.expectEqual(1, @offsetOf(Pixel, "g"));
    try std.testing.expectEqual(2, @offsetOf(Pixel, "b"));
    try std.testing.expectEqual(3, @offsetOf(Pixel, "a"));

    const px = Pixel{ .r = 255, .g = 128, .b = 0, .a = 255 };
    try std.testing.expect(px.isOpaque());
}

纯 Zig 内部用普通 struct 即可,编译器可自由优化布局。extern struct 仅用于确实要跨 ABI 边界的类型。

导出给 C

export fn 导出 C ABI 兼容的函数。边界上的类型必须收缩到 C 可理解的范围——基本类型、指针、extern struct,不应暴露 []T?T!T 等 Zig 特有类型。传递数组的标准模式是 ptr + len

// mathlib.zig
const std = @import("std");

export fn add(a: c_int, b: c_int) c_int {
    return a + b;
}

export fn sum_array(ptr: [*]const c_int, len: usize) c_int {
    const items = ptr[0..len];
    var total: c_int = 0;
    for (items) |v| total += v;
    return total;
}

对应的 C 头文件:

#ifndef MATHLIB_H
#define MATHLIB_H

#include <stddef.h>

int add(int a, int b);
int sum_array(const int *ptr, size_t len);

#endif

对外 ABI 设计通常比 Zig 内部 API 更朴素——这不是退步,而是边界设计本来就更保守。

回调函数

C 库通过函数指针接受回调时(排序、事件、线程入口等),Zig 侧需声明 callconv(.c)

const std = @import("std");

const c = @cImport({
    @cInclude("stdlib.h");
});

fn compareInts(a: ?*const anyopaque, b: ?*const anyopaque) callconv(.c) c_int {
    const val_a: *const i32 = @ptrCast(@alignCast(a));
    const val_b: *const i32 = @ptrCast(@alignCast(b));
    if (val_a.* < val_b.*) return -1;
    if (val_a.* > val_b.*) return 1;
    return 0;
}

test "qsort callback" {
    var data = [_]i32{ 42, 7, -3, 100, 0 };
    c.qsort(@ptrCast(&data), data.len, @sizeOf(i32), &compareInts);
    try std.testing.expectEqualSlices(i32, &.{ -3, 0, 7, 42, 100 }, &data);
}

关键要素:callconv(.c) 匹配 C 调用约定;?*const anyopaque 对应 const void*,需 @ptrCast(@alignCast(...)) 恢复具体类型;返回 c_int 匹配 C 的 int

构建与链接

build.zig 中链接 C 库:

// build.zig 片段
const exe = b.addExecutable(.{
    .name = "my_app",
    .root_module = b.createModule(.{
        .root_source_file = b.path("src/main.zig"),
        .link_libc = true,
    }),
});

exe.root_module.linkSystemLibrary("z", .{});
exe.root_module.addIncludePath(b.path("vendor/include"));

b.installArtifact(exe);

构建脚本的核心意图只有几类:链接系统库(linkSystemLibrary)、启用 libc(link_libc = true)、添加头文件路径(addIncludePath)、添加 C 源文件(addCSourceFiles)。遇到不确定的写法时,先理解目标再核对本地 Zig 版本的 API。

常见陷阱

  1. []const u8 直接传给 C — 只保证长度,不保证 NUL 终止。
  2. 所有权不清 — 跨语言边界不明确分配/释放责任,导致泄漏或双重释放。
  3. 手工拼 C 对象 — 忽略库的内部约定(字段顺序、状态位、平台设置)。
  4. 把 Zig 类型直接暴露给 C — 导出边界应使用基本类型和 extern struct
  5. 构建失败误判为语法问题 — 先检查头文件是否可见、系统库是否安装、链接路径是否正确。
  6. 认为 c_int/c_long 跨平台一致 — 这些是 ABI 类型,大小随平台变化。

排查顺序:先查边界类型(是否要求 NUL 终止?是否需 extern struct?),再查所有权(谁分配?谁释放?混用了分配器?),再查构建(头文件路径、系统库安装、版本 API 匹配),最后再怀疑 API 细节。

小结

  • C 互操作首先是 ABI 问题:类型匹配、布局一致、调用约定正确。
  • 字符串[]const u8 不等于 C 字符串,[:0]const u8 才是桥梁。dupeZ 是最常用的转换方式。
  • 所有权:谁分配谁释放,不混用分配器,优先使用 C 库的构造/析构函数。
  • extern struct 保证 C ABI 布局,export fn 导出 C 可调用函数,callconv(.c) 让 Zig 函数可作为 C 回调。
  • 构建link_libc = truelinkSystemLibraryaddIncludePath 覆盖大多数场景。
  • 排查:边界类型 → 所有权 → 构建与链接 → API 细节,按此顺序避免方向性错误。

相关阅读:下一章 并发编程概述

并发编程概述

进阶

本章聚焦于 Zig 中基于操作系统线程的并发编程:线程、共享状态、同步原语、原子操作与常见取舍。

Zig 0.16 引入的 std.Io 接口提供了更高层的异步和并发能力(FutureQueueGroupSelect 等),这些内容已在 std.Io 接口详解 中专门讲解。但理解本章的线程模型和同步原语,仍然是正确使用 std.Io 异步能力的基础——std.Io.Threaded 的底层实现正是基于操作系统线程。

三个容易混淆的概念

在进入具体代码之前,必须先分清:异步(asynchrony)并发(concurrency)并行(parallelism)

概念更关注什么一个直观例子
异步顺序是否可以被放宽两个互不依赖的文件保存任务,谁先完成都可以
并发多个任务能否被同时推进服务器同时处理多个客户端请求
并行多个任务是否真的在物理上同时运行多核 CPU 上多个线程同时执行

这三个概念在 std.Io 接口详解 中也会出现,但那里的重点是如何用 Io API 来利用异步和并发;本章的重点则是底层的线程机制和同步工具。

异步:“顺序是否重要”

异步首先讨论的是正确性约束,而不是“有没有多线程”。

如果两个操作只要最终都完成即可,中间顺序并不重要,那么它们就具有异步性。

并发:“系统是否能同时推进多个任务”

并发讨论的是组织方式

即使只有一个 CPU 核心,系统也可以通过任务切换,在时间上交替推进多个任务。这仍然是并发,但不一定是并行。

并行:“硬件层面是否真的同时执行”

并行强调的是物理同时执行。这通常依赖多核 CPU,或者其他底层并行资源。

因此,常见的关系可以这样理解:

  • 并发不一定并行
  • 异步不一定并发
  • 并行通常是实现并发的一种方式

Zig 中并发编程的阅读重点

Zig 在并发上的一个重要特点是:尽量把成本和机制显式化

这意味着在 Zig 中更常直接面对:

  • 线程
  • 条件变量
  • 原子操作
  • 共享数据和生命周期边界

而不是一开始就被隐藏在“自动调度器”或“语言级运行时”之后。

这有两个直接后果:

  1. 能更清楚地看到并发成本和数据边界
  2. 也更需要自己做出正确的设计判断

什么时候需要并发?

不是所有程序都需要并发。

更准确地说,通常在下面这些场景里才真的需要它:

  • 需要同时处理多个任务
  • 存在明显的等待时间,希望程序更有响应性
  • 希望利用多核 CPU 加速独立计算任务
  • 希望把某些后台工作与主流程解耦

常见例子包括:

  • 多客户端服务器
  • 并行数据处理
  • 图像、音频、视频处理
  • 后台日志、监控、缓存刷新

而对于很小的 CLI 工具或纯串行的数据转换脚本,并发往往不是起点。

最基础的并发工具:线程

在 Zig 中,最直接的并发入口通常是 std.Thread

创建线程

const std = @import("std");

fn worker(id: usize) void {
    std.debug.print("worker {} start\n", .{id});
    std.time.sleep(200 * std.time.ns_per_ms);
    std.debug.print("worker {} done\n", .{id});
}

pub fn main() !void {
    const t1 = try std.Thread.spawn(.{}, worker, .{1});
    const t2 = try std.Thread.spawn(.{}, worker, .{2});

    t1.join();
    t2.join();
}

这段代码展示了最基本的线程模型:

  • 主线程创建两个工作线程
  • 每个线程执行自己的任务
  • 主线程通过 join() 等待它们结束

join()detach()

线程创建之后,通常要明确选择如何结束它的生命周期。

join():等待线程完成

适用于:

  • 需要确认工作已经完成
  • 后续逻辑依赖线程结果
  • 希望生命周期最清晰

detach():让线程独立运行

适用于:

  • 不打算等待该线程
  • 它确实是一个后台任务
  • 能保证它不会访问已经释放的资源

注意

大多数教程和普通工程代码里,优先选择 join() 会更安全。detach() 更容易引入生命周期错误,尤其是后台线程引用了栈对象、临时缓冲区或即将销毁的分配器时。

共享状态:为什么需要同步?

一旦多个线程访问同一份数据,就会出现并发编程里最核心的问题:

  • 数据竞争
  • 竞态条件
  • 内存可见性

例如,下面这个“看起来很简单”的计数器递增,在多线程里其实并不安全:

counter += 1;

因为这并不是一个不可分割的操作。它至少包含:

  1. 读取旧值
  2. 计算新值
  3. 写回结果

多个线程交错执行时,最终结果就可能丢更新。

互斥锁:最常见的共享数据保护方式

对于复杂共享数据,最常见的第一选择通常是互斥锁 std.Thread.Mutex

const std = @import("std");

const Counter = struct {
    mutex: std.Thread.Mutex = .{},
    value: usize = 0,

    pub fn increment(self: *Counter) void {
        self.mutex.lock();
        defer self.mutex.unlock();
        self.value += 1;
    }

    pub fn get(self: *Counter) usize {
        self.mutex.lock();
        defer self.mutex.unlock();
        return self.value;
    }
};

fn worker(counter: *Counter) void {
    for (0..1000) |_| {
        counter.increment();
    }
}

pub fn main() !void {
    var counter = Counter{};
    var threads: [4]std.Thread = undefined;

    for (&threads) |*thread| {
        thread.* = try std.Thread.spawn(.{}, worker, .{&counter});
    }

    for (threads) |thread| {
        thread.join();
    }

    std.debug.print("final = {}\n", .{counter.get()});
}

这段代码体现了什么?

  • 锁保护的是共享状态,不是“线程本身”
  • defer 能帮助减少忘记解锁的风险
  • 把锁和数据封装在一起,通常比在外面散落管理更清晰

什么时候优先用锁?

当面对的是:

  • 结构体
  • map / list / 缓冲区
  • 需要多个步骤组成的修改操作
  • 不容易用单个原子变量表达的共享状态

这时,锁往往比“试图全部用原子操作硬拼”更清晰、更可靠。

条件变量:让线程等待“某个条件成立”

有时线程不是要“抢同一把锁”,而是要等待某个状态变化,例如:

  • 队列里终于有数据了
  • 某个后台步骤完成了
  • 生产者已经放入新任务

这时可以使用 std.Thread.Condition

const std = @import("std");

// 这些变量必须声明为模块级(全局),因为 std.Thread.spawn 要求线程函数
// 的签名是固定的(不能捕获局部变量的闭包),所以共享状态只能通过全局变量
// 或显式传入的指针来实现。这里用全局变量是为了让示例尽可能简洁。
var mutex: std.Thread.Mutex = .{};
var cond: std.Thread.Condition = .{};
var ready = false;

fn producer() void {
    std.time.sleep(100 * std.time.ns_per_ms); // 模拟生产耗时
    mutex.lock();
    defer mutex.unlock();

    ready = true;
    cond.signal(); // 通知等待中的消费者
}

fn consumer() void {
    mutex.lock();
    defer mutex.unlock();

    while (!ready) {
        cond.wait(&mutex);
    }

    std.debug.print("consumer: resource is ready\n", .{});
}

pub fn main(_: std.process.Init) !void {
    const producer_thread = try std.Thread.spawn(.{}, producer, .{});
    const consumer_thread = try std.Thread.spawn(.{}, consumer, .{});

    consumer_thread.join();
    producer_thread.join();
}

条件变量的核心模式

  • 等待条件变量时,要和一把互斥锁配合使用
  • 条件检查通常写在 while 循环里,而不是 if
  • 条件变量不是“数据本身”,而是“状态变化的通知机制”

原子操作:适合小而明确的共享状态

如果共享状态非常简单,例如:

  • 计数器
  • 标志位
  • 统计值

那么原子操作往往比锁更轻量。

const std = @import("std");

const AtomicCounter = struct {
    value: std.atomic.Value(usize) = std.atomic.Value(usize).init(0),

    pub fn increment(self: *AtomicCounter) void {
        _ = self.value.fetchAdd(1, .monotonic);
    }

    pub fn get(self: *AtomicCounter) usize {
        return self.value.load(.monotonic);
    }
};

什么时候适合用原子操作?

适合:

  • 单个数值
  • 简单状态位
  • 不需要把多个字段作为一个整体同时维护

不适合:

  • 复杂结构体的一致性维护
  • 多字段必须一起更新的状态
  • 逻辑已经很难一眼看懂的并发代码

注意

如果在写原子代码时已经开始怀疑“这到底是否还容易验证”,那通常就该重新评估,看看是不是应该回到锁。

线程局部变量:避免不必要的共享

并发设计里,一个很重要的思路是:如果能不共享,就尽量不共享。

线程局部变量(threadlocal)正是这个方向的一种工具。

const std = @import("std");

// threadlocal 变量必须声明在模块级。每个线程都会拥有自己独立的一份副本,
// 互不干扰,因此不需要锁保护。
threadlocal var local_counter: usize = 0;

fn worker(id: usize) void {
    for (0..3) |_| {
        local_counter += 1;
        std.debug.print("thread {} local = {}\n", .{ id, local_counter });
    }
}

pub fn main(_: std.process.Init) !void {
    var threads: [3]std.Thread = undefined;

    for (&threads, 0..) |*t, i| {
        t.* = try std.Thread.spawn(.{}, worker, .{i});
    }

    for (threads) |t| {
        t.join();
    }

    // 主线程也有自己的 local_counter 副本,它从未被修改过,仍然是 0
    std.debug.print("main thread local = {}\n", .{local_counter});
}

运行后会看到,每个线程的 local_counter 都从 0 独立递增到 3,互不影响。主线程的副本始终为 0。

每个线程都会拥有自己独立的一份 local_counter,因此它不需要互斥锁保护。

它适合什么场景?

  • 每个线程自己的缓存区
  • 线程自己的临时状态
  • 每个线程独立的统计信息

它不适合什么场景?

  • 多个线程必须共享和协调的数据
  • 需要全局一致性的计数或状态

该选线程、锁、原子,还是条件变量?

可以先用下面这张表建立直觉:

场景更常见的起点
把几个独立计算任务分给多个 CPU 核心线程
多线程共享复杂结构体互斥锁
只维护一个计数器或标志位原子操作
一个线程等待另一个线程准备好数据条件变量
每个线程维护自己的临时状态threadlocal

这张表不是绝对规则,但很适合作为第一判断。

线程模型与 std.Io 的关系

std.Io 接口详解 中,我们介绍了 std.Io 的异步和并发能力。那么,本章讲的线程模型与 std.Io 是什么关系?

std.Io.Threaded 的底层就是线程

目前唯一完整可用的 Io 实现 std.Io.Threaded,底层使用的就是操作系统线程。当你调用 io.async() 时,Threaded 实现会将任务分配给线程池中的线程执行。

这意味着:

  • 理解线程、锁、原子操作是理解 std.Io 行为的基础
  • 本章讨论的数据竞争、竞态条件等问题,在 std.Io 的异步上下文中同样存在
  • 本章的“常见坑“(锁持有时间过长、资源生命周期等)同样适用于使用 std.Io 的代码

关于 std.Io 如何实现异步和并发操作,见std.Io 接口详解章节。

注意std.Io 的异步任务应避免使用 threadlocal。不同 Io 实现可能使用不同的并发单元,threadlocal 代码在未来切换到非线程实现时可能行为异常。

并发编程最常见的几个坑

1. 把“睡眠等待”当同步机制

std.time.sleep() 可以模拟场景,但不能代替真正的同步原语。

如果一个线程要等待另一个线程完成工作,应优先考虑:

  • join()
  • 条件变量
  • 队列 / 通知机制

而不是“睡一会儿大概就好了”。

2. 锁持有时间过长

如果线程拿着锁做了太多事:

  • 其他线程会被阻塞更久
  • 争用变多
  • 程序更容易出现性能问题或死锁风险

经验上,锁保护的临界区越小越好。

3. 分不清共享数据和只读数据

如果数据根本不需要修改,或者天然可以复制给线程,那么就不该急着把它做成共享可变状态。

4. detach() 线程访问了已经失效的资源

这是非常常见的生命周期错误来源。后台线程引用:

  • 栈变量
  • 临时切片
  • 已经 deinit() 的分配器
  • 已关闭文件/连接

都可能导致非常难查的问题。

5. 过早使用“更高级”的并发技巧

在还没完全掌握线程、锁、条件变量之前,过早上复杂 lock-free 结构、复杂原子协议,通常只会让代码更难验证。

关于线程池(Thread Pool)

可能会好奇标准库是否提供了线程池。在当前的 0.16-dev 版本中,std.Thread 不包含通用的线程池实现。早期版本曾经存在过 std.Thread.Pool,但在标准库重构过程中已被移除。

如果项目需要线程池模式,目前的常见做法是:

  • 自己维护一组工作线程 + 任务队列
  • 使用社区提供的第三方库
  • 使用 std.Io 的异步能力(io.asyncGroup 等)来获得类似效果,详见 std.Io 接口详解

对于学习目的,手动管理一组线程加上条件变量通知,恰好是理解线程池内部工作原理的好练习。

关于死锁

死锁的经典条件:互斥(需要独占资源)+ 持有并等待(持有一个锁的同时等待另一个锁)+ 不可抢占 + 循环等待。避免方法:锁的获取顺序在所有代码路径中保持一致;避免嵌套锁;使用 tryLock + 短暂超时而非无限等待。

本章小结

本章的核心判断:

  • 并发、并行、异步不是一回事
  • Zig 中更常从显式线程模型开始理解并发
  • 复杂共享状态优先考虑锁
  • 简单计数和标志位可以考虑原子操作
  • 能不共享,就尽量不共享

如果已经能看清这些边界,那么在后续阅读 std.Io 接口、测试、构建和网络章节时,就更不容易把“并发写法“误当成“只是语法技巧“。

相关阅读

测试与验证:从单元测试到基准测量

进阶:这一章是第二部分中非常重要的一环。
到了这里,测试已经不再只是“写完代码后顺手检查一下”,而是设计 API、验证错误路径、约束资源释放行为的基本工具。

进阶

  • 理解 Zig 中 test 块的基本使用方式
  • 学会用 std.testing 编写清晰的断言
  • 知道如何测试错误路径、边界条件和内存释放责任
  • 了解嵌套测试、测试过滤和简单基准测量的定位
  • 区分“稳定的测试主线”和“版本更敏感的构建/集成细节”

相关阅读

  • 如果还没有建立 std.testing 的模块入口直觉,可以先阅读常用标准库模块详解中的相关小节,再回到本章系统学习测试方法。
  • 如果刚读完内存管理模型,可以重点关注本章中“错误路径”和“资源释放责任”的测试方式,这两章是直接连在一起的。
  • 如果准备继续阅读构建系统与包管理,可以把本章理解为“先把模块验证清楚,再把测试接入项目构建流程”的过渡章节。
  • 如果准备进入第三部分实战案例,那么本章最值得反复回看的部分通常是:测试命名、错误路径验证、std.testing.allocator 和简单测量方法。

为什么测试在 Zig 中很重要

Zig 强调显式错误处理、显式资源管理和显式分配器传递。测试直接验证这些约束是否被遵守。难以测试的函数往往说明设计本身需要改进。

Zig 测试的基本形式

Zig 使用 test 块定义测试:

const std = @import("std");

fn add(a: i32, b: i32) i32 {
    return a + b;
}

test "add returns the sum of two integers" {
    try std.testing.expect(add(2, 3) == 5);
}

这段代码有几个关键点:

  1. test "..." { ... } 是测试块
  2. 测试名称应该描述行为,而不是只写一个模糊标签
  3. 测试里通常使用 try std.testing.* 断言
  4. 这些测试不会在普通构建里作为主程序入口运行,而是通过 zig test 执行

运行测试

最基本的运行方式是:

zig test src/main.zig

如果测试写在某个模块文件里,也可以直接测试那个文件:

zig test src/math.zig

把测试和代码放在一起

Zig 很常见的一种风格,是让测试与被测代码放在同一个文件中:

const std = @import("std");

pub fn clamp(value: i32, min: i32, max: i32) i32 {
    if (value < min) return min;
    if (value > max) return max;
    return value;
}

test "clamp returns min when value is below range" {
    try std.testing.expectEqual(@as(i32, 0), clamp(-5, 0, 10));
}

test "clamp returns max when value is above range" {
    try std.testing.expectEqual(@as(i32, 10), clamp(20, 0, 10));
}

test "clamp returns original value when already in range" {
    try std.testing.expectEqual(@as(i32, 7), clamp(7, 0, 10));
}

这种写法的优点是:

  • 被测代码与测试距离近,阅读成本低
  • 重构时更容易同步更新测试
  • 测试本身也能起到“行为文档”的作用

当然,当模块很大、测试很多时,也可以把测试拆到单独文件中。
但在本教程阶段,理解“测试描述行为”这件事,比纠结文件布局更重要

最常用的断言函数

Zig 的测试辅助主要来自 std.testing
不需要把所有辅助函数都记住,掌握下面这些最常用的即可。

expect

用于断言一个布尔表达式为真:

const std = @import("std");

test "expect checks boolean conditions" {
    try std.testing.expect(1 + 1 == 2);
    try std.testing.expect(true);
}

适合:

  • 简单条件判断
  • 不需要特别展示“期望值/实际值”的场景

expectEqual

用于比较两个值是否相等:

const std = @import("std");

test "expectEqual compares values" {
    try std.testing.expectEqual(@as(i32, 42), @as(i32, 42));
}

相比直接写 expect(a == b)expectEqual 的优点是:
当失败时,通常更容易看出“期望值”和“实际值”分别是什么。

expectEqualStrings

用于比较字符串:

const std = @import("std");

fn greet(name: []const u8) []const u8 {
    if (std.mem.eql(u8, name, "zig")) return "hello, zig";
    return "hello, world";
}

test "expectEqualStrings compares text content" {
    try std.testing.expectEqualStrings("hello, zig", greet("zig"));
}

expectEqualSlices

用于比较切片内容:

const std = @import("std");

test "expectEqualSlices compares slice contents" {
    const expected = [_]u8{ 1, 2, 3 };
    const actual = [_]u8{ 1, 2, 3 };

    try std.testing.expectEqualSlices(u8, &expected, &actual);
}

expectError

用于验证错误路径是否返回了预期错误:

const std = @import("std");

fn divide(a: i32, b: i32) !i32 {
    if (b == 0) return error.DivisionByZero;
    return @divTrunc(a, b);
}

test "divide returns DivisionByZero when divisor is zero" {
    try std.testing.expectError(error.DivisionByZero, divide(10, 0));
}

这类测试在 Zig 中尤其重要,因为错误不是“例外情况可以不测”,而是接口契约的一部分。

浮点比较

浮点数通常不适合直接用 ==
更稳妥的写法是使用近似比较:

const std = @import("std");

test "floating-point values should use approximate comparison" {
    const expected: f64 = 3.14159;
    const actual: f64 = 3.14160;

    try std.testing.expectApproxEqAbs(expected, actual, 0.001);
}

先测什么?优先级应该怎么排?

刚开始写测试时,最容易犯的错误是:

  • 只测最顺利的“快乐路径”
  • 试图一下子把所有细节都覆盖
  • 写了很多测试,但没有抓住真正容易出错的点

更实用的顺序通常是:

  1. 先测核心行为 — 函数最主要的承诺:正常输入能否返回正确结果?失败时是否返回预期错误?
  2. 再测边界条件 — 空输入、最小值/最大值、长度为 0 的切片、容器空/满状态
  3. 再测失败路径 — 分配失败、输入无效、文件不存在、解析失败、资源初始化中途失败
  4. 再补资源释放检查 — 如果涉及分配,验证 defererrdefer 的执行
  5. 最后补回归测试 — 修过的 bug 应增加测试,防止悄悄回归

一个更完整的测试示例

下面这个例子展示了正常路径、边界条件和错误路径如何组合:

const std = @import("std");

fn firstOrError(items: []const i32) !i32 {
    if (items.len == 0) return error.EmptyInput;
    return items[0];
}

test "firstOrError returns the first item for non-empty slices" {
    const items = [_]i32{ 10, 20, 30 };
    try std.testing.expectEqual(@as(i32, 10), try firstOrError(&items));
}

test "firstOrError returns error.EmptyInput for empty slices" {
    const items = [_]i32{};
    try std.testing.expectError(error.EmptyInput, firstOrError(&items));
}

这种结构很适合教程中的大多数模块:

  • 一个小函数
  • 两到三个行为测试
  • 明确区分正常路径和失败路径

用测试验证资源释放责任

在 Zig 中,资源释放责任需要说清楚。
测试也应该帮助验证这件事。

最常见的方式之一,是在测试中使用 std.testing.allocator

std.testing.allocator 的作用

它是测试环境中的专用分配器,适合用来帮助发现:

  • 内存泄漏
  • 重复释放
  • 一些资源使用不当的问题

示例:

const std = @import("std");

fn duplicate(allocator: std.mem.Allocator, input: []const u8) ![]u8 {
    const copy = try allocator.alloc(u8, input.len);
    @memcpy(copy, input);
    return copy;
}

test "duplicate allocates and returns a copy" {
    const allocator = std.testing.allocator;

    const result = try duplicate(allocator, "zig");
    defer allocator.free(result);

    try std.testing.expectEqualStrings("zig", result);
}

这个测试除了检查功能,还隐含验证了一个重要契约:

  • duplicate 返回一段新分配的内存
  • 调用者拿到所有权
  • 因此调用者必须负责 free

为什么这类测试很有价值?

因为它迫使接口说清楚:

  • 是借用现有切片,还是返回新分配结果?
  • 谁负责释放?
  • 分配失败时会发生什么?

如果这些问题在测试里说不清楚,通常说明接口本身也还不够清楚。

使用 defererrdefer 设计可测试代码

可测试的资源管理代码,往往也更容易写对。

例如:

const std = @import("std");

fn buildMessage(allocator: std.mem.Allocator, name: []const u8) ![]u8 {
    var list = std.ArrayList(u8).empty;
    defer list.deinit(allocator);

    try list.appendSlice(allocator, "hello, ");
    try list.appendSlice(allocator, name);

    return try allocator.dupe(u8, list.items);
}

test "buildMessage returns allocated greeting text" {
    const allocator = std.testing.allocator;

    const msg = try buildMessage(allocator, "zig");
    defer allocator.free(msg);

    try std.testing.expectEqualStrings("hello, zig", msg);
}

这里可以看到:

  • 临时容器 list 自己负责内部释放
  • 返回值 msg 的所有权转移给调用者
  • 测试里也因此必须显式 free

这类结构很符合 Zig 的风格:
资源边界清楚,因此也更容易测试。

嵌套测试:它是什么,什么时候关心?

Zig 支持把 test 写在结构体等声明内部。
这通常被称为“嵌套测试”:

const std = @import("std");

const Counter = struct {
    value: i32,

    fn inc(self: *Counter) void {
        self.value += 1;
    }

    test "Counter.inc increases value by one" {
        var c = Counter{ .value = 0 };
        c.inc();
        try std.testing.expectEqual(@as(i32, 1), c.value);
    }
};

关键要点

最重要的是:

  • 这是 Zig 支持的一种测试组织方式
  • 它适合把小范围行为测试放在声明附近
  • 但它不是一开始必须依赖的主线能力

很多时候,顶层测试块已经足够

测试过滤与选择性运行

当测试数量变多时,通常不需要每次都跑全部测试。
这时可以使用测试过滤。

例如:

zig test src/math.zig --test-filter "divide"

这个命令的意义是:

  • 运行测试文件
  • 只执行名称匹配 "divide" 的测试块

所以,测试名称写得清楚就会很有帮助。
例如:

  • divide returns DivisionByZero when divisor is zero
  • divide truncates integer division toward zero

都比简单写成 test1divide test 更好。

怎样给测试命名更清楚?

推荐的命名风格是:

  • 描述对象
  • 描述条件
  • 描述预期行为

例如:

  • parsePort rejects zero
  • Stack.pop returns null when the stack is empty
  • Config.get returns default value when field is unset

这种风格有两个好处:

  1. 读测试列表时就能大致知道覆盖了什么
  2. 测试失败时,日志本身就像一句行为说明

什么是好测试

  1. 关注一个明确行为
  2. 输入和预期都清楚
  3. 命名像一句行为描述
  4. 同样重视失败路径
  5. 不依赖隐式全局状态
  6. 把基准测量当作提问工具 基准测量应该帮助提出更好的问题,而不是导致过早下结论。

一个简单容器测试示例

下面是一个更贴近第二部分后续章节的例子:

const std = @import("std");

const Stack = struct {
    items: [4]i32 = undefined,
    len: usize = 0,

    fn push(self: *Stack, value: i32) !void {
        if (self.len >= self.items.len) return error.Full;
        self.items[self.len] = value;
        self.len += 1;
    }

    fn pop(self: *Stack) ?i32 {
        if (self.len == 0) return null;
        self.len -= 1;
        return self.items[self.len];
    }
};

test "Stack.pop returns null when empty" {
    var stack = Stack{};
    try std.testing.expectEqual(@as(?i32, null), stack.pop());
}

test "Stack.push and Stack.pop follow LIFO order" {
    var stack = Stack{};

    try stack.push(10);
    try stack.push(20);

    try std.testing.expectEqual(@as(?i32, 20), stack.pop());
    try std.testing.expectEqual(@as(?i32, 10), stack.pop());
    try std.testing.expectEqual(@as(?i32, null), stack.pop());
}

test "Stack.push returns error.Full when capacity is exceeded" {
    var stack = Stack{};

    try stack.push(1);
    try stack.push(2);
    try stack.push(3);
    try stack.push(4);

    try std.testing.expectError(error.Full, stack.push(5));
}

这个例子很适合观察几个测试设计要点:

  • 空容器行为单独测
  • 正常顺序行为单独测
  • 容量溢出错误单独测

而不是把这三件事塞进一个超长测试里。

基准测试

基准测试的目标,是帮助比较实现差异,并验证优化是否真的有效。

三条核心原则:先保证正确,再谈快先测量,再优化对结果保持怀疑,避免过度解读一次测量

下面用概念性的方式展示基本计时思路:

const std = @import("std");

fn sum(items: []const u64) u64 {
    var total: u64 = 0;
    for (items) |item| {
        total += item;
    }
    return total;
}

// 注意:Zig 0.16-dev 中尚无 std.time.Timer 或 std.time.Instant 等
// 高层计时 API。具体的计时方式取决于目标平台和 I/O 模型。
// 以下为概念示意,展示计时测量的基本思路:
//
// 1. 记录起始时间
// 2. 执行待测逻辑(如 sum(&data))
// 3. 记录结束时间
// 4. 计算差值,得到耗时

版本说明:Zig 0.16-dev 中 std.time 仅包含时间单位常量和 epoch 模块,不提供 TimerInstant 等高层计时接口。 进行性能测量时,建议使用 zig build-Doptimize=ReleaseFast 选项,并结合外部工具(如 hyperfineperf)获得更可靠的数据。

粗略计时适合观察耗时量级、对比两个实现的大致差异、判断是否值得深入分析。但它不适合得出精确的、可复现的性能结论——性能受编译优化级别、输入规模、缓存状态、机器负载等众多因素影响,一次测量结果应始终被审慎对待。

测试和基准关注的问题不同:测试回答“对不对“(输出:通过/失败),基准回答“快不快“(输出:时间、吞吐等)。更合理的顺序是:先确认逻辑正确,再确认错误路径可靠,最后才讨论性能表现。

版本敏感说明:哪些内容值得小心?

这一章里,真正稳定、应优先掌握的主线是:

  • test
  • std.testing.expect*
  • expectError
  • std.testing.allocator
  • 测试过滤
  • 用小而清楚的案例验证行为

而下面这些内容,相对更容易受到版本、构建方式或工程结构影响:

  • 更复杂的构建系统集成方式
  • CI 配置细节
  • 某些基准脚手架或命令行习惯
  • 标准库内部辅助工具的具体接口形式

因此,本章刻意不把重点放在“记很多构建细节”上。
更值得掌握的是:

如何把一个 Zig 接口拆成可验证的行为,并为这些行为写出清楚的小测试。

至于更复杂的构建集成,可以结合后续构建系统章节再看。

小结

这一章最重要的,不是记住一长串测试 API,而是建立下面这些习惯:

  • 把测试当成接口设计的一部分
  • 优先验证行为、边界和错误路径
  • std.testing 写小而清楚的断言
  • std.testing.allocator 帮助检查资源释放责任
  • 把基准测试当成“测量与比较工具”,而不是装饰性的性能数字

如果在读完本章后,已经能自然地问自己:

  • 这个函数最重要的行为是什么?
  • 它失败时应该怎么表现?
  • 谁拥有返回的资源?
  • 我能不能用一个小测试把这些契约说清楚?

那么这一章就达到目的了。


相关阅读构建系统与包管理

构建系统与包管理

本章在构建系统入门的基础上深入构建图的内部机制,并覆盖库目标、文件生成、交叉编译发布和依赖管理。

构建 API 在 0.x 阶段仍会演进,本章优先强调概念、结构和模式。

构建图的核心机制

构建系统基于有向无环图(DAG)组织步骤,步骤之间通过 dependOn 建立依赖关系。

惰性求值

const std = @import("std");

pub fn build(b: *std.Build) void {
    const target = b.standardTargetOptions(.{});
    const optimize = b.standardOptimizeOption(.{});

    const lib = b.addLibrary(.{
        .name = "mylib",
        .linkage = .static,
        .root_module = b.createModule(.{
            .root_source_file = b.path("lib.zig"),
            .target = target,
            .optimize = optimize,
        }),
    });

    b.installArtifact(lib);

    const exe = b.addExecutable(.{
        .name = "demo",
        .root_module = b.createModule(.{
            .root_source_file = b.path("demo.zig"),
            .target = target,
            .optimize = optimize,
        }),
    });
    exe.root_module.linkLibrary(lib);

    if (b.option(bool, "enable-demo", "install the demo too") orelse false) {
        b.installArtifact(exe);
    }
}

addExecutable 无条件调用,但 demo 可执行文件不会被构建——除非传入 -Denable-demo=true,因为只有 installArtifact(exe) 执行时才会把它加入依赖图。这意味着在 build.zig 中定义大量目标只会消耗构建脚本的运行时间(几毫秒),不会触发编译。

检测目标平台

const target = b.standardTargetOptions(.{});

if (target.result.os.tag == .windows) {
    exe.root_module.linkSystemLibrary("user32", .{});
}

target.result.os.tag 反映的是通过 -Dtarget 指定的编译目标,而非构建主机平台。

库目标:静态库与动态库

静态库

const lib = b.addLibrary(.{
    .name = "mylib",
    .linkage = .static,
    .root_module = b.createModule(.{
        .root_source_file = b.path("src/lib.zig"),
        .target = target,
        .optimize = optimize,
    }),
});
b.installArtifact(lib);

消费端使用相同 API:

exe.root_module.linkLibrary(lib);

静态库输出为 .a(Linux/macOS)或 .lib(Windows),默认安装到 zig-out/lib/

addLibrarycreateModule 的核心字段:

addLibrary

字段含义默认值
.name库名称,决定输出文件名(myliblibmylib.a必填
.linkage链接方式:.static / .dynamic.static
.version语义化版本,仅动态库使用null
.root_module根编译单元必填

createModule

字段含义默认值
.root_source_file入口源文件路径null(可选)
.target编译目标平台null(默认 native)
.optimize优化级别null(默认 Debug)

动态库

.linkage 改为 .dynamic,附加 .version

const lib = b.addLibrary(.{
    .name = "mylib",
    .linkage = .dynamic,
    .version = .{ .major = 1, .minor = 0, .patch = 0 },
    .root_module = b.createModule(.{
        .root_source_file = b.path("src/lib.zig"),
        .target = target,
        .optimize = optimize,
    }),
});
b.installArtifact(lib);

构建系统根据 .version 生成平台惯例的版本化文件结构:

zig-out/lib/
├── libmylib.so -> libmylib.so.1
├── libmylib.so.1 -> libmylib.so.1.0.0
└── libmylib.so.1.0.0

消费端代码不变——同样使用 exe.root_module.linkLibrary(lib),构建系统自动处理静态/动态差异。

选择

场景建议
仅项目内部使用静态库
独立分发动态库
版本化 API动态库(带 .version
交叉编译静态库更可控

文件生成与代码生成

构建过程中生成文件是常见需求——代码生成、构建时信息嵌入、资源预处理。构建系统提供可组合的步骤来支持这些场景。

运行项目工具

核心模式:用 Zig 写工具,构建时通过 addRunArtifact 运行,输出通过 addOutputFileArg 捕获。

以代码生成器为例。假设存在协议定义文件 protocol.txt

MSG_LOGIN 1
MSG_LOGOUT 2
MSG_DATA 3

构建脚本中配置工具运行:

const tool = b.addExecutable(.{
    .name = "protocol_gen",
    .root_module = b.createModule(.{
        .root_source_file = b.path("tools/protocol_gen.zig"),
        .target = b.graph.host,
    }),
});

const run_gen = b.addRunArtifact(tool);
run_gen.addFileArg(b.path("protocol.txt"));
const generated = run_gen.addOutputFileArg("protocol.zig");

实际执行的命令等价于:

protocol_gen /path/to/protocol.txt /path/to/.zig-cache/.../protocol.zig

工具生成的 protocol.zig 内容类似:

pub const MSG_LOGIN: u8 = 1;
pub const MSG_LOGOUT: u8 = 2;
pub const MSG_DATA: u8 = 3;

几个关键点:

  • target 设为 b.graph.host:工具在构建机器上运行,目标是主机平台。
  • addFileArg:将文件路径追加到命令行,同时注册依赖追踪——输入变化时自动重新执行。
  • addOutputFileArg:声明输出文件,返回 LazyPath
  • addArg:追加普通字符串。如果需要带标志的参数,在合适位置插入 addArg("--verbose")
  • addPrefixedFileArg:将前缀和文件路径合并成单个参数(如 -F/path/to/file)。

将生成文件导入源码

通过 addAnonymousImport 接入主程序:

exe.root_module.addAnonymousImport("protocol", .{
    .root_source_file = generated,
});

源码中通过名称引用:

const protocol = @import("protocol");

addAnonymousImport 创建匿名模块,其名称与 @import / @embedFile 中的字符串匹配。

WriteFiles

当需要多个生成文件放在同一目录下时,使用 WriteFiles

const wf = b.addWriteFiles();
_ = wf.add("config.txt", "version=1.0.0\nmode=release\n");
_ = wf.addCopyFile(some_output, "data.bin");

两个方法都返回对应文件的 LazyPathwf.getDirectory() 返回整个目录的 LazyPath

UpdateSourceFiles

UpdateSourceFiles 用于将生成文件写回源码树,仅作开发者工具,不应在正常构建流程中使用:

const wf = b.addUpdateSourceFiles();
wf.addCopyFileToSource(generated_file, "src/protocol.zig");

const update_step = b.step("update-protocol", "Update generated protocol file");
update_step.dependOn(&wf.step);

通过 zig build update-protocol 手动触发。

运行系统命令

const run = b.addSystemCommand(&.{ "git", "describe", "--always" });
const output = run.captureStdOut();

系统依赖会降低跨平台能力,优先使用项目内部 Zig 工具。

多目标构建与交叉编译发布

多目标同时构建

const targets: []const std.Target.Query = &.{
    .{ .cpu_arch = .aarch64, .os_tag = .macos },
    .{ .cpu_arch = .x86_64, .os_tag = .linux, .abi = .musl },
    .{ .cpu_arch = .x86_64, .os_tag = .windows },
};

for (targets) |t| {
    const exe = b.addExecutable(.{
        .name = "myapp",
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = b.resolveTargetQuery(t),
            .optimize = .ReleaseSafe,
        }),
    });
    b.installArtifact(exe);
}

std.Target.Query 的常用字段:

字段含义省略时
.cpu_archCPU 架构当前主机架构
.os_tag操作系统当前主机系统
.abi二进制接口系统默认
.cpu_modelCPU 型号由架构和系统自动决定
.os_version_min / .os_version_max系统版本范围当前平台默认
.ofmt目标文件格式由 OS 决定

.{} 表示全部默认(native),.{ .cpu_arch = .x86_64, .os_tag = .linux, .abi = .musl } 明确指定三个维度。

自定义安装目录

默认所有平台产物安装到同一目录会互相覆盖,使用 addInstallArtifact 配合 dest_dir 分离:

for (targets) |t| {
    const exe = b.addExecutable(.{
        .name = "myapp",
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = b.resolveTargetQuery(t),
            .optimize = .ReleaseSafe,
        }),
    });

    const install = b.addInstallArtifact(exe, .{
        .dest_dir = .{
            .override = .{
                .custom = t.zigTriple(b.allocator) catch unreachable,
            },
        },
    });
    b.getInstallStep().dependOn(&install.step);
}

dest_dir 的三层结构:.default(按类型放 bin/lib/)、.disabled(不安装)、.override(自定义子目录)。

输出结构:

zig-out/
├── aarch64-macos/
│   └── myapp
├── x86_64-linux-musl/
│   └── myapp
└── x86_64-windows/
    └── myapp.exe

跨平台测试

const test_targets = [_]std.Target.Query{
    .{},
    .{ .cpu_arch = .x86_64, .os_tag = .linux },
    .{ .cpu_arch = .aarch64, .os_tag = .macos },
};

for (test_targets) |t| {
    const unit_tests = b.addTest(.{
        .root_module = b.createModule(.{
            .root_source_file = b.path("src/main.zig"),
            .target = b.resolveTargetQuery(t),
        }),
    });

    const run_tests = b.addRunArtifact(unit_tests);
    run_tests.skip_foreign_checks = true;
    test_step.dependOn(&run_tests.step);
}

skip_foreign_checks 跳过外来架构测试的执行,但仍然编译,确保代码在目标平台上能通过编译检查。

依赖管理

build.zig.zon 完整示例

.{
    .name = "my-project",
    .version = "0.1.0",
    .fingerprint = 0xa8b2f3e4c59d7061, // zig init 自动生成
    .minimum_zig_version = "0.16.0",
    .dependencies = .{
        .zap = .{
            .url = "https://github.com/zigzap/zap/archive/refs/tags/v0.8.0.tar.gz",
            .hash = "1220...", // zig fetch --save 生成
        },
        .my_local_lib = .{
            .path = "../my-local-lib",
        },
    },
    .paths = .{
        "build.zig",
        "build.zig.zon",
        "src",
    },
}

字段说明:

  • .name:包名称,也是其他项目用 zig fetch --save 引入时的依赖键名。
  • .version:语义化版本号。
  • .fingerprintzig init 生成的全局唯一标识,区分同名但实质不同的包。不应手动修改。fork 后应删除并重新运行 zig build
  • .minimum_zig_version:最低 Zig 版本。
  • .dependencies:每个依赖提供 .url + .hash(远程)或 .path(本地)。
  • .paths:纳入哈希计算和分发的文件集合。

依赖固定原则

  1. 固定具体来源:使用版本标签或具体提交的归档,避免 main/master 等漂移分支。
  2. 哈希锁定版本.hash 承担了 lockfile 的角色——包的真实来源是哈希,URL 只是获取途径。因此不必单独维护 lockfile。
  3. 本地路径依赖适合开发,不适合发布:分享或稳定发布应使用远程依赖加哈希锁定。
  4. 一个项目固定一个 Zig 版本.minimum_zig_version 明确版本边界,避免多版本混用。

zig fetch --save 工作流

zig fetch --save https://github.com/zigzap/zap/archive/refs/tags/v0.8.0.tar.gz

工具自动下载归档、计算哈希、写入 build.zig.zon

指定自定义依赖名:

zig fetch --save=my_zap <url>

--save-exact 原样保存 URL,不做规范化。省略 --save 只打印哈希到 stdout。

依赖声明完成后,一次性拉取全部依赖:

zig build --fetch

之后构建不再需要网络。

build.zig 中接入依赖

const dep = b.dependency("zap", .{
    .target = target,
    .optimize = optimize,
});
exe.root_module.addImport("zap", dep.module("zap"));

三步数据流:

  1. b.dependency("zap", args):从 build.zig.zon 查找依赖,执行其 build.zig,传递 target/optimize 确保编译选项一致。
  2. dep.module("zap"):获取依赖通过 b.addModule 暴露的模块。名称不一定和依赖键名相同,需要查看依赖的 build.zig
  3. addImport("zap", module):挂载模块,第一个参数是源码中 @import("zap") 使用的名称,可自定义。

惰性依赖(Lazy Dependency)

对于大型依赖或可选依赖,在 build.zig.zon 中标记为惰性,直到首次使用时才下载:

.dependencies = .{
    .heavy_lib = .{
        .url = "...",
        .hash = "...",
        .lazy = true,
    },
}

build.zig 中使用 lazyDependency 代替 dependency

if (b.lazyDependency("heavy_lib", .{
    .target = target,
    .optimize = optimize,
})) |dep| {
    exe.root_module.addImport("heavy", dep.module("heavy_lib"));
}

惰性依赖的特性:未下载时 lazyDependency 返回 null,触发后台下载,下次构建时可用;适合条件功能或超大依赖,避免 zig build --fetch 时必须下载全部内容。

系统库链接

const exe = b.addExecutable(.{
    .name = "zip-tool",
    .root_module = b.createModule(.{
        .root_source_file = b.path("src/main.zig"),
        .target = target,
        .optimize = optimize,
        .link_libc = true,
    }),
});
exe.root_module.linkSystemLibrary("z", .{});

链接的是系统已安装的 zlib,而非 Zig 模块。构建失败可能来自系统环境问题(库未安装或不在搜索路径),而非 Zig 语法。可通过 --search-prefix 指定额外搜索路径。

两类依赖对比:

类型来源典型场景
Zig 依赖build.zig.zon 的 Zig 项目跨平台、版本可控
系统库系统 C 库或平台库系统打包、平台绑定

C++ 库需设置 link_libcpp = true(与 link_libc 对应)。

上游 Zig 包优先通过 Zig 构建系统提供依赖;系统库链接主要用于系统级打包场景(Debian、Homebrew、Nix)。

排查指南

构建失败时按以下顺序排查:

  1. Zig 版本——是否与项目的 .minimum_zig_version 兼容
  2. 依赖——build.zig.zon 中的 URL 和哈希是否一致,依赖是否已下载
  3. 系统库——是否已安装且可被链接
  4. 构建 API——API 是否在 Zig 版本间发生了变更

常见误区:

  • 把构建 API 字段名当作永久稳定写法(0.x 阶段字段会变化)
  • 复制占位哈希而非使用 zig fetch --save 生成
  • 使用漂移的依赖来源(主分支 tarball)
  • 把构建问题都当成代码问题(实际可能是版本/环境/依赖)
  • 静态库和动态库混用导致符号找不到

本章小结

  • 构建图底层是 DAG,步骤通过 dependOn 建立关系,构建运行器确定执行顺序和并发
  • 惰性求值意味着只有被依赖图引用的目标才会编译
  • 静态库适合内部使用和交叉编译,动态库适合分发和版本化 API
  • 文件生成的核心模式:addRunArtifact + addOutputFileArg + addAnonymousImport
  • 多目标构建配合自定义安装目录分离各平台产物
  • 依赖管理要求固定来源和哈希;zig fetch --save 是标准工作流
  • 惰性依赖lazy: true + lazyDependency)用于可选或大型依赖,按需下载
  • 系统库链接受系统环境影响,与 Zig 依赖管理是独立的两条路径
  • 构建失败按“版本 → 依赖 → 系统环境 → 构建 API“顺序排查

实战案例 - CLI 工具开发

这一章不把目标设成“做一个可以直接替代现有命令行工具的完整产品”,而是把重点放在:

如何把一个小而完整的命令行需求,拆成清楚的模块、明确的接口和可验证的最小原型。

为了和本部分的整体定位保持一致,本章更适合被理解为:

  • 一个最小可讨论的 CLI 原型
  • 一个把参数解析、文件系统遍历、过滤逻辑和输出组织起来的教学案例
  • 一个练习“如何把 Zig 基础能力组合成小项目”的入口

而不是:

  • 生产级 find 替代品
  • 完整的 glob 引擎
  • 完整覆盖平台差异、符号链接、权限、错误恢复和输出规范的成熟工具

本章的学习目标

读完这一章后,你应该重点掌握下面这些能力:

  1. 把 CLI 工具拆成几个职责清楚的模块
  2. 围绕“输入 → 处理 → 输出”组织主流程
  3. 理解参数解析和错误处理如何影响用户体验
  4. 理解文件搜索为什么看起来简单,实际上有很多边界条件
  5. 知道什么叫“教学原型”和“生产工具”的差别

如果你能在本章结束后说清楚:

  • 参数是怎么被解析成结构化选项的
  • 搜索逻辑为什么要和输出逻辑分开
  • 哪些行为是本章故意简化的
  • 如果继续扩展,这个原型下一步应该往哪里演进

那么这一章就已经达到目标。

先定义案例范围:我们到底要做什么?

本章要实现一个最小文件搜索工具,暂时叫它 zfind
它支持下面几类能力:

  • 指定搜索起点目录
  • 按名称模式做简单匹配
  • 按文件类型过滤
  • 按文件大小过滤
  • 限制递归深度
  • 以简单文本、详细文本或“接近 JSON 的文本行”输出结果

这里要特别强调两点。

1. 这是“最小搜索工具原型”,不是完整 find

虽然案例借用了常见命令行搜索工具的思路,但它并不追求完整兼容真实工具的所有行为。
例如本章不会覆盖:

  • 复杂 glob 语法
  • 正则表达式
  • 排除规则
  • 跟随或不跟随符号链接的完整策略
  • 精细的权限错误汇总
  • 平台差异下的全部文件类型
  • 严格的 JSON 文档输出格式

2. 这里最重要的是“结构和边界”,不是功能越多越好

CLI 案例最容易出现的误区之一,是一上来就拼命加选项和功能。
结果往往是:

  • 主函数越来越长
  • 逻辑边界不清楚
  • 错误处理越来越混乱
  • 输出格式和搜索逻辑耦合在一起
  • 代码看起来“功能很多”,但实际上很难维护

因此,本章反而会故意收缩范围,让你看清楚一个小工具最基本的组织方式。

教学约束:这一章刻意简化了什么?

为了让案例保持清晰,本章采用了几项明确的教学约束:

  1. 名称匹配只支持非常有限的通配模式

    • 例如 *suffixprefix**middle*、完全匹配
    • 它不是完整 glob 语法实现
  2. “json” 输出只是逐行输出 JSON 风格对象

    • 它更接近“方便机器读取的行格式”
    • 不是一个严格意义上的单一 JSON 数组文档
  3. 搜索过程优先强调结构清晰

    • 不会为了极限性能一开始就引入并行遍历、工作队列或复杂缓存
  4. 错误处理以“教学上能看懂”为优先

    • 不会构建完整的错误汇总系统
    • 某些目录或文件出错时,可能直接跳过
  5. 文件系统行为不追求生产级完整性

    • 比如目录、符号链接、元信息获取等问题,这里只展示最小可理解路径

这些约束并不是缺点,而是这章作为“案例教学”的前提条件。

先从用户视角看:这个工具怎么使用?

在进入代码之前,先把目标交互想清楚。

我们希望用户能写出类似这样的命令:

zfind .
zfind -n "*.zig" .
zfind -t dir /usr/local
zfind -s +1048576 .
zfind -d 3 -f detailed .

从这些命令出发,可以反推出程序至少需要回答几个问题:

  • 搜索路径是什么?
  • 有没有名字模式?
  • 要过滤哪种文件类型?
  • 有没有大小约束?
  • 递归深度是否有限制?
  • 结果应该怎么打印?

于是,我们就有了一个很自然的设计方向:

先把命令行输入解析成一个清晰的配置结构,再把这个结构交给搜索逻辑。

这比在搜索过程中不断去问“用户传了哪个选项”要清楚得多。

模块划分:先把职责拆开

一个很适合 CLI 原型的拆分方式是下面这样:

zfind/
├── build.zig
├── build.zig.zon
└── src/
    ├── main.zig
    ├── cli.zig
    ├── filter.zig
    ├── search.zig
    └── output.zig

每个模块的职责分别是:

  • main.zig

    • 程序入口
    • 初始化分配器
    • 获取参数
    • 调用解析逻辑
    • 串起搜索和输出流程
  • cli.zig

    • 命令行参数解析
    • 帮助信息和版本信息
    • 将命令行参数转换成结构化选项
  • filter.zig

    • 名称匹配
    • 类型过滤
    • 大小过滤
  • search.zig

    • 目录遍历
    • 递归搜索
    • 收集和输出结果
  • output.zig

    • 不同格式的输出逻辑

💡 这里的重点不是“一定要拆成 5 个文件”,而是:

  • 参数解析不要和遍历逻辑混在一起
  • 搜索逻辑不要和输出细节绑死
  • 过滤规则最好能独立测试

第一步:把命令行参数变成结构化选项

对于 CLI 工具来说,最关键的第一步不是“开始搜文件”,而是先把用户输入转成程序可理解的状态。

一个最小选项结构可以类似这样:

const std = @import("std");

pub const FileType = enum {
    all,
    file,
    dir,
    symlink,
};

pub const SizeComparator = enum {
    greater,
    less,
    equal,
};

pub const SizeFilter = struct {
    comparator: SizeComparator,
    size: u64,
};

pub const OutputFormat = enum {
    simple,
    detailed,
    json,
};

pub const CliOptions = struct {
    search_path: []const u8 = ".",
    name_pattern: ?[]const u8 = null,
    file_type: FileType = .all,
    size_filter: ?SizeFilter = null,
    max_depth: ?u32 = null,
    output_format: OutputFormat = .simple,
    show_help: bool = false,
    show_version: bool = false,
};

这段结构设计有几个教学上的好处:

  1. 主流程不再关心原始参数细节
  2. 默认值清楚
  3. 搜索逻辑只依赖结构化配置
  4. 后续写测试会更方便

也就是说,参数解析的真正价值不是“把字符串拆开”,而是:

把混乱的命令行输入,整理成一个具有明确语义的数据结构。

第二步:限制模式匹配的野心

很多人做文件搜索工具时,最容易低估的部分就是“模式匹配”。

如果你说自己支持:

  • *.zig
  • foo*
  • *bar
  • src/**/test*.zig
  • 字符类
  • 转义
  • 路径分段规则

那你其实已经在往“做一个真正的 glob 引擎”走了。

而本章不想把精力花在这里。
所以这里故意只做一个非常有限的匹配器,例如:

  • *:全部匹配
  • *suffix:后缀匹配
  • prefix*:前缀匹配
  • *middle*:包含匹配
  • 其他情况:精确匹配

示意实现可以像这样:

const std = @import("std");

pub fn matchesPattern(name: []const u8, pattern: []const u8) bool {
    if (std.mem.eql(u8, pattern, "*")) return true;

    if (std.mem.startsWith(u8, pattern, "*") and std.mem.endsWith(u8, pattern, "*")) {
        const middle = pattern[1 .. pattern.len - 1];
        return std.mem.indexOf(u8, name, middle) != null;
    } else if (std.mem.startsWith(u8, pattern, "*")) {
        const suffix = pattern[1..];
        return std.mem.endsWith(u8, name, suffix);
    } else if (std.mem.endsWith(u8, pattern, "*")) {
        const prefix = pattern[0 .. pattern.len - 1];
        return std.mem.startsWith(u8, name, prefix);
    } else {
        return std.mem.eql(u8, name, pattern);
    }
}

这里一定要对读者说清楚

这不是完整 glob。
更准确地说,它只是一个教学用的最小通配匹配器

因此,像下面这些说法都应该避免:

  • “支持通配符匹配”
  • “兼容 shell glob”
  • “可替代常见模式匹配工具”

更准确的表达是:

本章支持少量最常见的名称模式,用来支撑 CLI 原型,而不是实现完整模式语法。

第三步:把搜索逻辑和过滤逻辑分开

一旦参数已经解析成 CliOptions,接下来最自然的做法,就是让搜索逻辑专注于:

  • 遍历目录
  • 判断是否递归进入子目录
  • 对当前条目应用过滤规则
  • 将结果交给输出逻辑

一个很典型的接口可以长这样:

pub fn search(
    allocator: std.mem.Allocator,
    options: CliOptions,
    writer: anytype,
) !usize

这个签名背后的设计含义很值得注意:

  • allocator
    • 搜索过程中可能需要构造路径、临时字符串
  • options
    • 所有用户输入都已经被整理好
  • writer
    • 搜索逻辑不关心结果是打印到终端、缓冲区,还是测试用内存输出

这就是一个典型的 Zig 风格设计点:

通过显式传入依赖,让逻辑更容易组合、替换和测试。

递归搜索的最小思路

一个教学用的递归搜索流程,通常可以概括成下面几步:

  1. 打开当前目录
  2. 遍历条目
  3. 构造当前条目的相对路径
  4. 应用名称、类型、大小等过滤条件
  5. 如果匹配,则输出
  6. 如果条目是目录且未超过最大深度,则递归进入

示意伪代码如下:

search(dir, current_depth):
    if 超出最大深度:
        return

    for 每个目录项:
        构造路径
        判断是否匹配过滤条件
        如果匹配:
            输出结果

        如果是目录:
            递归进入

这部分最重要的,不是“递归”本身,而是几个边界判断:

  • 深度什么时候停止?
  • 构造路径时谁负责释放内存?
  • 获取文件信息失败时怎么办?
  • 对目录和文件是否采用相同处理路径?

这些问题比“怎么写 while 循环”更值得关注。

一个很重要的现实问题:文件类型和元信息并不总是好拿

从教学角度看,“遍历目录 → 判断类型 → 判断大小”似乎很顺。
但在真实文件系统里,这一步其实很容易碰到复杂情况,例如:

  • 某些条目无法访问
  • 某些条目是符号链接
  • 某些平台下元信息行为不同
  • 目录和普通文件获取 size 的语义并不完全一样

因此,本章中如果你看到某些逻辑采取了“获取不到就跳过”的策略,不要把它理解成“这是最完善的行为”,而要把它理解成:

这是为了保持案例主线清晰而做的简化。

真实项目里,你通常还要继续思考:

  • 是否把错误记录下来
  • 是否在最终汇总里告诉用户哪些路径失败了
  • 是否允许部分失败而继续执行
  • 是否区分“用户无权限”和“路径不存在”等错误

输出格式:为什么要单独抽出来?

CLI 工具里一个非常常见的坏味道是:

  • 搜索逻辑里直接 print
  • 每种格式都在主循环里分支
  • 结果一多,搜索和输出完全缠在一起

这会导致两个问题:

  1. 搜索逻辑变得很难读
  2. 输出格式一改,核心流程也要跟着改

因此,更合理的方式是把输出逻辑单独整理成一个函数,例如:

fn printResult(
    writer: anytype,
    path: []const u8,
    stat: ?std.fs.File.Stat,
    format: OutputFormat,
) !void

关于 “json” 输出,一定要说实话

如果你的实现只是逐行打印:

{"path":"a","type":"file","size":10}
{"path":"b","type":"file","size":20}

那么它更接近:

  • JSON Lines 风格文本
  • 行分隔对象流
  • “方便后处理”的近似格式

而不是一个严格的 JSON 文档数组:

[
  {"path":"a","type":"file","size":10},
  {"path":"b","type":"file","size":20}
]

所以本章更合适的说法是:

  • “提供一种 JSON 风格的行输出”
  • 或者“提供便于机器读取的逐行对象输出”

而不要直接说“支持 JSON 输出”,否则读者会默认它是严格 JSON。

主程序入口:主函数真正该做什么?

一个清楚的 main 通常只需要做这几件事:

  1. 初始化分配器
  2. 获取参数切片
  3. 调用参数解析
  4. 处理 --help / --version
  5. 创建输出 writer
  6. 调用搜索逻辑
  7. 打印汇总信息

也就是说,主函数应该像一个流程编排器,而不是逻辑垃圾场。

示意结构:

pub fn main(...) !void {
    初始化分配器
    获取参数
    解析 options

    如果需要帮助或版本信息:
        输出并返回

    创建输出 writer
    调用 search(...)
    输出搜索结果统计
}

如果主函数开始承担:

  • 模式匹配
  • 文件系统遍历
  • 输出格式化细节
  • 各种过滤判断

那通常就说明模块边界已经开始失控了。

这个原型的价值到底在哪里?

本章真正想教给你的,并不是“怎么写一个半成品 find”。
它的价值主要体现在下面几个方面。

1. 它展示了小工具的典型组织方式

你可以清楚看到:

  • 输入如何结构化
  • 搜索如何独立成模块
  • 输出如何解耦
  • 错误如何在边界上处理

2. 它让你开始面对真实工程里的“不完美”

CLI 工具看起来简单,但其实很快就会碰到:

  • 文件系统边界
  • 路径构造和释放
  • 平台差异
  • 输出格式真实性
  • 用户输入错误处理

这正是系统编程里很有代表性的现实问题。

3. 它适合写测试

这个原型里有很多地方都很适合写单元测试:

  • parseSizeFilter
  • matchesPattern
  • matchesSize
  • 参数解析的边界情况

这比一上来写大型集成测试更适合作为学习起点。

这个原型不适合被误解成什么?

为了避免教学预期错位,这里要明确列出来。

本章的实现不应被理解为

  • 生产级文件搜索器
  • 完整 glob 工具
  • 严格 JSON 输出工具
  • 完整跨平台文件系统抽象示例
  • 大目录高性能搜索方案

尤其在下面这些点上,读者应主动保持警惕:

名称匹配被明显简化

它只覆盖少量模式,不应过度外推。

文件系统错误处理被明显简化

很多地方采取“跳过继续”的策略,更接近教学演示而非成熟产品决策。

输出格式被明显简化

尤其是“json” 模式,教学上可以接受,但产品上需要更严格定义。

性能并不是这一版的主线

这一章优先追求“结构清楚、便于理解”,而不是“海量目录下的极限吞吐”。

如果继续演进,这个项目下一步该做什么?

如果你想把这个原型继续推进,可以考虑下面这些方向。

1. 先把输出格式做扎实

比起继续加筛选条件,更值得优先做的是:

  • 真正输出合法 JSON 数组
  • 处理字符串转义
  • 明确机器可读格式和人类可读格式的边界

2. 重新定义模式匹配能力

决定到底要支持:

  • 最小通配
  • 真正 glob
  • 正则表达式

不要让“看起来好像支持一点”长期停在模糊状态。

3. 补更清楚的错误汇总

例如:

  • 哪些路径访问失败
  • 为什么失败
  • 最终是否允许部分成功

4. 为真实目录结构写集成测试

尤其是:

  • 多层目录
  • 空目录
  • 深度限制
  • 文件类型过滤
  • 大小过滤

5. 如果性能真的成为问题,再考虑并行

在这之前,不要急着把并发加进来。
因为对于本章来说,先把边界写清楚比“并行搜索”更重要。

小结

这一章更合适的定位是:

一个围绕参数解析、目录遍历、过滤和输出组织起来的最小 CLI 原型。

它的教学重点不是“实现了多少功能”,而是:

  • 让命令行输入先变成结构化配置
  • 让搜索逻辑和输出逻辑分开
  • 让过滤规则可以独立测试
  • 让读者明确知道哪些是故意简化的边界

如果你带着这个视角来读,那么本章最重要的收获通常不是“我做了一个小工具”,而是:

我开始知道一个小工具应该如何被组织,哪些地方需要诚实地承认它只是原型。

实战案例 - HTTP 服务器设计与最小实现

这一章的目标,不是带你做一个“可直接上线的完整 Web 服务器”,而是帮助你建立一个更重要的判断:

一个最小 HTTP 服务器,真正需要解决哪些问题?

如果你第一次接触 Zig 中的网络编程,很容易把注意力全部放在某个具体 API 上:怎么监听端口、怎么 accept、怎么 read、怎么 write。
但对教程读者来说,更重要的其实是先看清下面这些设计约束:

  • 服务器要维护什么最小状态?
  • 一次连接的生命周期如何组织?
  • 请求读取和请求解析分别是什么问题?
  • 响应生成应该放在哪一层?
  • 哪些地方是“教学简化”,哪些地方在真实工程里必须继续补上?

⚠️ 阅读提醒

本章涉及的网络与 I/O 接口属于 Zig 0.16.0-dev 语境下较容易变化的区域
因此,本章更适合被理解为:

  • 设计导向的最小服务器原型
  • 版本敏感 API 背景下的结构化阅读示例
  • 帮助你建立“连接 → 请求 → 响应 → 关闭”主流程直觉的教学案例

请不要把文中的每个接口签名都当成长期稳定不变的规范。
真正落地时,应结合你本地 Zig 版本和标准库源码核对细节。

先明确:这一章不试图解决什么?

这是一个同步、最小解析、固定文本响应的教学原型,不涉及 keep-alive、分块传输、TLS 等生产特性。

一个最小 HTTP 服务器到底在做什么?

从结构上看,一个最小 HTTP 服务器通常只需要完成 5 件事:

  1. 监听端口
  2. 接受连接
  3. 读取请求的起始数据
  4. 根据请求路径生成响应
  5. 写回响应并关闭连接

这个流程已经能把服务器端最核心的资源边界暴露出来:

  • 监听套接字何时创建、何时释放
  • 每个连接何时接受、何时关闭
  • 请求缓冲区由谁持有
  • 响应字符串由谁分配、由谁释放
  • 错误出现时,哪些资源必须仍然被清理

这一章的实现约束

为了保持案例的教学价值,我们先明确采用以下约束。

1. 同步处理模型

一次只处理一个连接,不引入线程池或事件循环。

这样做的目的不是说“同步模型最好”,而是为了先把连接生命周期讲清楚。

2. 只做最小请求解析

我们只关心请求行里的:

  • 方法
  • 路径

这意味着我们不会实现:

  • 完整请求头解析
  • 请求体读取
  • chunked 编码
  • 完整 HTTP 语法校验

3. 响应内容保持最简单

只返回几个固定文本:

  • / 返回欢迎页
  • /api 返回简单 JSON 文本
  • 其他路径返回 404

4. 把网络 API 当背景,不当主角

本章的主角是服务器的结构和资源模型,不是某个开发版接口名。

为什么要先从同步模型开始?

很多读者一看到“服务器”,就会自然联想到:

  • 多线程
  • 高并发
  • 异步 I/O
  • 事件循环
  • reactor / proactor

这些主题当然重要,但如果你一开始就把它们全部叠上来,往往反而会看不清基础问题。

先从同步模型开始,有几个好处:

  1. 更容易理解连接生命周期
  2. 更容易看清请求读取和响应写回的位置
  3. 更容易识别资源释放责任
  4. 更容易区分“网络编程问题”和“并发编程问题”

这正是为什么本章不直接追求“高性能服务器”,而是先追求“结构清楚”。

设计草图:先看结构,再看代码

下面是本章希望你建立的最小结构图:

Server
├── init()                初始化监听地址与上下文
├── start()               启动监听循环
├── handleConnection()    处理单个连接
└── generateResponse()    根据路径生成响应文本

这个结构有几个教学上的好处:

  • init() 负责“启动前准备”
  • start() 负责“整体循环”
  • handleConnection() 负责“一次请求-响应交互”
  • generateResponse() 负责“业务逻辑最小分发”

这样做的核心价值不是“面向对象”,而是:

把不同层次的问题拆开。

否则你很容易把监听、读取、解析、拼响应、写回、清理全部塞进一个函数,最后既不利于理解,也不利于扩展。

概念性最小原型

下面这段代码更适合作为结构示意来阅读。
请重点关注:

  • 主循环在哪里
  • 连接关闭发生在哪里
  • 请求是如何被最小解析的
  • 响应是如何集中生成的

而不要把它理解成“已经覆盖完整 HTTP 细节的实现”。

const std = @import("std");

const Server = struct {
    address: std.Io.net.Ip4Address,
    allocator: std.mem.Allocator,
    io: std.Io,

    const Self = @This();

    fn init(allocator: std.mem.Allocator, io: std.Io, port: u16) Self {
        return .{
            .address = .{
                .bytes = .{ 0, 0, 0, 0 },
                .port = port,
            },
            .allocator = allocator,
            .io = io,
        };
    }

    fn start(self: *Self) !void {
        var listener = try self.address.listen(self.io, .{
            .reuse_port = true,
        });
        defer listener.deinit(self.io);

        std.debug.print("server listening on port {d}\n", .{self.address.getPort()});

        while (true) {
            const stream = try listener.accept(self.io);
            try self.handleConnection(stream);
        }
    }

    fn handleConnection(self: *Self, stream: std.Io.net.Stream) !void {
        defer stream.close(self.io);

        var buf: [4096]u8 = undefined;
        var rdr = stream.reader(self.io, &buf);
        const reader: *std.Io.Reader = &rdr.interface;

        const maybe_line = reader.takeDelimiter('\n');
        if (maybe_line == null) return;
        const line = maybe_line.? orelse return;
        _ = line;

        // 正文略:请求解析与响应生成逻辑见下方讲解
    }
};

pub fn main(init: std.process.Init) !void {
    var gpa: std.heap.DebugAllocator(.{}) = .init;
    defer _ = gpa.deinit();

    var server = Server.init(gpa.allocator(), init.io, 8080);
    try server.start();
}

这段原型真正应该怎么看?

如果你直接把上面的代码当成“HTTP 教程答案”,那它会显得过于简化。
但如果你把它当成“最小服务器结构图对应的代码”,它就很有价值。

1. init()

这里负责把:

  • 监听地址
  • 分配器
  • I/O 上下文

集中放进 Server 结构体。

这一步的重点不是“封装好看”,而是明确:

  • 这些资源属于服务器整体生命周期
  • 后面的逻辑都依赖它们

2. start()

这里体现了服务器最核心的主循环:

  • 先 listen
  • 再 accept
  • 对每个连接调用 handleConnection()

这也是你之后扩展并发时最容易改动的位置。
例如未来如果你引入线程池,那么变化通常就发生在“接受连接之后,谁去处理它”这一层。

3. handleConnection()

这部分是本章最值得仔细看的函数。

它做了四件事:

  1. 确保连接最终会被关闭
  2. 从流中读取一段请求数据
  3. 解析最小路径信息
  4. 生成并写回响应

你可以把它理解成:

一次最小请求-响应事务的完整闭环。

4. generateResponse()

把响应生成单独放出来,有两个好处:

  • 避免业务分支和网络读写混在一起
  • 以后更容易替换为真正的路由或模板系统

即使这里只是三种简单路径,它也已经体现出“分层”的价值。

这段实现有哪些刻意简化?

这是本章最重要的部分之一。
请务必清楚地知道:这段代码没有覆盖下面这些真实问题。

1. 一次 read() 不等于“完整 HTTP 请求”

这是最常见的误解之一。

真实世界里:

  • 请求可能被拆成多个 TCP 包
  • 一次读取可能只拿到半行
  • 也可能一次读取拿到多个请求的内容
  • 大请求头或请求体可能远超当前缓冲区

所以这里的做法只是:

为了教学,假定最小请求可以在一次读取中拿到足够的起始部分。

2. 我们没有真正验证完整 HTTP 语法

这里的 parsePath() 只是在请求行里找两个空格,取中间那段作为路径。
这足够帮助你理解“最小解析流程”,但远远不等于完整解析器。

3. 我们默认使用 Connection: close

这是一个非常有意的简化。

如果你支持 keep-alive,那么就必须继续处理:

  • 同一连接上的多个请求
  • 请求边界判断
  • 超时
  • 状态机
  • 连接重用策略

这些都不是本章想先解决的问题。

4. 错误处理仍然是“最小教学版”

例如:

  • 请求格式错误时如何返回 400
  • 写回失败时如何记录日志
  • 某类网络错误是否应继续服务循环
  • 是否要区分客户端断开和服务端故障

这些在真正的服务器里都需要更仔细设计。

这个案例最值得学的不是 API,而是边界

如果你只盯着函数名看,这一章会很容易过时。
但如果你重点学习下面这些边界,它就会更稳定:

1. 资源边界

  • 监听器何时创建和销毁
  • 连接何时关闭
  • 响应字符串何时分配和释放

2. 职责边界

  • 网络读写放在哪
  • 请求解析放在哪
  • 响应生成放在哪

3. 教学边界

  • 什么是最小可理解模型
  • 什么是被故意省略的真实复杂度

这三种边界意识,比记住某个 dev 版接口更重要。

如果你要继续扩展,这一章的下一步是什么?

如果你已经理解了这个最小模型,后续可以按下面顺序继续扩展,而不要一开始全部堆上去。

第一步:补上更诚实的错误响应

例如:

  • 请求行无效时返回 400 Bad Request
  • 路径不存在时继续返回 404 Not Found

这样可以让服务器从“只会输出固定文本”进步到“对错误输入有基本反馈”。

第二步:把路由逻辑独立出来

当前的 if / else if / else 适合教学,但真实项目里通常会很快变得臃肿。

你可以把它扩展成:

  • 一个更清楚的 route() 函数
  • 一个最小路由表
  • 按方法 + 路径分发

第三步:支持静态文件或简单请求体

这会迫使你思考:

  • 文件读取
  • Content-Type
  • 更长的响应
  • 请求体边界

第四步:再考虑并发

只有当你已经看清楚单连接模型之后,再引入:

  • 每连接一线程
  • 线程池
  • 更成熟的异步 I/O 方案

才更容易知道“并发到底在解决哪一层问题”。

什么时候不该自己从零写 HTTP 服务器?

这是一个很现实的问题。

如果你的目标是:

  • 快速上线项目
  • 构建更完整的 Web 服务
  • 处理复杂 HTTP 行为
  • 降低版本敏感 API 带来的维护成本

那么你通常不应该长期停留在“从零写最小服务器”的阶段。
这一章的价值在于帮助你理解模型,而不是鼓励你永远重复造轮子。

更实际的学习路径往往是:

  1. 先理解本章的最小模型
  2. 再阅读标准库或第三方库示例
  3. 最后决定自己要保留哪一层控制权

调试这类最小服务器时,优先看什么?

如果你把这段原型落到本地版本里,调试时可以优先关注:

  1. 监听是否成功

    • 端口是否被占用
    • 地址是否绑定成功
  2. 连接是否真的被接受

    • 是否卡在 accept
    • 是否有客户端实际连上来
  3. 读取是否拿到预期数据

    • 是不是只读到了部分请求
    • 缓冲区里到底有什么
  4. 路径解析是否成功

    • 请求行格式是不是与你的解析逻辑匹配
    • 是否正确处理了 \r\n
  5. 响应是否被完整写回

    • 状态行和头是否完整
    • Content-Length 是否匹配正文长度

这类排查顺序很重要,因为很多“服务器没工作”的问题,其实并不是业务逻辑错了,而是更早的网络边界就已经没对上。

小结

这一章最重要的目标,不是教你做一个生产级 HTTP 服务器,而是帮助你建立这样一个最小而清楚的模型:

监听 → 接受连接 → 读取请求起始数据 → 解析最小路径 → 生成响应 → 写回并关闭连接

如果你已经看清下面这些点,这一章就达成目标了:

  • 一个最小服务器的职责分层应该怎么拆
  • 为什么要先从同步模型开始
  • 为什么网络与 I/O API 应被视为版本敏感背景
  • 为什么“一次 read + 简单 parse”只是教学简化,而不是完整 HTTP 处理
  • 未来扩展时,应该先补哪一层,而不是一开始就把所有复杂度堆上来

把这一章读成“设计与约束练习”,会比把它读成“HTTP API 速查表”更有价值。

实战案例 - 内存池实现

章节定位:这一章属于第三部分中的“实现型案例”。
它不是为了告诉你“内存池一定比通用分配器更高级”,而是借助一个足够小、足够清楚的实现,帮助你理解:

  • 为什么对象池会存在
  • 它依赖哪些核心不变量
  • acquire / release 这类接口真正承诺了什么
  • 为什么高性能实现通常也意味着更强的调用约束

本章的重点不是“记住一份代码”,而是学会判断:

什么时候内存池值得引入,什么时候它只是在增加复杂度。

相关阅读与衔接建议

  • 如果你想先补齐资源所有权、分配器传递和失败路径清理的基础,请先回看第二部分的内存管理模型
  • 如果你更关心“对象池进一步优化之后会带来哪些额外约束”,可以在读完本章后继续阅读高级内存管理技巧(专题)
  • 如果你更关心“字段组织、默认值和接口建模”而不是对象复用,那么下一章的实战案例 - 配置系统原型会把注意力从资源复用切换到配置抽象。

这一组交叉阅读关系很重要,因为第三部分里的案例并不是彼此孤立的:

  • 内存池强调固定形状对象的复用
  • 配置系统强调字段元信息与接口结构
  • 高级内存专题强调什么时候值得继续向更底层优化

把这三章连起来读,会更容易建立“什么时候该优化资源获取、什么时候该先把抽象边界讲清楚”的判断。

先问一个更本质的问题:为什么要做内存池?

内存池适合解决一类非常具体的问题:

  • 对象会被频繁创建和释放
  • 对象大小固定,或至少形状非常稳定
  • 你希望减少堆分配次数
  • 你希望减轻内存碎片问题
  • 你希望把“对象可复用”这件事表达得更明确

典型例子包括:

  • 游戏中的粒子对象
  • 任务调度器中的任务节点
  • 服务器中的连接上下文槽位
  • 编译器或解析器中的短生命周期节点
  • 固定尺寸缓存块

但同样重要的是,内存池并不适合所有场景
如果你的对象:

  • 大小变化很大
  • 生命周期交错复杂
  • 上界很难预测
  • 当前瓶颈根本不在分配器上

那么直接使用通用分配器通常更简单,也更稳妥。

所以,内存池不是“默认更好”,而是一种针对特定约束的优化性设计

这一章的实现目标

我们将实现一个教学用最小内存池,并围绕它讲清楚四件事:

  1. 数据布局是什么
  2. 哪些不变量必须始终成立
  3. 接口契约是什么
  4. 哪些错误当前实现不主动防御,而是依赖调用者遵守前提

这四件事比“代码逐行解释”更重要。
因为真正理解内存池,不是看懂 for 循环和指针算术,而是知道:

  • 什么状态可以信任
  • 什么行为会破坏模型
  • 什么约束是性能换来的代价

先给出实现

const std = @import("std");

fn MemoryPool(comptime T: type) type {
    comptime {
        if (@sizeOf(T) == 0) {
            @compileError("MemoryPool 不支持零大小类型");
        }
    }

    return struct {
        const Self = @This();

        items: []T,
        used: []bool,
        allocator: std.mem.Allocator,
        count: usize,

        pub fn init(allocator: std.mem.Allocator, capacity: usize) !Self {
            const items = try allocator.alloc(T, capacity);
            errdefer allocator.free(items);

            const used = try allocator.alloc(bool, capacity);
            errdefer allocator.free(used);

            @memset(used, false);

            return .{
                .items = items,
                .used = used,
                .allocator = allocator,
                .count = 0,
            };
        }

        pub fn deinit(self: *Self) void {
            self.allocator.free(self.items);
            self.allocator.free(self.used);
        }

        pub fn acquire(self: *Self) ?*T {
            for (self.used, 0..) |is_used, index| {
                if (!is_used) {
                    self.used[index] = true;
                    self.count += 1;
                    return &self.items[index];
                }
            }
            return null;
        }

        pub fn release(self: *Self, item: *T) void {
            const base_addr = @intFromPtr(self.items.ptr);
            const item_addr = @intFromPtr(item);
            const offset = item_addr - base_addr;
            const index = offset / @sizeOf(T);

            if (index < self.used.len and self.used[index]) {
                self.used[index] = false;
                self.count -= 1;
            }
        }

        pub fn getStats(self: *const Self) struct {
            total: usize,
            used: usize,
            free: usize,
        } {
            return .{
                .total = self.items.len,
                .used = self.count,
                .free = self.items.len - self.count,
            };
        }
    };
}

test "memory pool basic lifecycle" {
    var pool = try MemoryPool(i32).init(std.testing.allocator, 4);
    defer pool.deinit();

    const a = pool.acquire().?;
    const b = pool.acquire().?;

    a.* = 10;
    b.* = 20;

    try std.testing.expectEqual(@as(i32, 10), a.*);
    try std.testing.expectEqual(@as(i32, 20), b.*);

    var stats = pool.getStats();
    try std.testing.expectEqual(@as(usize, 4), stats.total);
    try std.testing.expectEqual(@as(usize, 2), stats.used);
    try std.testing.expectEqual(@as(usize, 2), stats.free);

    pool.release(a);
    pool.release(b);

    stats = pool.getStats();
    try std.testing.expectEqual(@as(usize, 0), stats.used);
    try std.testing.expectEqual(@as(usize, 4), stats.free);
}

先不要急着看细节。
这份实现最重要的不是“它怎么写”,而是“它依赖什么成立”。

先理解数据布局

这个最小内存池由四部分核心状态组成:

  • items: []T
  • used: []bool
  • allocator: std.mem.Allocator
  • count: usize

1. items

items 是真正存放对象槽位的连续内存。

你可以把它理解成:

“池里所有可复用对象的物理存储区。”

如果容量是 10,那么 items[0]items[9] 就是 10 个可反复借出和归还的槽位。

2. used

useditems 一一对应:

  • used[i] == true 表示 items[i] 当前已借出
  • used[i] == false 表示 items[i] 当前空闲可用

因此,它本质上是一个“占用位图的最简单版本”。

3. allocator

它负责在初始化时分配 itemsused,并在销毁时回收它们。

这延续了 Zig 的标准设计原则:

分配器要显式传入,而不是偷偷藏在全局状态里。

4. count

count 表示当前已借出的对象数量。
它的作用不是必需,但非常有用:

  • 快速提供统计信息
  • 避免每次都遍历 used
  • 帮助我们检查池状态是否大致合理

这个实现依赖哪些不变量?

这是整章最重要的部分。

不变量 1:items.len == used.len

每个对象槽位必须对应一个使用标记。
如果这两者长度不同,那么:

  • used 就无法准确描述每个槽位状态
  • acquirerelease 的索引逻辑就会失去意义

在当前实现里,这个不变量由 init 保证:

  • itemscapacity 分配
  • used 也按同样的 capacity 分配

不变量 2:count 必须等于 used == true 的数量

也就是说:

  • count 不能大于总容量
  • count 不能小于 0(对 usize 来说就是不能下溢)
  • count 应该始终反映“实际已借出对象数”

当前实现通过这两个操作维护它:

  • acquire 成功时 count += 1
  • release 成功归还时 count -= 1

不变量 3:used[i] == false 的槽位才允许被 acquire

这听起来像废话,但它就是对象池正确性的核心:

  • 一个槽位不能同时借给两个调用者
  • 一个调用者归还后,槽位才再次变为空闲

不变量 4:release 传入的指针必须来自当前池中的某个槽位

这是最关键、也最容易被忽略的接口契约之一。

当前实现默认信任调用者:

  • 传入的 item 是从本池 acquire() 得到的
  • 它仍然指向本池中的有效槽位
  • 它没有被重复释放

一旦这个前提被破坏,release 的行为就不再可靠。

初始化阶段:池在建立什么状态?

init

const items = try allocator.alloc(T, capacity);
errdefer allocator.free(items);

const used = try allocator.alloc(bool, capacity);
errdefer allocator.free(used);

@memset(used, false);

这里做了三件事:

  1. 分配对象槽位数组
  2. 分配占用标记数组
  3. 把所有槽位初始化为空闲状态

这里使用 errdefer 确保初始化中途失败时已分配的资源被回滚(errdefer 详见错误处理)。

acquire:借出对象时到底发生了什么?

实现如下:

pub fn acquire(self: *Self) ?*T {
    for (self.used, 0..) |is_used, index| {
        if (!is_used) {
            self.used[index] = true;
            self.count += 1;
            return &self.items[index];
        }
    }
    return null;
}

它的行为可以拆成四步:

  1. 线性扫描 used
  2. 找到第一个空闲槽位
  3. 将其标记为已使用
  4. 返回该槽位的指针

acquire() 返回 ?*T:池满时返回 null,调用者必须显式处理。当前实现使用线性扫描,acquire 的时间复杂度为 O(n)

release:归还对象时真正困难的是什么?

实现如下:

pub fn release(self: *Self, item: *T) void {
    const base_addr = @intFromPtr(self.items.ptr);
    const item_addr = @intFromPtr(item);
    const offset = item_addr - base_addr;
    const index = offset / @sizeOf(T);

    if (index < self.used.len and self.used[index]) {
        self.used[index] = false;
        self.count -= 1;
    }
}

这是本章里最“危险但有代表性”的部分。

它在做什么?

因为 release 收到的是一个 *T,而不是槽位索引。
所以它要先回答一个问题:

这个指针对应的是 items 里的第几个槽位?

于是代码通过指针地址做反推:

  1. 取出池起始地址 base_addr
  2. 取出目标对象地址 item_addr
  3. 做地址差值得到偏移
  4. 用元素大小除出索引

如果这个索引合法,并且当前槽位确实处于已使用状态,就把它改回空闲。

为什么这很高效?

因为它避免了“释放时再扫描整个池找这个对象”的成本。
一旦前提成立,索引推导就是常数时间。

所以它的优点是:

  • release 可以做到接近 O(1)
  • 不需要维护额外查找结构
  • 很符合固定槽位池的设计思路

但为什么它也危险?

因为它几乎完全依赖调用者守约。

当前实现没有完整防御以下情况:

  • 传入的指针并不来自当前池
  • 传入的指针不是槽位起始地址
  • 同一个对象被重复释放
  • 某个指针已经悬空
  • 某个指针来自别的池,但地址碰巧落入某种危险区间

也就是说:

当前 release 更像“高信任契约接口”,而不是“强防御式接口”。

这并不是教学实现的错误,
但必须被明确写出来,不能让读者误以为它天然安全。

这个接口契约到底是什么?

可以把当前内存池的接口契约写得非常明确。

init(allocator, capacity)

调用者承诺:

  • 提供有效的分配器
  • 容量表达的是池的固定上限

内存池承诺:

  • 成功后,所有槽位都处于空闲状态
  • 失败时不会泄漏初始化过程中已获取的资源

acquire()

调用者承诺:

  • 正常处理返回 null 的情况

内存池承诺:

  • 如果返回非空指针,该指针对应一个独占槽位
  • 在被释放前,这个槽位不会再次被借出

release(item)

调用者承诺:

  • item 确实来自当前池
  • item 对应的是一个当前仍处于“已借出”状态的槽位
  • 不会重复释放同一对象
  • 不会传入伪造或失效指针

内存池承诺:

  • 在这些前提成立时,槽位会重新变为空闲
  • 后续 acquire 可以再次复用它

把这段契约看清楚,比记住代码本身更重要。
因为很多高性能数据结构本质上都在做类似的交易:

  • 更少的运行时防御
  • 换来更低的额外成本
  • 前提是调用者必须更守规矩**

一个最容易被忽略的问题:复用意味着旧状态仍然存在

很多初学者第一次看对象池时,会潜意识觉得:

“释放后,这个对象应该自动变回干净状态吧?”

但当前实现没有这么做。

例如:

const item = pool.acquire().?;
item.* = 123;
pool.release(item);

const reused = pool.acquire().?;

这里 reused 很可能就是刚才那个槽位。
而如果没有额外清理,它里面可能仍然保留旧值 123

这不是 bug,而是对象池模型的自然结果:

  • 释放只是“归还槽位”
  • 不等于“自动重置对象内容”

所以你必须显式考虑:

  • 是由调用者在重新使用前覆盖全部字段?
  • 还是在 release 时统一重置?
  • 还是在 acquire 后做初始化?

这属于设计决策的一部分,不应默认含糊过去。

为什么这里不用“更聪明”的设计?

你可能会问:

  • 为什么不用空闲链表?
  • 为什么不用位图压缩?
  • 为什么不做重复释放检测?
  • 为什么不验证指针来源?

答案是:

因为本章当前目标是先讲清楚模型和契约

如果一开始就把实现升级成:

  • 空闲链表
  • 调试断言
  • 指针合法性检查
  • 对象清零
  • 线程同步
  • 更复杂的统计字段

那么读者很容易在第一轮阅读中丢失重点。

教学上的更合理顺序通常是:

  1. 先用最小版本理解模型
  2. 再明确指出局限
  3. 最后讨论如何增强

这比一开始就堆上“完整版”更适合学习。

这个实现适合什么场景?

当前版本更适合作为:

1. 教学型原型

你想先验证:

  • 对象池模型是否适合这个问题
  • 资源复用语义是否清楚
  • 接口是否容易被调用方接受

2. 固定容量、单线程、小规模对象池

如果:

  • 对象大小固定
  • 容量上界明确
  • 没有跨线程共享
  • 可以接受线性扫描获取

那么这个版本已经足够说明思路。

3. 高频短生命周期对象

例如:

  • 临时任务节点
  • 事件对象
  • 粒子对象
  • 固定尺寸消息块

这个实现不适合什么场景?

当前版本不适合直接拿去当生产组件,尤其是这些情况:

1. 多线程共享访问

因为没有任何同步保护:

  • used 会发生竞争
  • count 会发生竞争
  • 同一槽位可能被并发错误借出/归还

2. 调用方不可信

如果你不能保证调用方一定正确传入来自本池的指针,
那当前 release 就不够安全。

3. 需要强防御式诊断

如果你希望组件主动检测:

  • 重复释放
  • 外来指针
  • 非槽位边界指针
  • 使用后释放

那当前实现还远远不够。

4. 容量不可预测

当前容量在初始化后固定,池满时只能返回 null
如果业务上界不清晰,或需要弹性扩容,这个模型就要继续演进。

5. 对象需要复杂清理逻辑

如果对象内部持有其他资源,例如:

  • 其他堆内存
  • 文件句柄
  • 网络连接
  • 锁或句柄

那么“释放槽位”不等于“完成对象析构”。
这种场景必须更小心设计对象生命周期。

如果继续演进,下一步通常会怎么改?

在真正工程里,最常见的增强方向通常有下面几类。

1. 用空闲链表替代线性扫描

这样可以把 acquire()O(n) 改进为更稳定的接近 O(1)

代价是:

  • 结构更复杂
  • 需要维护额外状态
  • 更难讲清楚第一次实现

2. 增加 Debug 模式下的合法性检查

例如验证:

  • 指针是否落在池范围内
  • 偏移是否对齐到对象边界
  • 是否发生重复释放

这会让教学实现更安全,也更适合调试。

3. 在 release() 时重置对象

例如:

  • 清零对象
  • 调用显式 reset
  • 清除敏感状态

这样可以减少“旧状态残留”问题,
但也会增加额外开销,并引入“重置策略属于谁”的设计问题。

4. 增加线程安全

通过:

  • 互斥锁
  • 原子操作
  • 分段池
  • 线程局部池

让对象池适应并发环境。

但这已经不再是“最小内存池”,而是另一个工程主题。

5. 分离调试模式和发布模式

例如:

  • Debug 模式做更强检查
  • Release 模式保留更轻量逻辑

这通常是高性能组件很常见的做法。

从这章真正应该学到什么?

如果你只把这章理解成“一个泛型数据结构示例”,那其实还不够。

这章真正要教你的,是下面这些判断。

1. 内存池的价值来自“复用”和“边界清楚”

不是所有分配器问题都需要对象池。
对象池只对一类约束明确的问题有效。

2. 高性能设计经常依赖接口契约

很多时候,速度不是白来的。
它往往来自:

  • 更少的抽象层
  • 更少的检查
  • 更明确的前提
  • 更强的调用方责任

3. 不变量比逐行代码更值得先理解

只要你能始终抓住:

  • itemsused 一一对应
  • count 反映借出数量
  • 每个槽位同一时刻只能被一个调用者持有
  • release 只能处理来自本池的有效指针

那你对这个实现就已经抓住了核心。

4. 教学实现和生产实现不是一回事

一个教学实现可以故意保留简化:

  • 它的目标是让结构变清楚
  • 不是一次性变成“可上线组件”

能区分这点,是阅读第三部分案例时非常重要的能力。

小结

这一章最重要的,不是“你会不会手写一个对象池”,而是你是否已经开始形成这些工程判断:

  • 什么时候对象池值得引入?
  • 它依赖哪些不变量?
  • acquirerelease 的接口契约是什么?
  • 为什么 release 的高效实现也意味着更强前提?
  • 为什么对象复用不等于对象自动重置?
  • 为什么教学代码必须明确写出它没有防御哪些错误?

如果你读完这一章后,已经能自然地问出这些问题,那么这一章就达到目的了。

实战案例 - 配置系统原型

章节定位:本章借助教学原型探讨配置字段的描述方式、元信息如何驱动运行时接口、以及类型安全方案的边界。这是一个围绕 comptime、字段元信息和接口设计展开的原型案例,已刻意简化默认值、校验、持久化等能力。

先说清楚:这不是生产级配置系统

很多读者看到“配置系统”四个字,会自然期待:

  • 读取配置文件
  • 支持环境变量覆盖
  • 支持命令行参数覆盖
  • 自动处理默认值
  • 自动做字段校验
  • 提供精确错误报告
  • 支持序列化与反序列化
  • 具备良好的扩展性和可维护性

这些当然都是现实工程中很重要的能力。
但本章故意不直接从这些目标起步,原因很简单:

如果一开始就把“真实配置系统”的全部问题堆在一起,你反而看不清最核心的结构设计问题。

所以本章的目标并不是“做完一个完整系统”,而是:

  1. 先把配置字段的描述方式讲清楚
  2. 先把元信息如何驱动接口讲清楚
  3. 先让你看到“原型为什么能工作”
  4. 再明确指出“它为什么还远远不够”

如果你带着这个预期来读,本章会很有价值。
如果把它当成现成模板来抄,就会高估这个实现的通用性。

配置系统最核心的问题是什么?

在写任何配置系统之前,先别急着想“读哪个文件格式”,而应该先回答几个结构性问题:

1. 有哪些字段?

例如:

  • port
  • max_connections
  • timeout
  • debug_mode

2. 每个字段是什么类型?

例如:

  • portu16
  • timeoutf32
  • debug_modebool

3. 每个字段是否有默认值?

如果没有显式设置,是不是应该回退到默认值?

4. 字段是否需要校验?

例如:

  • 端口不能为 0
  • 超时时间不能为负数
  • 最大连接数不能小于 1

5. 这些字段信息应该放在哪里?

如果字段名、类型、默认值、说明文字分散在多个地方,配置系统很快就会变得难维护。

这就是为什么很多配置系统设计,最后都会走向一个共同方向:

先把字段元信息集中描述,再让运行时代码围绕这份元信息工作。

而这也正是 Zig 的 comptime 很适合介入的地方。

本章原型想展示什么?

这个原型主要展示三件事:

  1. 字段元信息集中化
  2. 编译期字段列表驱动运行时接口
  3. 用统一接口处理若干基础类型

这里的重点不是“内部存储方式有多优雅”,而是:

  • 你如何描述字段
  • 你如何从字段描述生成行为
  • 你如何让 set / get 这样的接口围绕这份描述工作起来

为了突出这一点,本章会采用一个刻意简化的实现。

原型的字段描述

先定义每个配置字段的元信息:

const std = @import("std");

const ConfigField = struct {
    name: []const u8,
    type: type,
    description: []const u8,
};

这份结构很小,但已经体现出一个重要设计方向:

  • 字段名被统一描述
  • 字段类型被统一描述
  • 字段说明也被统一描述

这意味着,后续无论你要做:

  • 设置字段
  • 读取字段
  • 打印配置
  • 生成帮助文本

都可以围绕这份元信息展开,而不是把逻辑散落在很多地方。

一个教学性原型

下面这个实现不是为了“最优雅”或“最完整”,而是为了把结构问题讲清楚:

const std = @import("std");

const ConfigField = struct {
    name: []const u8,
    type: type,
    description: []const u8,
};

fn Config(comptime fields: []const ConfigField) type {
    return struct {
        const Self = @This();

        values: [fields.len]?u64,

        pub fn init() Self {
            var self: Self = undefined;
            @memset(&self.values, null);
            return self;
        }

        pub fn set(self: *Self, comptime field_name: []const u8, value: anytype) void {
            inline for (fields, 0..) |field, i| {
                if (std.mem.eql(u8, field.name, field_name)) {
                    if (@TypeOf(value) != field.type) {
                        @compileError("字段 " ++ field_name ++ " 的类型不匹配");
                    }

                    self.values[i] = switch (@typeInfo(field.type)) {
                        .int => switch (@typeInfo(field.type).int.signedness) {
                            .signed => @bitCast(@as(i64, @intCast(value))),
                            .unsigned => @as(u64, @intCast(value)),
                        },
                        .float => @as(u64, @bitCast(@as(f64, @floatCast(value)))),
                        .bool => if (value) 1 else 0,
                        else => @compileError("当前原型只支持 int / float / bool"),
                    };
                    return;
                }
            }

            @compileError("未知字段: " ++ field_name);
        }

        pub fn get(self: *const Self, comptime field_name: []const u8, comptime T: type) ?T {
            inline for (fields, 0..) |field, i| {
                if (std.mem.eql(u8, field.name, field_name)) {
                    if (T != field.type) {
                        @compileError("字段 " ++ field_name ++ " 的读取类型不匹配");
                    }

                    if (self.values[i]) |raw| {
                        return switch (@typeInfo(T)) {
                            .int => switch (@typeInfo(T).int.signedness) {
                                .signed => @as(T, @intCast(@as(i64, @bitCast(raw)))),
                                .unsigned => @as(T, @intCast(raw)),
                            },
                            .float => @as(T, @floatCast(@as(f64, @bitCast(raw)))),
                            .bool => raw != 0,
                            else => @compileError("当前原型只支持 int / float / bool"),
                        };
                    }

                    return null;
                }
            }

            @compileError("未知字段: " ++ field_name);
        }

        pub fn printConfig(self: *const Self) void {
            inline for (fields) |field| {
                std.debug.print("{s}: ", .{field.name});

                switch (@typeInfo(field.type)) {
                    .int => {
                        if (self.get(field.name, field.type)) |value| {
                            std.debug.print("{}\n", .{value});
                        } else {
                            std.debug.print("(未设置)\n", .{});
                        }
                    },
                    .float => {
                        if (self.get(field.name, field.type)) |value| {
                            std.debug.print("{d}\n", .{value});
                        } else {
                            std.debug.print("(未设置)\n", .{});
                        }
                    },
                    .bool => {
                        if (self.get(field.name, field.type)) |value| {
                            std.debug.print("{}\n", .{value});
                        } else {
                            std.debug.print("(未设置)\n", .{});
                        }
                    },
                    else => {
                        std.debug.print("(当前原型不支持该类型)\n", .{});
                    },
                }
            }
        }
    };
}

这个原型的核心思路是什么?

先不要急着纠结 u64@bitCast@typeInfo 这些细节。
更值得先抓住的是整体结构:

1. ConfigField 负责描述字段

它回答的是:

  • 这个字段叫什么?
  • 它是什么类型?
  • 它的说明是什么?

这一步相当于把“配置系统的数据模型”先独立出来。

2. Config(fields) 是一个类型工厂

这和第二部分泛型章节的思路是一致的:

  • fields 是编译期已知的数据
  • Config(fields) 根据这份编译期字段列表,返回一个具体配置类型

也就是说:

配置结构不是“手写一个固定 struct”,而是由一组字段元信息驱动生成的。

3. set / get 围绕字段表工作

这里的 inline for 非常关键。
它让编译器在编译期展开字段列表,从而实现:

  • 按字段名匹配
  • 按字段类型做检查
  • 针对不同类型选择不同的存取逻辑

这就是本章最想让你看到的地方:

编译期字段描述,可以直接塑造运行时接口的结构。

使用这个原型

完整的 Config 实现见前文,这里只展示差异部分和用法。

差异:printConfig 增加了描述信息

前文版本的 printConfig 只打印字段名。使用时可以改进为同时打印描述:

pub fn printConfig(self: *const Self) void {
    inline for (fields) |field| {
        std.debug.print("{s} ({s}): ", .{ field.name, field.description });
        // ... 其余分支逻辑与前文 printConfig 相同
    }
}

测试代码

test "configuration prototype" {
    const fields = [_]ConfigField{
        .{ .name = "port", .type = u16, .description = "服务器端口" },
        .{ .name = "max_connections", .type = u32, .description = "最大连接数" },
        .{ .name = "timeout", .type = f32, .description = "超时时间(秒)" },
        .{ .name = "debug_mode", .type = bool, .description = "调试模式" },
    };

    var config = Config(&fields).init();

    config.set("port", @as(u16, 8080));
    config.set("max_connections", @as(u32, 1000));
    config.set("timeout", @as(f32, 30.5));
    config.set("debug_mode", true);

    try std.testing.expectEqual(@as(?u16, 8080), config.get("port", u16));
    try std.testing.expectEqual(@as(?u32, 1000), config.get("max_connections", u32));
    try std.testing.expectEqual(@as(?bool, true), config.get("debug_mode", bool));
}

原型边界

已解决未解决
字段元信息(名称、类型、说明)集中描述读取配置文件 / 环境变量等真实输入
comptime 字段表驱动运行时 set / get复杂类型(字符串、枚举、结构体)
通过 inline for 自动生成 printConfig默认值与“未设置“的语义区分
编译期类型检查(@typeInfo + @hasField字段校验与精确错误报告

演进方向

  1. 补默认值机制——区分“未设置“和“显式为空“
  2. 加入字段校验——类型检查之外的值范围校验
  3. 处理真实输入——从文件/环境变量/命令行读取
  4. 改进内部表示——当前 [N]?u64 只适合简单整数/布尔
  5. 补测试——配置系统是规则密集型模块,依赖清晰的小测试

小结

这一章的核心价值在于展示配置系统首先是数据模型设计问题——在处理文件格式之前,先把字段模型讲清楚。comptime 元信息驱动接口结构正是 Zig 擅长的一类设计。原型不是成品,但能把问题拆开,让后续的演进路径更清晰。

SIMD 向量编程(专题)

这一章更适合作为专题导读来阅读,而不是把它当成“写了 @Vector 就一定更快”的性能秘籍。

Zig 提供了对 SIMD(单指令多数据)相关向量语义的原生表达能力,这让你可以更直接地描述数据并行计算。
但这并不意味着:

  • 只要用了 @Vector 就一定会得到硬件 SIMD 指令
  • 只要写成向量代码,性能就一定优于标量代码
  • 只要示例能运行,就已经适合放进真实热点路径

⚠️ 重要提醒

@Vector 表示的是向量语义,而不是“必然生成硬件 SIMD 指令”的承诺。 编译器是否真的生成对应的 SIMD 机器码,仍然取决于:

  • 目标 CPU 架构
  • 当前优化级别
  • 数据布局与对齐情况
  • 具体运算是否适合被自动向量化或映射到目标指令集

因此,学习本章时应把重点放在:

  • 如何用 Zig 表达向量计算
  • 哪些场景适合尝试数据并行
  • 如何通过测试和基准验证是否真的获得性能收益
  • 如何判断“向量语义”和“真实 SIMD 收益”之间是否真的对应

而不要把 @Vector 简单理解成“写了就一定会有 SIMD 加速”。

阅读本章前,最好先有这几个前提

在下面这些情况下阅读本章会更合适:

  • 你已经掌握了数组、切片、循环和基本数值运算
  • 你已经理解“先测量,再优化”的工作顺序
  • 你面对的是明确的数值处理或批量数据计算场景
  • 你愿意把“是否更快”交给测试、基准和目标平台验证,而不是凭直觉判断

如果你只是刚开始学习 Zig,或者当前项目还没有明确热点代码,那么本章更适合先当作“知道有这条路”而不是“马上必须使用”的技能点。

学这一章时,最值得关注的主线

1. 向量语义不等于自动性能收益

这是本章最重要的一条主线。
你写的是“可以按向量方式理解的数据计算”,但最终是否映射成高效机器码,仍要看平台和编译结果。

2. SIMD 更适合已经确认存在热点的代码

如果你还没确定瓶颈在哪里,就急着把代码改成向量风格,通常很容易把复杂度提前引入。

3. 验证要同时看正确性和收益

即使某段向量代码真的更快,也仍然需要确认:

  • 结果是否正确
  • 可读性是否还能接受
  • 这种写法是否值得长期维护

换句话说,本章的重点不是“学几个内建函数”,而是建立一种更谨慎的判断:

只有当问题确实适合数据并行、且收益经过验证时,SIMD 才值得进入你的常规工具箱。

向量类型

const std = @import("std");

pub fn main(_: std.process.Init) void {
    // 定义向量类型:4 个 f32
    const Vec4 = @Vector(4, f32);
    
    // 创建向量
    const a: Vec4 = .{ 1.0, 2.0, 3.0, 4.0 };
    const b: Vec4 = .{ 5.0, 6.0, 7.0, 8.0 };
    
    // 向量运算(具有向量语义;是否映射为硬件 SIMD 取决于目标平台与优化情况)
    const sum = a + b;
    const diff = a - b;
    const prod = a * b;
    const quot = a / b;
    
    std.debug.print("sum: {any}\n", .{sum});
    std.debug.print("diff: {any}\n", .{diff});
    std.debug.print("prod: {any}\n", .{prod});
    std.debug.print("quot: {any}\n", .{quot});
    
    // 向量与标量运算
    const scaled = a * @as(f32, 2.0);
    std.debug.print("scaled: {any}\n", .{scaled});
}

向量操作

const std = @import("std");

pub fn main(_: std.process.Init) void {
    const Vec8 = @Vector(8, i32);
    
    const a: Vec8 = .{ 1, 2, 3, 4, 5, 6, 7, 8 };
    const b: Vec8 = .{ 8, 7, 6, 5, 4, 3, 2, 1 };
    
    // 向量比较(返回布尔向量)
    const cmp = a < b;
    std.debug.print("a < b: {any}\n", .{cmp});
    
    // 向量混合(基于掩码)
    const mixed = @select(i32, cmp, a, b);
    std.debug.print("mixed: {any}\n", .{mixed});
    
    // 向量归约
    const sum = @reduce(.Add, a);
    const min = @reduce(.Min, a);
    const max = @reduce(.Max, a);
    
    std.debug.print("sum: {}, min: {}, max: {}\n", .{ sum, min, max });
    
    // 向量洗牌
    const shuffled = @shuffle(i32, a, b, [_]i32{ 0, 8, 2, 10, 4, 12, 6, 14 });
    std.debug.print("shuffled: {any}\n", .{shuffled});
}

一个最小但典型的例子:向量点积

const std = @import("std");

fn dotProduct(comptime N: usize, a: @Vector(N, f32), b: @Vector(N, f32)) f32 {
    const prod = a * b;
    return @reduce(.Add, prod);
}

pub fn main(_: std.process.Init) void {
    const Vec4 = @Vector(4, f32);
    
    const v1: Vec4 = .{ 1.0, 2.0, 3.0, 4.0 };
    const v2: Vec4 = .{ 5.0, 6.0, 7.0, 8.0 };
    
    const dot = dotProduct(4, v1, v2);
    std.debug.print("点积:{}\n", .{dot}); // 1*5 + 2*6 + 3*7 + 4*8 = 70
}

本章小结

这一章最重要的收获,不是“会写几个 @Vector 示例”,而是理解下面这些判断:

  • @Vector 表达的是向量语义,不是自动性能承诺
  • SIMD 更适合已经确认存在热点的数值或批量数据处理代码
  • 真正是否值得采用,应由测试、基准和目标平台结果共同决定
  • 向量写法带来的复杂度,必须和实际收益一起评估

如果你带着这个视角来读,那么本章就能很好地充当一个“按需深入”的专题入口,而不是把你误导到“只要向量化就一定更快”的路径上。

异步 I/O:现状、历史与未来方向

章节定位:第三部分的方向性专题,聚焦于 Zig 异步 I/O 的历史演进和决策框架

std.Io 的具体 API 用法见 std.Io 接口详解;线程、锁、原子操作等并发基础见 并发编程概述;网络程序实战见 HTTP 服务器设计与最小实现

现状结论

今天的 Zig 异步 I/O,可以这样理解:

  1. 旧的语言级 async/await/suspend/resume 已经退出主线,本章会解释原因
  2. std.Io 已经提供了可用的异步和并发接口FutureQueueGroupSelect 等),详见 std.Io 接口详解
  3. 线程模型仍然是最底层、最稳定的基础,见 并发编程概述
  4. std.Io 接口仍在演进中——可用于大多数场景,但 API 可能在未来版本调整

稳定实践主线

场景当前推荐的方案说明
一般 I/O 任务std.Io + io.async统一接口,支持异步
CPU 密集型任务std.Thread直接利用操作系统线程
后台任务处理std.Io.concurrent + Queue保证并发
高并发网络服务根据版本与生态谨慎评估可关注 std.Io.Evented(概念验证阶段)或第三方库
简单多线程程序std.Thread + Mutex最直接的方案

在稳定性和可维护性更重要的场景里,选择你能理解、能验证、能解释的方案。

历史背景:为什么旧的 async/await 退出了主线

Zig 曾经探索过语言级的 async/await/suspend/resume 关键字。这条路后来没有继续,原因是:

  • 原有设计没有很好地融入 Zig 的整体模型(错误处理、类型系统、显式资源管理、语言复杂度控制)
  • 异步运行时不是“加几个关键字“就能稳定落地的——它牵涉调度模型、任务生命周期、I/O 驱动方式、平台差异
  • 团队更倾向于把 I/O 和并发能力往更显式、可组合、库层组织的方向推进,这也是 std.Io 路线的背景

所以更准确的理解是:旧的语言级协程方案退出了主线,新的统一 I/O / 并发方向正在继续探索。

std.Io 的现状

std.Io 在 0.16 中已经可用,覆盖:文件 I/O(Io.DirIo.File)、流式读写(ReaderWriter)、异步任务(io.asyncFutureawait/cancel)、并发保证(io.concurrent)、任务协调(QueueGroupSelect)、时间操作、同步原语(RwLockSemaphorefutexWait/futexWake)。

具体用法见 std.Io 接口详解

std.Io 仍在演进:方法名和类型形状可能继续调整,Evented 实现(基于 io_uringkqueuedispatch)仍处于概念验证阶段。更好的做法是:积极学习使用,关注设计意图,遇到问题时查阅源码确认。

异步、并发、并行是不同的概念

概念理解
异步任务的组织方式不要求按单一顺序阻塞等待
并发系统可以在时间上交错推进多个任务
并行多个任务在物理层面同时执行

std.Io 同时提供了异步(io.async)和并发(io.concurrent)能力,但它们不是同一回事——异步只提供“可以被并发推进“的潜力,并发保证同时推进但可能失败(error.ConcurrencyUnavailable)。

看见旧代码时,应该怎么处理?

先不要急着找“对应的新写法“。先问:

  1. 这段代码真正想解决什么问题?——同时推进多个任务?等待 I/O 时不阻塞?组织请求处理逻辑?
  2. 这个问题今天更现实的实现方式是什么?——线程?阻塞 I/O + 工作线程?std.Io 的异步接口?

迁移的重点不是“把关键字换掉“,而是把问题重新映射到今天更稳定的并发模型上:把流程拆成更清楚的同步阶段,用线程推进需要并行的部分,用共享状态或消息队列传递结果。

如果你现在要做网络/异步相关项目

  • 确认需求:真的需要异步吗?还是同步就够了?先跑通再说。
  • 从最简单的实现开始:线程 > io.concurrent > 复杂异步模型
  • 先跑通,再优化:只有确认当前模型确实成了瓶颈,再评估更复杂的方案

第三方库

标准库高层异步 I/O 方向仍在演进,第三方库可以作为现实工程中的候选方案。但要注意:库的 API 变化可能比语言还快,“能跑“不等于“适合长期依赖”,需结合版本、维护状态、文档质量单独评估。

小结

  1. 旧的语言级 async/await/suspend/resume 已退出主线
  2. std.Io 已提供可用的异步和并发接口(io.asyncFutureQueueGroupSelect
  3. 线程模型仍然是最稳定的基础
  4. 异步、并发、并行是不同的概念

新旧对比

旧风格(Zig 0.10 伪代码,已移除):

// 旧:语言级 async/await
var frame = async worker();
const result = await frame;

新风格(Zig 0.16):

// 新:std.Io 函数式异步
var future = io.async(worker, .{arg});
const result = try future.await(io);

核心变迁:从语言级关键字 → 库级显式接口,io 作为统一上下文传入。

高级内存管理技巧

本章讨论两类进阶内存策略,它们分别回答不同的问题:

  • 包装分配器:在不修改业务逻辑的前提下,统计和观测分配行为
  • 对象池优化:用空闲索引表替代线性扫描,降低获取空闲对象的开销

核心前提是:这些技巧适合在已经确认优化必要时引入,不应作为默认起手式。基本的内存管理原则——显式传递 Allocator、用 defer/errdefer 收拢清理路径、明确所有权边界——在大多数项目中已经足够。

一、包装分配器:增加分配行为的可观测性

一个最小统计分配器

下面的实现包装了一个已有分配器,记录分配次数、释放次数和当前统计字节数。

const std = @import("std");

const TrackingAllocator = struct {
    backing_allocator: std.mem.Allocator,
    allocations: usize,
    deallocations: usize,
    bytes_allocated: usize,

    const Self = @This();

    fn init(backing: std.mem.Allocator) Self {
        return .{
            .backing_allocator = backing,
            .allocations = 0,
            .deallocations = 0,
            .bytes_allocated = 0,
        };
    }

    fn allocator(self: *Self) std.mem.Allocator {
        return .{
            .ptr = self,
            .vtable = &.{
                .alloc = alloc,
                .resize = resize,
                .remap = remap,
                .free = free,
            },
        };
    }

    fn alloc(
        ctx: *anyopaque,
        len: usize,
        alignment: std.mem.Alignment,
        ret_addr: usize,
    ) ?[*]u8 {
        const self: *Self = @ptrCast(@alignCast(ctx));
        const ptr = self.backing_allocator.vtable.alloc(
            self.backing_allocator.ptr,
            len,
            alignment,
            ret_addr,
        ) orelse return null;
        self.allocations += 1;
        self.bytes_allocated += len;
        return ptr;
    }

    fn resize(
        ctx: *anyopaque,
        memory: []u8,
        alignment: std.mem.Alignment,
        new_len: usize,
        ret_addr: usize,
    ) bool {
        const self: *Self = @ptrCast(@alignCast(ctx));
        return self.backing_allocator.vtable.resize(
            self.backing_allocator.ptr,
            memory,
            alignment,
            new_len,
            ret_addr,
        );
    }

    fn remap(
        ctx: *anyopaque,
        memory: []u8,
        alignment: std.mem.Alignment,
        new_len: usize,
        ret_addr: usize,
    ) ?[*]u8 {
        const self: *Self = @ptrCast(@alignCast(ctx));
        return self.backing_allocator.vtable.remap(
            self.backing_allocator.ptr,
            memory,
            alignment,
            new_len,
            ret_addr,
        );
    }

    fn free(
        ctx: *anyopaque,
        memory: []u8,
        alignment: std.mem.Alignment,
        ret_addr: usize,
    ) void {
        const self: *Self = @ptrCast(@alignCast(ctx));
        self.deallocations += 1;
        self.bytes_allocated -= memory.len;
        self.backing_allocator.vtable.free(
            self.backing_allocator.ptr,
            memory,
            alignment,
            ret_addr,
        );
    }

    fn printStats(self: *const Self) void {
        std.debug.print("分配次数:{}, 释放次数:{}, 当前字节数:{}\n", .{
            self.allocations,
            self.deallocations,
            self.bytes_allocated,
        });
    }
};

pub fn main(_: std.process.Init) !void {
    var gpa: std.heap.DebugAllocator(.{}) = .init;
    defer _ = gpa.deinit();

    var tracker = TrackingAllocator.init(gpa.allocator());
    const allocator = tracker.allocator();

    const mem1 = try allocator.alloc(u8, 100);
    const mem2 = try allocator.alloc(u8, 200);

    tracker.printStats();

    allocator.free(mem1);
    allocator.free(mem2);

    tracker.printStats();
}

设计要点

  • Allocator 可以像其他接口一样被组合和包装,观测逻辑外挂到包装层,业务模块的签名和实现无需改动
  • VTable 使用 ptr + vtable 模式构造(参见接口章节),@ptrCast(@alignCast(ctx)) 将类型擦除指针还原
  • printStats 替换为日志或条件编译选项,即可切换到统计模式

局限

bytes_allocated 只在 alloc/free 中更新,resizeremap 的变化未同步,因此该值只是近似观察值。此外,没有并发安全、没有记录调用来源,手动拼装 vtable 的方式也属于版本敏感的底层接口。

适用场景

  • 定位某个模块的分配行为
  • 怀疑分配次数过多是热点
  • 在不改业务逻辑的前提下做局部实验

二、对象池:空闲索引表优化

对象池的核心思路是提前准备一批对象槽位,获取和归还都在这批存储上完成。前一章的内存池使用线性扫描寻找空闲槽位(O(n)),本节使用空闲索引表(free list)优化为 O(1)。

空闲列表对象池

const std = @import("std");

fn ObjectPool(comptime T: type) type {
    return struct {
        const Self = @This();

        items: []T,
        free_list: []usize,
        free_count: usize,
        allocator: std.mem.Allocator,

        fn init(allocator: std.mem.Allocator, capacity: usize) !Self {
            const items = try allocator.alloc(T, capacity);
            const free_list = try allocator.alloc(usize, capacity);

            for (0..capacity) |i| {
                free_list[i] = i;
            }

            return .{
                .items = items,
                .free_list = free_list,
                .free_count = capacity,
                .allocator = allocator,
            };
        }

        fn deinit(self: *Self) void {
            self.allocator.free(self.items);
            self.allocator.free(self.free_list);
        }

        fn acquire(self: *Self) ?*T {
            if (self.free_count == 0) return null;

            self.free_count -= 1;
            const index = self.free_list[self.free_count];
            return &self.items[index];
        }

        fn release(self: *Self, item: *T) void {
            const ptr_offset = @intFromPtr(item) - @intFromPtr(self.items.ptr);
            const item_index = ptr_offset / @sizeOf(T);

            if (item_index < self.items.len) {
                self.free_list[self.free_count] = item_index;
                self.free_count += 1;
            }
        }
    };
}

pub fn main(_: std.process.Init) !void {
    var gpa: std.heap.DebugAllocator(.{}) = .init;
    defer _ = gpa.deinit();

    var pool = try ObjectPool(i32).init(gpa.allocator(), 100);
    defer pool.deinit();

    const obj1 = pool.acquire().?;
    const obj2 = pool.acquire().?;

    obj1.* = 42;
    obj2.* = 100;

    std.debug.print("obj1: {}, obj2: {}\n", .{ obj1.*, obj2.* });

    pool.release(obj1);
    pool.release(obj2);
}

设计要点

  • free_list 充当“空闲槽位索引栈“:acquire 直接从栈顶取索引,无需遍历整个槽位数组
  • release 通过指针算术反推索引,开销接近 O(1)
  • 容量在初始化后固定,池满时 acquire 返回 null

代价

  • release 正确性依赖调用者守约:指针必须来自当前池、未重复释放。if (item_index < self.items.len) 只做边界检查,不能防御外来指针或重复归还
  • 复用对象可能携带上次使用后的旧状态,需在重新使用前显式覆盖或重置
  • 非线程安全,并发获取/归还需要额外同步

适用场景

对象大小固定、创建和释放频繁、容量上界已知的场景,如任务节点、事件对象、固定尺寸消息块。不适合大小变化大、容量不可预测或并发共享无同步保护的情况。

三、两种策略对比

维度包装分配器对象池(free list)
主要目标观测和统计分配行为降低重复分配成本
是否改变资源获取方式
对业务接口侵入性
适合问题阶段诊断、排查、实验确认需要优化后
主要风险统计不精确、接口版本敏感容量限制、错误释放、旧状态残留

核心判断:先区分“观察问题“还是“分配策略问题“。

四、版本敏感说明

本章中相对稳定的内容是设计原则:所有权与释放责任、Allocator 作为显式接口、对象池适合固定形状频繁复用对象、高级优化意味着更强的正确性约束。

更可能随版本变化的是:手动拼装 allocator vtable 的方式、底层 rawAlloc/rawResize/rawRemap/rawFree 接口的签名。阅读时应结合本地标准库源码确认,优先掌握设计判断和责任边界。

五、进一步演进方向

包装分配器:补全 resize/remap 的统计一致性、添加并发安全(std.Io.Mutex 等)、记录调用来源和堆栈、增加测试覆盖。

对象池:合法性检查(指针范围、对齐验证)、重复释放检测、对象重置策略、线程安全、容量耗尽时的策略选择(阻塞等待/自动扩容/返回错误)。

小结

本章的核心不是记住两段代码,而是建立以下判断:

  • 何时需要引入高级内存技巧,而不是直接使用通用分配器
  • 包装分配器解决观测问题,对象池解决复用策略问题
  • 性能提升往往伴随更高的正确性成本和更强的接口契约
  • 稳定的设计原则比易变的 API 形状更值得投入理解

如果已经能区分“观察问题“和“分配策略问题“,并根据收益和代价做出选择,这一章就达到了目的。

性能优化与调试(专题)

这一章不试图给出一份“性能优化万能清单”,而是把重点放在一个更可靠、更适合真实项目的工作流程上:

先测量,再调试,再验证。

如果你已经完成了前面的 CLI、HTTP、内存池等案例,这一章会更有价值,因为你已经有了可以观察、修改、比较的实际程序。
也正因为如此,本章更像一个实践工具箱,而不是一份需要按顺序死记的“固定答案”。

为什么性能优化最容易被做错?

很多性能问题不是出在“不会优化”,而是出在优化顺序错误

常见误区包括:

  • 还没确认瓶颈,就开始改代码
  • 还没确认程序是否正确,就开始追求更快
  • 用一次性的时间戳打印,就下结论说“这个版本更快”
  • 把开发版 API 差异、调试输出、构建模式差异混进结果里,导致比较失真

因此,本章最核心的目标只有三个:

  1. 先确认你测到的东西到底是什么
  2. 先定位问题,再决定是否值得优化
  3. 每次改动后都重新验证正确性和结果

一个更可靠的工作流:Measure → Debug → Verify

你可以把本章的主线记成下面三个词:

1. Measure:先测量

先回答这些问题:

  • 程序慢在哪里?
  • 是 CPU 计算慢,还是 I/O 等待多?
  • 是某个热点函数慢,还是整体流程都慢?
  • 是 Debug 构建太慢,还是 Release 下仍然慢?

2. Debug:再调试

当你已经知道“哪里值得看”之后,再进入调试阶段:

  • 打印关键变量
  • 检查边界条件
  • 加断言
  • 缩小问题范围
  • 验证是不是某个设计或数据结构本身有问题

3. Verify:最后验证

优化不是“改完看起来更高级”就算完成。你还需要确认:

  • 结果是否仍然正确
  • 代码是否仍然可读、可维护
  • 性能是否真的改善
  • 改动是否只在某个偶然输入下才显得更快

第一步:先测量,而不是先猜

先区分构建模式

构建模式会显著影响性能表现(各模式的区别见构建系统章节)。性能比较前先确认你用的是哪种模式。

一个最小测量示例

下面这个例子适合演示“最基础的时间测量”,但它不是严格基准测试框架

const std = @import("std");

fn workload() usize {
    var sum: usize = 0;
    for (0..1_000_000) |i| {
        sum += i;
    }
    return sum;
}

pub fn main(init: std.process.Init) void {
    const start = std.Io.Timestamp.now(init.io, .awake);
    const result = workload();
    const end = std.Io.Timestamp.now(init.io, .awake);

    const elapsed = start.durationTo(end);
    const elapsed_ms = @as(f64, @floatFromInt(elapsed.nanoseconds)) / std.time.ns_per_ms;

    std.debug.print("result = {}\n", .{result});
    std.debug.print("elapsed = {d:.3} ms\n", .{elapsed_ms});
}

这个例子能做什么,不能做什么?

它能帮助你:

  • 粗略比较两个版本
  • 验证某段代码是不是明显变慢了
  • 对热点有一个初步感觉

但它不适合直接得出“最终性能结论“,因为:

  • 只跑一次,波动很大
  • 没有预热
  • 没有多轮统计
  • 很容易受到系统负载影响

如果想让粗测更可靠,可以注意以下几点:

  • 多跑几轮,看整体趋势而非单次结果
  • 固定输入规模,保证两次比较的输入数据和分布一致
  • 避免把 print 开销混进热点,循环里频繁输出会掩盖真实计算时间
  • 先判断瓶颈类型:如果时间都花在等待文件、网络、磁盘上,盯着算术优化没意义;只有热点在数据处理逻辑时,才值得考虑算法、数据布局等手段

这个方法适合做第一轮粗测,不适合做最终结论。

第二步:调试时先看“正确性“和“边界“

很多所谓“性能问题”,最后查出来其实是:

  • 重复做了不必要的工作
  • 某个循环边界写错了
  • 某个错误路径导致频繁回退
  • 某个资源没有复用
  • 某个分配本来可以放到外层,却被重复触发

也就是说:

先把程序看清楚,优化往往已经完成了一半。

最基本的调试工具

std.debug.print

最直接,也最常用。适合:

  • 看变量值
  • 看分支是否命中
  • 看循环是否执行了超出预期的次数

示例:

const std = @import("std");

fn process(value: i32) void {
    std.debug.print("processing value = {}\n", .{value});

    if (value < 0) {
        std.debug.print("unexpected negative input\n", .{});
    }
}

调试时可以用 std.debug.assert(见控制流章节)在关键位置验证假设。

缩小问题范围

如果一个完整程序太复杂,就先把问题切小:

  • 只测一个函数
  • 只保留一个输入案例
  • 只观察一个数据结构
  • 只比较改动前后的一个局部版本

这往往比一开始就盯着整个系统更有效。

第三步:验证优化是否真的成立

这是最容易被忽略的一步。

你做了一次“优化”之后,至少还要重新回答四个问题:

1. 结果还对吗?

这是第一优先级。
更快但结果错了,通常没有意义。

2. 是稳定变快,还是偶然变快?

如果只在某一次运行快了,不代表优化成立。

3. 是否引入了更难维护的代码?

有些优化会引入:

  • 更复杂的状态管理
  • 更难懂的指针逻辑
  • 更高的版本敏感性
  • 更难测试的实现

如果收益很小,这类复杂度可能并不值得。

4. 是否只是把成本转移了?

例如:

  • 少了计算,但多了内存占用
  • 少了分配,但增加了生命周期复杂度
  • 局部更快,但整体工作流更难理解

所以验证时,不要只看某一个局部数字。

优化时最值得优先考虑的方向

在 Zig 里,真正“高收益且常见”的优化,通常不是最炫的那一类,而是这些:

1. 减少不必要的分配

这是非常常见的收益来源。

可以优先检查:

  • 是否在循环里反复分配
  • 是否能复用缓冲区
  • 是否能把短生命周期对象放到更合适的层次管理

2. 改进算法和数据结构

如果算法复杂度不合适,再多微优化也很有限。

常见问题包括:

  • 本来该用哈希表,却一直线性扫描
  • 本来该提前索引,却每次重新搜索
  • 本来该批量处理,却逐项重复做昂贵工作

3. 缩小热点路径上的工作量

有些逻辑并不需要每次都执行。

例如:

  • 某些格式化字符串是否可以延后
  • 某些检查是否可以提前失败返回
  • 某些中间对象是否可以不构造

4. 改善数据布局与访问模式

如果访问模式很差,即使算法本身不坏,也可能拖慢性能。

这里可以特别关注:

  • 是否有不必要的拷贝
  • 是否频繁跨结构跳转
  • 是否本来可以顺序访问,却写成了低局部性模式

什么时候才该考虑更底层的优化?

更底层的优化当然重要,但不应成为默认起手式。

例如这些方向:

  • 手工向量化
  • 更复杂的指针技巧
  • 自定义分配器
  • 平台特定优化
  • 针对特定 CPU 的调优

更适合在下面这些前提都成立之后再考虑:

  1. 你已经确认热点真的在这里
  2. 更简单的改法已经试过
  3. 你能稳定复现实验结果
  4. 你愿意承担更高的复杂度和维护成本

换句话说:

先把“大方向”做对,再考虑“底层榨干”。

一个更实用的性能检查清单

当你怀疑某段代码慢时,可以按这个顺序检查:

测量前

  • 我现在用的是哪种构建模式?
  • 我比较的是不是相同输入?
  • 我测到的是 CPU 还是 I/O?
  • 我是不是只跑了一次?

调试中

  • 有没有不必要的分配?
  • 有没有重复计算?
  • 有没有本来可以提早返回的分支?
  • 有没有数据结构选型不合适的问题?

验证后

  • 结果还正确吗?
  • 测量是否可重复?
  • 代码是否变得更难维护?
  • 这次优化的收益,是否值得它带来的复杂度?

版本敏感提醒

本教程整体面向 Zig 0.16.0-dev 语境。
对本章来说,真正重要的不是某个 API 名字是否变化,而是下面这些方法论:

  • 测量必须可解释
  • 调试必须面向根因
  • 验证必须同时覆盖正确性和性能结果

也就是说,本章最稳定的部分不是“具体工具长什么样”,而是:

Measure → Debug → Verify 这条工作流本身。

本章小结

这一章最希望你带走的,不是某个“性能秘籍”,而是一个更稳妥的实践顺序:

  1. 先测量,再优化
  2. 先确认正确性,再追求速度
  3. 先找真正瓶颈,再考虑高级技巧
  4. 每次改动后都重新验证结果

如果你能把这条主线带到自己的项目里,那么无论后面是继续看内存专题、SIMD,还是并发与 I/O,你都会更容易判断:

  • 哪些优化是真的有价值
  • 哪些优化只是看起来高级
  • 哪些改动值得保留,哪些应当回退

💡 本部分回顾

到这里,第三部分已经把你从“语言特性”带到了“案例与专题”的层面。 如果你后续继续迭代自己的 Zig 项目,这一章的工作流会反复出现:

  • 写出最小正确版本
  • 用测试和调试看清行为
  • 用测量决定是否值得继续优化

这往往比单纯追求“更底层”更重要。