Iai-Callgrind

高精度且一致的Rust基准测试框架/工具

Iai-Callgrind是一个基准测试框架/工具，它使用Valgrind的Callgrind和其他Valgrind工具，如DHAT、Massif等，包括Cachegrind，以提供对Rust代码极其准确和一致的测量，使其非常适合在像CI这样的环境中运行。Iai-Callgrind已集成到Bencher中。

Iai-Callgrind具有以下特点：

精确：高精度的指令计数和许多其他指标的测量，使您能够可靠地检测代码的非常小的优化和回归。
一致：Iai-Callgrind即使在虚拟化的CI环境中也能进行准确的测量，并使它们在不同系统之间具有可比性，完全消除了环境的噪声。
快速：每个基准测试只运行一次，这通常比测量执行时间和挂钟时间的基准测试快得多。测量挂钟时间的基准测试必须运行多次以提高其准确性、检测异常值、过滤噪声等。
可视化：Iai-Callgrind生成基准测试代码的Callgrind（DHAT等）配置文件，并可以配置为从Callgrind指标创建类似火焰图的图表。通常，所有与Valgrind兼容的工具，如callgrind_annotate、kcachegrind或dh_view.html等，都完全支持详细分析结果。
简单：设置基准测试的API易于使用，使您能够快速创建简洁明了的基准测试。更多地关注分析和代码，而不是框架。

设计理念和目标

Iai-Callgrind基准测试设计为可通过cargo bench运行。基准测试文件扩展为一个基准测试工具，该工具替换了Rust的本地基准测试工具。Iai-Callgrind是一个分析框架，可以快速可靠地检测性能回归和优化，即使在嘈杂的环境中，其精度也是基于挂钟时间的基准测试无法实现的。同时，我们希望抽象出复杂的部分和重复性任务，并提供易于使用和直观的API。Iai-Callgrind试图不干扰您的工作，并应用合理的默认设置，以便您可以更多地关注分析和代码！

进展程度

Iai-Callgrind处于成熟的开发阶段，并且已经在使用中。尽管如此，您可能会在次要版本更新之间经历重大变化。随着0.14.0版本的发布，几乎所有的Callgrind功能都已实现，包括多线程和多进程应用程序的基准测试。从0.15.0版本开始，可以使用Cachegrind代替或补充Callgrind。从0.16.0版本开始，使用DHAT进行堆使用分析已完全集成。使用Massif进行分析是可能的，但在终端输出中不显示有用的指标，并且可以进一步改进。为多进程/多线程基准测试创建callgrind火焰图被认为处于实验状态。

何时不使用Iai-Callgrind

尽管Iai-Callgrind在许多项目中都有用，但在某些情况下，Iai-Callgrind并不适合。

如果您需要挂钟时间，Iai-Callgrind对您没有太大帮助。CPU周期的估计仅与挂钟时间相关，但不能替代挂钟时间。周期估计主要设计为用于比较的相对指标。
Iai-Callgrind无法在Windows和Valgrind不支持的平台上运行。

贡献

感谢您帮助改进这个项目！关于如何为Iai-Callgrind做出贡献的指南可以在CONTRIBUTING.md文件中找到。

您有一个新功能的想法，缺少某个功能，或者发现了一个错误？

请不要犹豫，提交一个问题。

除非您明确声明，否则您为包含在工作中的任何贡献都应按照许可证中的规定进行双重许可，无需任何附加条款或条件。

致谢

Iai-Callgrind是从Iai分叉出来的，原始想法来自Brook Heisler。

Iai-Callgrind由Valgrind提供支持。

许可证

Iai-Callgrind像Iai一样，根据Apache 2.0许可证和MIT许可证双重许可，您可以选择。

根据Valgrind的文档：

Valgrind头文件与大部分代码不同，采用BSD风格的许可证，因此您可以包含它们而无需担心许可证不兼容。

我们在使用原始头文件的地方包含了原始许可证。

示例代码：

// 添加iai-callgrind到Cargo.toml的依赖项
// [dev-dependencies]
// iai-callgrind = "0.16.1"

// 在benches目录下的基准测试文件，例如benches/my_benchmark.rs

use iai_callgrind::{main, library_benchmark, library_benchmark_group, LibraryBenchmarkConfig};

// 定义一个简单的函数进行基准测试
fn fibonacci(n: u64) -> u64 {
    match n {
        0 => 1,
        1 => 1,
        n => fibonacci(n-1) + fibonacci(n-2),
    }
}

// 使用library_benchmark属性标记基准测试函数
#[library_benchmark]
fn bench_fibonacci() -> u64 {
    // 调用要测试的函数
    fibonacci(20)
}

// 定义基准测试组
library_benchmark_group!(
    name = bench_group;
    benchmarks = bench_fibonacci
);

// 主函数，运行基准测试
main!(library_benchmark_groups = bench_group);

完整示例：

// 添加iai-callgrind到Cargo.toml的依赖项
// [dev-dependencies]
// iai-callgrind = "0.16.1"

// 在benches目录下的基准测试文件，例如benches/my_benchmark.rs

use iai_callgrind::{main, library_benchmark, library_benchmark_group, LibraryBenchmarkConfig};

// 定义一个简单的函数进行基准测试
fn fibonacci(n: u64) -> u64 {
    match n {
        0 => 1,
        1 => 1,
        n => fibonacci(n-1) + fibonacci(n-2),
    }
}

// 使用library_benchmark属性标记基准测试函数
#[library_benchmark]
fn bench_fibonacci() -> u64 {
    // 调用要测试的函数
    fibonacci(20)
}

// 可以定义多个基准测试函数
#[library_benchmark]
fn bench_fibonacci_small() -> u64 {
    fibonacci(10)
}

#[library_benchmark]
fn bench_fibonacci_large() -> u64 {
    fibonacci(30)
}

// 定义基准测试组，包含多个基准测试
library_benchmark_group!(
    name = fibonacci_benchmarks;
    benchmarks = bench_fibonacci, bench_fibonacci_small, bench_fibonacci_large
);

// 主函数，运行基准测试组
main!(library_benchmark_groups = fibonacci_benchmarks);

运行基准测试：

cargo bench

这将使用iai-callgrind运行基准测试，并生成详细的性能分析报告，包括指令计数、缓存命中率等指标。

完整示例demo：

// Cargo.toml配置
// [dev-dependencies]
// iai-callgrind = "0.16.1"

// benches/my_benchmark.rs
use iai_callgrind::{main, library_benchmark, library_benchmark_group, LibraryBenchmarkConfig};

// 基准测试的目标函数
fn process_data(input: &[i32]) -> Vec<i32> {
    input.iter()
        .map(|x| x * 2)
        .filter(|x| x % 3 == 0)
        .collect()
}

// 使用library_benchmark属性标记基准测试函数
#[library_benchmark]
fn bench_small_data() -> Vec<i32> {
    let data = vec![1, 2, 3, 4, 5, 6, 7, 8, 9, 10];
    process_data(&data)
}

#[library_benchmark]
fn bench_medium_data() -> Vec<i32> {
    let data: Vec<i32> = (1..=100).collect();
    process_data(&data)
}

#[library_benchmark]
fn bench_large_data() -> Vec<i32> {
    let data: Vec<i32> = (1..=1000).collect();
    process_data(&data)
}

// 配置基准测试参数
#[library_benchmark]
#[config(
    LibraryBenchmarkConfig::default()
        .raw_callgrind_args(["--simulate-cache=yes"])
)]
fn bench_with_cache_simulation() -> Vec<i32> {
    let data: Vec<i32> = (1..=500).collect();
    process_data(&data)
}

// 定义基准测试组
library_benchmark_group!(
    name = data_processing_benchmarks;
    benchmarks = 
        bench_small_data, 
        bench_medium_data, 
        bench_large_data,
        bench_with_cache_simulation
);

// 主函数，运行所有基准测试组
main!(library_benchmark_groups = data_processing_benchmarks);

nodeper 1楼

Rust性能分析工具iai-callgrind的使用指南

工具简介

iai-callgrind是一个基于Valgrind Callgrind的高精度Rust基准测试库，专门用于测量代码执行时间和内存消耗。它通过处理器缓存模拟和指令计数提供比传统时间测量更稳定的性能分析结果。

安装方法

在Cargo.toml中添加依赖：

[dev-dependencies]
iai-callgrind = "0.5.0"

基本使用方法

1. 创建基准测试

use iai_callgrind::{main, library_benchmark, library_benchmark_group};

#[library_benchmark]
fn benchmark_fibonacci() -> u64 {
    fibonacci(20)
}

fn fibonacci(n: u64) -> u64 {
    match n {
        0 => 0,
        1 => 1,
        _ => fibonacci(n - 1) + fibonacci(n - 2),
    }
}

library_benchmark_group!(
    name = bench_group;
    benchmarks = benchmark_fibonacci
);

main!(library_benchmark_groups = bench_group);

2. 带参数的基准测试

#[library_benchmark]
#[bench::small_input(10)]
#[bench::medium_input(20)]
#[bench::large_input(30)]
fn benchmark_with_args(n: u64) -> u64 {
    fibonacci(n)
}

3. 内存消耗测量

#[library_benchmark]
fn benchmark_memory_allocation() -> Vec<i32> {
    // 测量内存分配性能
    let mut vec = Vec::with_capacity(1000);
    for i in 0..1000 {
        vec.push(i);
    }
    vec
}

运行基准测试

使用Cargo命令运行基准测试：

cargo bench --bench my_benchmark

输出结果解读

iai-callgrind会输出详细的性能指标：

Instructions: 执行的指令数量
L1 Data Read Misses: L1数据缓存未命中次数
LL Data Read Misses: 最后一级缓存未命中次数
Total Cycles: 总时钟周期数

高级配置

自定义配置

main!(
    config = |config: &mut Config| {
        config.raw_callgrind_args = Some(vec![
            "--simulate-wb=yes".to_string(),
            "--simulate-hwpref=yes".to_string(),
        ]);
    };
    library_benchmark_groups = bench_group;
);

最佳实践

隔离测试环境：确保基准测试在独立环境中运行
多次运行：使用--bench参数多次运行以获得稳定结果
关注相对性能：比较不同实现的性能差异
结合其他工具：与criterion等工具配合使用进行全面分析

注意事项

需要系统安装Valgrind
主要用于Linux系统
测试时间较长，适合精确性能分析场景

通过iai-callgrind可以获得比传统时间测量更精确的性能数据，特别适合需要深入分析CPU缓存行为和指令级性能的优化工作。

完整示例demo

// 引入必要的库
use iai_callgrind::{main, library_benchmark, library_benchmark_group, Config};

// 斐波那契数列计算函数
fn fibonacci(n: u64) -> u64 {
    match n {
        0 => 0,
        1 => 1,
        _ => fibonacci(n - 1) + fibonacci(n - 2),
    }
}

// 基准测试1: 计算斐波那契数列
#[library_benchmark]
fn benchmark_fibonacci() -> u64 {
    fibonacci(20)
}

// 带参数的基准测试
#[library_benchmark]
#[bench::small_input(10)]    // 小输入测试
#[bench::medium_input(20)]   // 中等输入测试
#[bench::large_input(30)]    // 大输入测试
fn benchmark_with_args(n: u64) -> u64 {
    fibonacci(n)
}

// 内存分配性能测试
#[library_benchmark]
fn benchmark_memory_allocation() -> Vec<i32> {
    // 预分配容量为1000的向量
    let mut vec = Vec::with_capacity(1000);
    // 填充1000个元素
    for i in 0..1000 {
        vec.push(i);
    }
    vec
}

// 字符串处理性能测试
#[library_benchmark]
fn benchmark_string_operations() -> String {
    let mut s = String::new();
    // 执行1000次字符串追加操作
    for i in 0..1000 {
        s.push_str(&i.to_string());
    }
    s
}

// 定义基准测试组
library_benchmark_group!(
    name = bench_group;
    benchmarks = 
        benchmark_fibonacci, 
        benchmark_with_args, 
        benchmark_memory_allocation,
        benchmark_string_operations
);

// 主函数配置，包含自定义Callgrind参数
main!(
    config = |config: &mut Config| {
        config.raw_callgrind_args = Some(vec![
            "--simulate-wb=yes".to_string(),      // 模拟写缓冲区
            "--simulate-hwpref=yes".to_string(),  // 模拟硬件预取
            "--cache-sim=yes".to_string(),        // 启用缓存模拟
        ]);
    };
    library_benchmark_groups = bench_group;
);

对应的Cargo.toml配置：

[package]
name = "iai-benchmark-demo"
version = "0.1.0"
edition = "2021"

[dev-dependencies]
iai-callgrind = "0.5.0"

[[bench]]
name = "iai_bench"
harness = false

运行基准测试的命令：

# 运行所有基准测试
cargo bench --bench iai_bench

# 运行特定基准测试（需要根据实际生成的二进制名称调整）
cargo bench --bench iai_bench -- --bench

输出结果示例：

benchmark_fibonacci: 
  Instructions:            1,234,567
  L1 Data Read Misses:        12,345
  LL Data Read Misses:         1,234
  Total Cycles:           12,345,678

benchmark_with_args(small_input):
  Instructions:              123,456
  L1 Data Read Misses:         1,234
  LL Data Read Misses:           123
  Total Cycles:            1,234,567

Rust性能分析工具iai-callgrind的使用：精准测量代码执行时间和内存消耗的基准测试库