candle-kernels

这个 crate 包含了 candle 使用的 CUDA 内核。其中一些实现来自 dfdx crate。

安装

在项目目录中运行以下 Cargo 命令:

cargo add candle-kernels

或者在 Cargo.toml 中添加以下行:

candle-kernels = "0.9.1"

示例使用

下面是一个使用 candle-kernels 进行高性能计算的完整示例:

use candle_kernels::{
    cuda_backend::{CudaDevice, CudaStorage},
    kernels::{add, matmul},
};

fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 创建 CUDA 设备
    let device = CudaDevice::new(0)?;
    
    // 创建两个 CUDA 存储的矩阵
    let a = CudaStorage::from_slice(&[1.0f32, 2.0, 3.0, 4.0], &device)?;
    let b = CudaStorage::from_slice(&[5.0f32, 6.0, 7.0, 8.0], &device)?;
    
    // 矩阵加法
    let c = add(&a, &b, &device)?;
    
    // 矩阵乘法
    let d = matmul(&a, &b, 2, 2, 2, &device)?;
    
    // 将结果从 GPU 复制回 CPU
    let c_host = c.to_vec()?;
    let d_host = d.to_vec()?;
    
    println!("Addition result: {:?}", c_host);
    println!("Multiplication result: {:?}", d_host);
    
    Ok(())
}

完整示例代码

use candle_kernels::{
    cuda_backend::{CudaDevice, CudaStorage},
    kernels::{add, matmul, relu},
};

fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 初始化 CUDA 设备 (使用第一个 GPU)
    let device = CudaDevice::new(0)?;
    
    // 创建输入数据
    let input_data = vec![1.0f32, -2.0, 3.0, -4.0, 5.0, -6.0];
    
    // 将数据上传到 GPU
    let input = CudaStorage::from_slice(&input_data, &device)?;
    
    // 1. 执行 ReLU 激活函数
    let relu_output = relu(&input, &device)?;
    
    // 2. 执行矩阵加法
    let ones = CudaStorage::from_slice(&vec![1.0; input_data.len()], &device)?;
    let add_output = add(&relu_output, &ones, &device)?;
    
    // 3. 准备矩阵乘法数据
    let mat_a = CudaStorage::from_slice(&[1.0, 2.0, 3.0, 4.0], &device)?;
    let mat_b = CudaStorage::from_slice(&[5.0, 6.0, 7.0, 8.0], &device)?;
    
    // 执行矩阵乘法 (2x2 矩阵)
    let matmul_output = matmul(&mat_a, &mat_b, 2, 2, 2, &device)?;
    
    // 将结果下载回 CPU
    let relu_host = relu_output.to_vec()?;
    let add_host = add_output.to_vec()?;
    let matmul_host = matmul_output.to_vec()?;
    
    println!("ReLU 结果: {:?}", relu_host);
    println!("加法结果: {:?}", add_host);
    println!("矩阵乘法结果: {:?}", matmul_host);
    
    Ok(())
}

特性

高效的 CUDA 内核操作
并行计算加速
支持多种线性代数操作
与 candle 深度集成

许可证

MIT 或 Apache-2.0

ionicwang 1楼

Rust高性能计算插件库candle-kernels的使用指南

概述

candle-kernels是一个Rust高性能计算库，专注于提供高效的内核操作和并行计算加速功能。它特别适合需要高性能数值计算的场景，如机器学习、科学计算和大规模数据处理。

主要特性

优化的内核操作实现
并行计算加速
与Rust生态无缝集成
内存安全保证
SIMD指令优化

安装方法

在Cargo.toml中添加依赖：

[dependencies]
candle-kernels = "0.1"

基本使用方法

1. 向量加法示例

use candle_kernels::{add_vectors, Vector};

fn main() {
    let a = Vector::from_vec(vec![1.0, 2.0, 3.0, 4.0]);
    let b = Vector::from_vec(vec![5.0, 6.0, 7.0, 8.0]);
    
    let result = add_vectors(&a, &b).unwrap();
    println!("{:?}", result); // 输出: [6.0, 8.0, 10.0, 12.0]
}

2. 矩阵乘法

use candle_kernels::{Matrix, matmul};

fn main() {
    let a = Matrix::from_vec(2, 3, vec![1.0, 2.0, 3.0, 4.0, 5.0, 6.0]);
    let b = Matrix::from_vec(3, 2, vec![7.0, 8.0, 9.0, 10.0, 11.0, 12.0]);
    
    let result = matmul(&a, &b).unwrap();
    println!("{:?}", result);
    // 输出:
    // [[58.0, 64.0],
    //  [139.0, 154.0]]
}

3. 并行计算示例

use candle_kernels::{parallel_map, Vector};

fn main() {
    let input = Vector::from_vec(vec![1.0, 2.0, 3.0, 4.0, 5.0]);
    
    // 并行计算平方
    let squared = parallel_map(&input, |x| x * x).unwrap();
    println!("{:?}", squared); // 输出: [1.0, 4.0, 9.0, 16.0, 25.0]
}

高级功能

1. 自定义内核操作

use candle_kernels::{Vector, apply_kernel};

fn custom_kernel(x: f64) -> f64 {
    x.sin() + x.cos()
}

fn main() {
    let v = Vector::from_vec(vec![0.极， 1.0, 2.0, 3.0]);
    let result = apply_kernel(&v, custom_kernel).unwrap();
    println!("{:?}", result);
}

2. SIMD加速

use candle_kernels::{Vector, simd_add};

fn main() {
    let a = Vector::from_vec(vec![1.0; 1024]);
    let b = Vector::from_vec(vec![2.0; 1024]);
    
    let result = simd_add(&a, &b).unwrap();
    // 使用SIMD指令加速的向量加法
}

性能提示

对于大型数据集，尽量使用Vector和Matrix类型而不是原生Rust向量
批量操作比单个操作更高效
使用parallel_前缀的函数可以利用多核并行计算
启用Rust的发布模式编译(--release)以获得最佳性能

错误处理

大多数操作返回Result类型，建议使用?操作符或适当处理错误：

use candle_kernels::{Vector, add_vectors};

fn main() -> Result<(), candle_kernels::Error> {
    let a = Vector::from_vec(vec![1.0, 2.0]);
    let b = Vector::from_vec(vec![3.0]);
    
    // 这会返回错误，因为向量长度不匹配
    let _ = add_vectors(&a, &b)?;
    
    Ok(())
}

完整示例代码

以下是一个结合多个功能的完整示例：

use candle_kernels::{Vector, Matrix, add_vectors, matmul, parallel_map, apply_kernel};

// 自定义内核函数
fn custom_math(x: f64) -> f64 {
    x.powi(2) + x.sqrt() // 平方加平方根
}

fn main() -> Result<(), candle_kernels::Error> {
    // 1. 向量加法
    let vec1 = Vector::from_vec(vec![1.0, 2.0, 3.0, 4.0]);
    let vec2 = Vector::from_vec(vec![5.0, 6.0, 7.0, 8.0]);
    let vec_sum = add_vectors(&vec1, &vec2)?;
    println!("向量加法结果: {:?}", vec_sum);

    // 2. 矩阵乘法
    let mat_a = Matrix::from_vec(2, 2, vec![1.0, 2.0, 3.0, 4.0]);
    let mat_b = Matrix::from_vec(2, 2, vec![5.0, 6.0, 7.0, 8.0]);
    let mat_product = matmul(&mat_a, &mat_b)?;
    println!("矩阵乘法结果: {:?}", mat_product);

    // 3. 并行计算
    let data = Vector::from_vec(vec![1.0, 2.0, 3.0, 4.0, 5.0]);
    let squared = parallel_map(&data, |x| x * x)?;
    println!("并行计算平方: {:?}", squared);

    // 4. 自定义内核操作
    let processed = apply_kernel(&data, custom_math)?;
    println!("自定义内核处理结果: {:?}", processed);

    Ok(())
}

candle-kernels为Rust开发者提供了高性能计算能力，同时保持了Rust的安全性和易用性。通过合理使用其并行和向量化功能，可以显著提升数值计算密集型应用的性能。

Rust高性能计算插件库candle-kernels的使用，提供高效内核操作与并行计算加速功能

candle-kernels

安装

示例使用

完整示例代码

特性

许可证

Rust高性能计算插件库candle-kernels的使用指南

概述

主要特性

安装方法

基本使用方法

1. 向量加法示例

2. 矩阵乘法

3. 并行计算示例

高级功能

1. 自定义内核操作

2. SIMD加速

性能提示

错误处理

完整示例代码