Rust高效排序算法库dmsort的使用：针对大规模数据优化的稳定排序实现

摘要

这是一个针对近乎有序数据优化的新型自适应排序算法实现。Drop-Merge排序特别适用于80%以上数据已经有序且无序元素均匀分布的情况。一个典型用例是对已排序列表进行微小修改后重新排序。

当排序10k个元素或更长的列表时，如果超过80%的数据已经有序，Drop-Merge排序比快速排序快2-5倍，同时比其他自适应排序算法实现起来要简单得多。

对于N个元素的列表，其中K个元素是无序的，Drop-Merge排序执行O(N + K⋅log(K))次比较并使用O(K)额外内存。

定义：如果最长非递减子序列(LNS)包含X%的元素，则X%的元素是有序的。

开始使用crate

在Cargo.toml中添加：

[dependencies]
dmsort = "1.0.0"

然后使用它：

extern crate dmsort;

fn main() {
    let mut numbers : Vec<i32> = vec!(0, 1, 6, 7, 2, 3, 4, 5);
    dmsort::sort(&mut numbers);
    assert_eq!(numbers, vec!(0, 1, 2, 3, 4, 5, 6, 7));
}

完整示例

以下是使用dmsort库的完整示例，展示如何处理几乎有序的数据：

extern crate dmsort;
extern crate rand;

use rand::Rng;

fn generate_test_data(length: usize, disorder_factor: f32) -> Vec<i32> {
    let mut rng = rand::thread_rng();
    let mut result = Vec::with_capacity(length);
    
    for i in 0..length {
        if rng.gen::<f32>() < disorder_factor {
            // 随机元素
            result.push(rng.gen_range(0, length as i32));
        } else {
            // 有序元素
            result.push(i as i32);
        }
    }
    result
}

fn main() {
    // 生成测试数据：10000个元素，10%是无序的
    let mut data = generate_test_data(10_000, 0.1);
    
    println!("Before sorting:");
    println!("First 10 elements: {:?}", &data[..10]);
    println!("Last 10 elements: {:?}", &data[data.len()-10..]);
    
    // 使用dmsort进行排序
    dmsort::sort(&mut data);
    
    println!("\nAfter sorting:");
    println!("First 10 elements: {:?}", &data[..10]);
    println!("Last 10 elements: {:?}", &data[data.len()-10..]);
    
    // 验证排序是否正确
    for i in 1..data.len() {
        assert!(data[i-1] <= data[i], "Data is not sorted at index {}", i);
    }
    println!("\nSorting verified successfully!");
}

性能

通过基准测试比较了Drop-Merge sort与其他排序算法：

当无序因子小于30%(超过70%元素有序)时，Drop-Merge sort表现最佳。当99%元素有序时，它比快速排序快5倍；当85%元素有序时，快2倍。

算法细节

背景

Drop-Merge sort基于改进的Dropsort算法，后者是一种"有损"排序算法，会丢弃无序元素。Jackson等人的论文改进了无序元素的检测方法。

Drop-Merge sort

主要步骤:

使用Jackson等人论文中的方法找到最长非递减子序列(LNS)
保留LNS，将异常值放入单独列表
使用标准排序算法对异常值排序
将排序后的异常值合并回主列表

查找最长非递减子序列

算法使用"记忆"概念来检测错误(本应丢弃但被接受的元素)。例如序列: 0 1 12 3 4 5 6 7 8 9

当连续丢弃8个元素时会回滚并丢弃最后一个被接受的元素。这种回溯解决了上述问题。

何时使用Drop-Merge sort最佳

少于20-30%的元素无序且随机分布(不聚集)
数据量大(10k元素或更多，特别是百万级别时)

限制

不稳定排序(不保持相等元素的顺序)
非原地排序，使用O(K)额外内存(K是无序元素数量)
最多只能处理8个连续异常值

gougou168 1楼

Rust高效排序算法库dmsort的使用：针对大规模数据优化的稳定排序实现

介绍

dmsort是一个针对Rust语言设计的高效排序算法库，专门为大规模数据集优化，提供了稳定的排序实现。它基于"自适应归并排序"(adaptive merge sort)算法，在保持稳定性的同时，针对不同数据分布情况进行了优化。

主要特点：

稳定性：保持相等元素的原始顺序
高效性：针对大规模数据集优化
适应性：根据输入数据特征自动调整策略
低内存开销：相比标准库的稳定排序有更好的内存使用效率

安装方法

在Cargo.toml中添加依赖：

[dependencies]
dmsort = "1.0"

基础使用示例

1. 基本数据类型排序

use dmsort::sort;

fn main() {
    // 创建一个整数向量
    let mut numbers = vec![5, 2, 9, 1, 5, 6];
    
    // 使用dmsort进行排序
    dmsort::sort(&mut numbers);
    
    // 打印排序结果
    println!("{:?}", numbers); // 输出: [1, 2, 5, 5, 6, 9]
}

2. 自定义结构体排序

use dmsort::sort_by;

#[derive(Debug)]
struct Person {
    name: String,
    age: u32,
}

fn main() {
    // 创建人员列表
    let mut people = vec![
        Person { name: "Alice".to_string(), age: 30 },
        Person { name: "Bob".to_string(), age: 25 },
        Person { name: "Charlie".to_string(), age: 30 },
    ];
    
    // 按年龄排序，保持相等元素的原始顺序
    dmsort::sort_by(&mut people, |a, b| a.age.cmp(&b.age));
    
    // 打印排序结果
    println!("{:?}", people);
    /* 输出: [
       Person { name: "Bob", age: 25 },
       Person { name: "Alice", age: 30 },
       Person { name: "Charlie", age: 30 }
    ] */
}

3. 大型数据集排序

use dmsort::sort;
use rand::Rng;

fn main() {
    // 生成100万个随机数
    let mut rng = rand::thread_rng();
    let mut large_data: Vec<i32> = (0..1_000_000).map(|_| rng.gen_range(0..1000)).collect();
    
    // 使用dmsort排序
    dmsort::sort(&mut large_data);
    
    // 验证排序结果
    for i in 1..large_data.len() {
        assert!(large_data[i-1] <= large_data[i]);
    }
    println!("成功排序1,000,000个元素!");
}

高级使用示例

1. 多条件排序

use dmsort::sort_by_key;

#[derive(Debug)]
struct Employee {
    name: String,
    department: String,
    salary: u32,
    years_of_service: u8,
}

fn main() {
    let mut employees = vec![
        Employee { name: "Alice".to_string(), department: "Engineering".to_string(), salary: 85000, years_of_service: 3 },
        Employee { name: "Bob".to_string(), department: "Marketing".to_string(), salary: 75000, years_of_service: 5 },
        Employee { name: "Charlie".to_string(), department: "Engineering".to_string(), salary: 90000, years_of_service: 2 },
        Employee { name: "David".to_string(), department: "Engineering".to_string(), salary: 85000, years_of_service: 4 },
    ];
    
    // 按部门、薪资(降序)、服务年限(升序)排序
    dmsort::sort_by_key(&mut employees, |e| (
        e.department.clone(),
        std::cmp::Reverse(e.salary),
        e.years_of_service
    ));
    
    println!("{:#?}", employees);
}

2. 并行排序

use dmsort::parallel_sort;
use rand::seq::SliceRandom;
use rand::thread_rng;

fn main() {
    // 创建一个大型数据集
    let mut large_data: Vec<u32> = (0..2_000_000).collect();
    
    // 打乱数据顺序
    large_data.shuffle(&mut thread_rng());
    
    // 使用并行排序
    dmsort::parallel_sort(&mut large_data);
    
    // 验证排序结果
    assert!(large_data.windows(2).all(|w| w[0] <= w[1]));
    println!("并行排序完成!");
}

性能对比示例

use dmsort::{sort as dmsort, parallel_sort as dmsort_parallel};
use std::time::{Instant, Duration};
use rand::{Rng, thread_rng};
use std::iter::repeat_with;

// 生成测试数据
fn generate_test_data(size: usize) -> Vec<i32> {
    let mut rng = thread_rng();
    repeat_with(|| rng.gen()).take(size).collect()
}

// 测试排序性能
fn benchmark_sort<F>(name: &str, data: &mut [i32], sort_fn: F) -> Duration 
where
    F: FnOnce(&mut [i32])
{
    let start = Instant::now();
    sort_fn(data);
    let duration = start.elapsed();
    println!("{} 耗时: {:?}", name, duration);
    duration
}

fn main() {
    let sizes = [10_000, 100_000, 1_000_000];
    
    for &size in &sizes {
        println!("\n测试数据量: {}", size);
        let mut data = generate_test_data(size);
        let mut data2 = data.clone();
        let mut data3 = data.clone();
        
        // 标准库排序
        benchmark_sort("标准库排序", &mut data, |d| d.sort());
        
        // dmsort排序
        benchmark_sort("dmsort排序", &mut data2, |d| dmsort(d));
        
        // dmsort并行排序
        if size >= 100_000 {
            benchmark_sort("dmsort并行排序", &mut data3, |d| dmsort_parallel(d));
        }
    }
}

使用建议

对于小型数据集(<1000元素)，Rust标准库的排序可能更高效
当需要保持排序稳定性时，dmsort是更好的选择
对于大型数据集(>100,000元素)，启用并行特性可获得最佳性能
数据已经部分有序时，dmsort的自适应特性会显著提升性能
在内存敏感场景下，dmsort的内存效率优势更明显