Rust WTF-8编码处理库wtf8的使用：支持非标准UTF-8字符的高效编解码与转换

简介

rust-wtf8 是 WTF-8 编码的 Rust 实现。它依赖于标准库的 alloc crate 但不依赖 std。

WTF-8 是一种 UTF-8 的变体编码，用于处理非标准的UTF-8字符，特别适用于需要处理可能包含非法UTF-8序列的场景。

安装

在项目目录中运行以下Cargo命令：

cargo add wtf8

或者在你的Cargo.toml中添加以下行：

wtf8 = "0.1.0"

示例代码

以下是一个完整的示例，展示如何使用wtf8库进行编码和解码操作：

use wtf8::{Wtf8, Wtf8Buf};

fn main() {
    // 创建一个WTF-8缓冲区
    let mut buf = Wtf8Buf::new();
    
    // 添加有效的UTF-8字符
    buf.push_str("Hello, ");
    
    // 添加可能包含非标准UTF-8的字符
    buf.push_str("世界");  // 中文"世界"
    
    // 添加代理对（surrogate pair） - 这在标准UTF-8中是无效的
    // 但在WTF-8中可以表示
    buf.push_char('\u{D800}');  // 高代理项
    
    // 打印WTF-8编码的字节表示
    println!("WTF-8 bytes: {:?}", buf.as_bytes());
    
    // 转换为字符串（可能包含替换字符）
    let lossy_string = buf.to_string_lossy();
    println!("Lossy string: {}", lossy_string);
    
    // 检查是否是有效的UTF-8
    if buf.is_well_formed() {
        println!("The string is valid UTF-8");
    } else {
        println!("The string contains WTF-8 sequences");
    }
    
    // 转换为UTF-8字符串（可能失败）
    match buf.to_string() {
        Ok(s) => println!("Valid UTF-8: {}", s),
        Err(e) => println!("Conversion error: {}", e),
    }
}

完整示例代码

以下是一个更完整的示例，展示更多wtf8库的功能：

use wtf8::{Wtf8, Wtf8Buf, Wtf8String};

fn main() {
    // 示例1：创建WTF-8字符串的不同方式
    let from_str = Wtf8Buf::from_str("标准UTF-8字符串");
    let from_bytes = Wtf8Buf::from_bytes(b"Some bytes\xED\xA0\x80"); // 包含无效UTF-8
    
    // 示例2：拼接WTF-8字符串
    let mut combined = Wtf8Buf::new();
    combined.push_wtf8(&from_str);
    combined.push_char(' ');
    combined.push_wtf8(&from_bytes);
    
    // 示例3：检查和处理字符串
    println!("组合后的字符串长度: {}", combined.len());
    println!("字节表示: {:?}", combined.as_bytes());
    
    // 示例4：迭代处理字符
    println!("字符迭代:");
    for c in combined.chars() {
        println!(" - {:?} (U+{:04X})", c, c as u32);
    }
    
    // 示例5：转换为不同格式
    let utf8_result = combined.clone().into_string();
    match utf8_result {
        Ok(s) => println!("成功转换为UTF-8: {}", s),
        Err(e) => {
            println!("转换失败，使用损失方式:");
            println!("{}", e.into_wtf8_buf().to_string_lossy());
        }
    }
    
    // 示例6：处理代理对
    let surrogate = Wtf8Buf::from_str("\u{D800}\u{DC00}"); // 有效代理对
    println!("代理对处理: {}", surrogate.to_string_lossy());
    println!("是有效的UTF-16: {}", surrogate.is_well_formed_utf16());
}

文档

更多详细信息请参考官方文档。

许可证

本项目采用MIT许可证。

phonegap100 1楼作者

Rust WTF-8编码处理库wtf8的使用指南

什么是WTF-8编码

WTF-8 (Wobbly Transformation Format - 8-bit) 是UTF-8的超集，可以处理非标准的UTF-8序列，特别是Windows系统中常见的代理对(surrogate pairs)编码。Rust标准库中的String类型要求严格的UTF-8编码，而wtf8库则提供了处理这些非标准序列的能力。

安装方法

在Cargo.toml中添加依赖：

[dependencies]
wtf8 = "0.4"

基本使用方法

创建Wtf8Buf

use wtf8::Wtf8Buf;

// 从字符串创建
let mut wtf8_buf = Wtf8Buf::from_str("Hello, 世界!");
println!("{:?}", wtf8_buf);

// 从可能包含非标准UTF-8的字节创建
let bytes = b"Invalid \xED\xA0\x80 UTF-8";  // 包含代理对
let wtf8_buf = Wtf8Buf::from_bytes(bytes.to_vec());

转换为标准UTF-8

use wtf8::{Wtf8Buf, to_utf8};

let wtf8_buf = Wtf8Buf::from_bytes(b"Invalid \xED\xA0\x80 UTF-8".to_vec());

match to_utf8(&wtf8_buf) {
    Ok(utf8_str) => println!("Valid UTF-8: {}", utf8_str),
    Err(_) => println!("Contains non-UTF-8 sequences"),
}

处理代理对

use wtf8::Wtf8Buf;

let surrogate_pair = Wtf8Buf::from_bytes(b"\xED\xA0\x80\xED\xB0\x80".to_vec());
println!("Length in code units: {}", surrogate_pair.len());
println!("Length in code points: {}", surrogate_pair.count());

与标准String互转

use wtf8::Wtf8Buf;

// 从String创建Wtf8Buf
let string = String::from("正常UTF-8文本");
let wtf8_buf = Wtf8Buf::from_string(string);

// 尝试转换为String
match wtf8_buf.into_string() {
    Ok(string) => println!("转换成功: {}", string),
    Err(wtf8_buf) => println!("包含非UTF-8序列，保留为WTF-8"),
}

高级用法

迭代处理

use wtf8::Wtf8Buf;

let wtf8_buf = Wtf8Buf::from_bytes(b"Mix\xED\xA0\x80ed".to_vec());

for c in wtf8_buf.chars() {
    println!("字符: {:?}", c);
}

for byte in wtf8_buf.as_bytes() {
    println!("字节: {:02X}", byte);
}

拼接WTF-8字符串

use wtf8::Wtf8Buf;

let mut buf1 = Wtf8Buf::from_str("Hello");
let buf2 = Wtf8Buf::from_bytes(b"\xED\xA0\x80".to_vec());

buf1.push_wtf8(&buf2);
println!("拼接结果: {:?}", buf1);

完整示例代码

use wtf8::{Wtf8Buf, to_utf8};

fn main() {
    // 示例1: 创建WTF-8缓冲区
    println!("--- 示例1: 创建WTF-8缓冲区 ---");
    let valid_utf8 = Wtf8Buf::from_str("正常UTF-8文本");
    println!("有效UTF-8: {:?}", valid_utf8);
    
    let invalid_utf8 = Wtf8Buf::from_bytes(b"无效\xED\xA0\x80UTF8".to_vec());
    println!("无效UTF-8: {:?}", invalid_utf8);
    
    // 示例2: 转换为标准UTF-8
    println!("\n--- 示例2: 转换为标准UTF-8 ---");
    match to_utf8(&invalid_utf8) {
        Ok(s) => println!("转换成功: {}", s),
        Err(_) => println!("转换失败: 包含非UTF-8序列"),
    }
    
    // 示例3: 处理代理对
    println!("\n--- 示例3: 处理代理对 ---");
    let surrogate = Wtf8Buf::from_bytes(b"\xED\xA0\x80\xED\xB0\x80".to_vec());
    println!("代理对字节长度: {}", surrogate.len());
    println!("代理对字符计数: {}", surrogate.count());
    
    // 示例4: 与String互转
    println!("\n--- 示例4: 与String互转 ---");
    let string = String::from("测试字符串");
    let wtf8_from_string = Wtf8Buf::from_string(string);
    
    match wtf8_from_string.into_string() {
        Ok(s) => println!("转换回String成功: {}", s),
        Err(e) => println!("转换失败: {:?}", e),
    }
    
    // 示例5: 迭代处理
    println!("\n--- 示例5: 迭代处理 ---");
    let mixed = Wtf8Buf::from_bytes(b"混合\xED\xA0\x80数据".to_vec());
    println!("字符迭代:");
    for c in mixed.chars() {
        println!("{:?}", c);
    }
    
    println!("\n字节迭代:");
    for byte in mixed.as_bytes() {
        println!("{:02X}", byte);
    }
    
    // 示例6: 字符串拼接
    println!("\n--- 示例6: 字符串拼接 ---");
    let mut base = Wtf8Buf::from_str("基础");
    let to_append = Wtf8Buf::from_bytes(b"\xED\xA0\x80".to_vec());
    base.push_wtf8(&to_append);
    println!("拼接结果: {:?}", base);
}

实际应用场景

处理Windows文件路径：Windows系统常使用UTF-16编码，转换为UTF-8时可能产生代理对
网络协议处理：某些旧协议可能发送非标准UTF-8数据
数据恢复：处理损坏或不完整的UTF-8数据

注意事项

WTF-8主要用于中间处理，最终应转换为标准UTF-8或UTF-16
性能比标准String略低，仅在必要时使用
某些Unicode操作(如大小写转换)在非标准序列上可能表现不同

通过wtf8库，Rust开发者可以安全高效地处理各种非标准UTF-8序列，特别适合需要与Windows系统或其他使用非标准编码的系统交互的应用程序。