Rust文本处理库charabia的使用，charabia提供高效的多语言分词、规范化与文本分析功能

Charabia是Meilisearch使用的库，用于对查询和文档进行分词处理。

功能

分词器的作用是将句子或短语分割成更小的语言单位，称为token。它根据语言的特性在字符串中查找并检索所有单词。

Charabia提供了一个简单的API来对特定语言的文本进行分割、规范化或分词（分割+规范化），通过检测其脚本/语言并选择专门的管道进行处理。

示例

分词(Tokenization)

use charabia::Tokenize;

let orig = "Thé quick (\"brown\") fox can't jump 32.3 feet, right? Brr, it's 29.3°F!";

// tokenize the text.
let mut tokens = orig.tokenize();

let token = tokens.next().unwrap();
// the lemma into the token is normalized: `Thé` became `the`.
assert_eq!(token.lemma(), "the");
// token is classfied as a word
assert!(token.is_word());

let token = tokens.next().unwrap();
assert_eq!(token.lemma(), " ");
// token is classfied as a separator
assert!(token.is_separator());

分割(Segmentation)

use charabia::Segment;

let orig = "The quick (\"brown\") fox can't jump 32.3 feet, right? Brr, it's 29.3°F!";

// segment the text.
let mut segments = orig.segment_str();

assert_eq!(segments.next(), Some("The"));
assert_eq!(segments.next(), Some(" "));
assert_eq!(segments.next(), Some("quick"));

完整示例代码

下面是一个更完整的示例，展示如何使用charabia进行多语言文本处理：

use charabia::{Tokenize, Segment};

fn main() {
    // 多语言示例文本
    let multilang_text = r#"
    Hello world! 你好世界！
    Bonjour le monde! Γειά σου κόσμος!
    Привет мир! こんにちは世界！
    "#;
    
    println!("原始文本:\n{}", multilang_text);
    
    // 1. 分词处理
    println!("\n=== 分词结果 ===");
    let tokens = multilang_text.tokenize();
    for (i, token) in tokens.enumerate() {
        println!("Token {}: {}", i+1, token.lemma());
    }
    
    // 2. 分割处理
    println!("\n=== 分割结果 ===");
    let segments = multilang_text.segment_str();
    for (i, segment) in segments.enumerate() {
        println!("Segment {}: {}", i+1, segment);
    }
    
    // 3. 处理特定语言
    let chinese_text = "自然语言处理是一个有趣的研究领域";
    println!("\n=== 中文分词 ===");
    for token in chinese_text.tokenize() {
        println!("{} (is_word: {})", token.lemma(), token.is_word());
    }
}

支持的语言

Charabia支持多种语言，包括：

拉丁语系（包括德语）
希腊语
西里尔语/格鲁吉亚语
中文（普通话）
希伯来语
阿拉伯语
日语
韩语
泰语
高棉语

安装

在Cargo.toml中添加依赖：

[dependencies]
charabia = "0.9.6"

或者使用命令行：

cargo add charabia

Charabia特别适合需要处理多种语言的搜索和文本分析应用场景。

songsunli 1楼

Rust文本处理库charabia的使用指南

简介

charabia是一个高效的Rust文本处理库，专注于多语言分词、文本规范化和分析功能。它支持多种语言的分词处理，并提供了一系列文本预处理工具，特别适合需要处理国际化文本的应用程序。

主要特性

多语言分词支持
文本规范化（大小写转换、重音去除等）
Unicode兼容
高性能处理
可配置的分词规则

安装

在Cargo.toml中添加依赖：

[dependencies]
charabia = "0.7"

基本使用方法

1. 简单分词

use charabia::Tokenizer;

fn main() {
    let text = "The quick brown fox jumps over the lazy dog.";
    let tokenizer = Tokenizer::new(); // 创建分词器实例
    
    // 对文本进行分词并打印结果
    for token in tokenizer.tokenize(text) {
        println!("{:?}", token);
    }
}

2. 多语言分词

charabia能自动检测语言或手动指定语言：

use charabia::{Tokenizer, Language};

fn main() {
    let text = "今日は良い天気ですね。";
    // 指定日语分词器
    let tokenizer = Tokenizer::new().set_language(Language::Japanese);
    
    // 对日语文本进行分词
    for token in tokenizer.tokenize(text) {
        println!("{:?}", token);
    }
}

3. 文本规范化

use charabia::normalizer::{Normalizer, NormalizerOption};

fn main() {
    let text = "Café au lait";
    // 创建规范化器，配置为转小写和去除重音
    let normalizer = Normalizer::new(NormalizerOption {
        lowercase: true,
        remove_diacritics: true,
        ..Default::default()
    });
    
    // 规范化文本
    let normalized = normalizer.normalize(text);
    println!("{}", normalized); // 输出: "cafe au lait"
}

完整示例代码

use charabia::{Tokenizer, TokenizerBuilder, Language, SeparatorKind};
use charabia::normalizer::{Normalizer, NormalizerOption};

fn main() {
    // 示例1: 简单分词
    println!("=== 简单分词示例 ===");
    let english_text = "The quick brown fox jumps over the lazy dog.";
    let tokenizer = Tokenizer::new();
    for token in tokenizer.tokenize(english_text) {
        println!("Token: {:?}", token);
    }

    // 示例2: 多语言分词
    println!("\n=== 多语言分词示例 ===");
    let japanese_text = "今日は良い天気ですね。";
    let japanese_tokenizer = Tokenizer::new().set_language(Language::Japanese);
    for token in japanese_tokenizer.tokenize(japanese_text) {
        println!("日语Token: {:?}", token);
    }

    // 示例3: 文本规范化
    println!("\n=== 文本规范化示例 ===");
    let french_text = "Café au lait";
    let normalizer = Normalizer::new(NormalizerOption {
        lowercase: true,
        remove_diacritics: true,
        ..Default::default()
    });
    println!("规范化前: {}", french_text);
    println!("规范化后: {}", normalizer.normalize(french_text));

    // 示例4: 自定义分词规则
    println!("\n=== 自定义分词规则示例 ===");
    let custom_text = "This is a test, with some punctuation!";
    let custom_tokenizer = TokenizerBuilder::new()
        .set_separator(SeparatorKind::Hard)
        .build();
    for token in custom_tokenizer.tokenize(custom_text) {
        println!("自定义Token: {:?}", token);
    }

    // 示例5: 词干提取
    println!("\n=== 词干提取示例 ===");
    let stems_text = "running jumps quickly";
    let stem_tokenizer = Tokenizer::new()
        .set_language(Language::English)
        .with_stemming(true);
    for token in stem_tokenizer.tokenize(stems_text) {
        println!("词形: {}, 词干: {}", token.lemma(), token.stem());
    }
}

高级功能

自定义分词规则

use charabia::{Tokenizer, TokenizerBuilder, SeparatorKind};

fn main() {
    // 使用TokenizerBuilder创建自定义分词器
    let tokenizer = TokenizerBuilder::new()
        .set_separator(SeparatorKind::Hard) // 设置分隔符类型
        .build();
    
    let text = "This is a test, with some punctuation!";
    // 使用自定义分词器处理文本
    for token in tokenizer.tokenize(text) {
        println!("{:?}", token);
    }
}

词干提取（部分语言支持）

use charabia::{Tokenizer, Language};

fn main() {
    let text = "running jumps quickly";
    // 创建支持词干提取的英语分词器
    let tokenizer = Tokenizer::new()
        .set_language(Language::English)
        .with_stemming(true);
    
    // 输出原始词形和词干
    for token in tokenizer.tokenize(text) {
        println!("Original: {}, Stem: {}", token.lemma(), token.stem());
    }
}

性能提示

对于大量文本处理，建议重用Tokenizer实例：

use charabia::Tokenizer;

fn process_documents(docs: &[&str]) {
    // 创建一次分词器，多次使用以提高性能
    let tokenizer = Tokenizer::new();
    
    for doc in docs {
        // 对每个文档进行分词
        let tokens: Vec<_> = tokenizer.tokenize(doc).collect();
        // 处理tokens...
        println!("处理了{}个token", tokens.len());
    }
}

fn main() {
    let documents = vec![
        "第一个文档内容",
        "第二个文档内容更长一些",
        "第三个文档",
    ];
    process_documents(&documents);
}

charabia是处理多语言文本的强大工具，特别适合搜索引擎、NLP应用和国际化项目。其设计注重性能和准确性，是Rust生态中文本处理的优秀选择。