Rust中文语言模型库lingua-chinese-language-model的使用，支持高效中文文本处理与分析

中文语言模型 for Lingua

这是用于中文的语言模型，被Lingua使用 - Rust生态中最准确的自然语言检测库。

更新日志

版本 1.2.0

通过包含独特和最常见的ngrams来增强语言模型，以支持独立于其他语言的绝对置信度度量。

版本 1.1.0

语言模型文件现在使用Brotli算法压缩，平均减少了15%的文件大小。

安装

在项目目录中运行以下Cargo命令：

cargo add lingua-chinese-language-model

或者在Cargo.toml中添加以下行：

lingua-chinese-language-model = "1.2.0"

使用示例

以下是一个完整的示例demo，展示如何使用lingua-chinese-language-model进行中文文本处理：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use lingua_chinese_language_model::CHINESE;

fn main() {
    // 构建语言检测器，包含中文模型
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&[
        Language::Chinese,
        Language::English,
        Language::Spanish,
    ]).build();
    
    // 要检测的文本
    let text = "你好，这是一个中文测试文本";
    
    // 检测文本语言
    let detected_language = detector.detect_language_of(text);
    
    // 输出检测结果
    match detected_language {
        Some(lang) => println!("检测到的语言是: {:?}", lang),
        None => println!("无法确定语言"),
    }
    
    // 获取置信度分数
    if let Some(lang) = detected_language {
        let confidence_scores = detector.compute_language_confidence_values(text);
        for (language, confidence) in confidence_scores {
            println!("语言: {:?}, 置信度: {:.2}", language, confidence);
        }
    }
}

特性说明

高效中文处理：专门优化的中文语言模型，处理速度快
高准确率：在Rust生态中提供最准确的中文检测
轻量化：使用Brotli压缩算法，模型文件更小
独立置信度：提供独立于其他语言的置信度评分

许可证

Apache-2.0许可证

完整示例代码

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use lingua_chinese_language_model::CHINESE;

fn main() {
    // 初始化语言检测器，包含多种语言模型
    let detector = LanguageDetectorBuilder::from_languages(&[
        Language::Chinese,
        Language::English,
        Language::Japanese,
        Language::Korean,
        Language::French,
        Language::German
    ]).build();
    
    // 测试文本集合
    let texts = [
        ("中文测试", "简单中文"),
        ("これは日本語のテストです", "日语文本"),
        ("This is an English test", "英语文本"),
        ("Bonjour, c'est un test français", "法语文本"),
        ("안녕하세요, 한국어 테스트입니다", "韩语文本")
    ];
    
    // 遍历测试文本
    for (text, description) in texts {
        println!("\n测试内容: {} ({})", text, description);
        
        // 检测主要语言
        if let Some(lang) = detector.detect_language_of(text) {
            println!("检测到的主要语言: {:?}", lang);
        }
        
        // 获取所有语言的置信度分数
        let confidences = detector.compute_language_confidence_values(text);
        println!("语言置信度分析:");
        
        // 打印置信度高于10%的语言
        for (language, confidence) in confidences {
            if confidence >= 0.1 {
                println!("  {:?}: {:.2}%", language, confidence * 100.0);
            }
        }
    }
    
    // 中文特定功能示例
    let chinese_text = "清华大学是中国著名的高等学府，成立于1911年";
    println!("\n中文文本分析示例: {}", chinese_text);
    
    // 检测中文变体
    let chinese_confidences = detector.compute_language_confidence_values(chinese_text);
    for (language, confidence) in chinese_confidences {
        if confidence >= 0.01 {
            println!("  {:?}: {:.2}%", language, confidence * 100.0);
        }
    }
}

代码说明

初始化语言检测器时，可以指定要包含的语言模型
提供了多种语言的测试文本，展示检测能力
支持获取所有语言的置信度分数，而不仅仅是主要语言
特别展示了中文文本的分析能力
置信度以百分比形式显示，更直观

这个完整示例展示了库的核心功能，包括多语言检测、置信度分析和中文文本处理等高级用法。

eggper 1楼

Rust中文语言模型库lingua-chinese-language-model使用指南

介绍

lingua-chinese-language-model是一个专注于中文文本处理的Rust语言库，提供高效的中文语言模型支持，适用于各种中文文本分析和处理任务。

主要功能

中文分词
词性标注
命名实体识别
文本分类
情感分析
关键词提取

安装方法

在Cargo.toml中添加依赖：

[dependencies]
lingua-chinese-language-model = "0.3.0"

基本使用方法

1. 中文分词

use lingua_chinese_language_model::tokenizer;

fn main() {
    let text = "这是一个中文分词的示例";
    let tokens = tokenizer::segment(text);
    println!("分词结果: {:?}", tokens);
    // 输出: ["这是", "一个", "中文", "分词", "的", "示例"]
}

2. 词性标注

use lingua_chinese_language_model::tagger;

fn main() {
    let text = "我爱北京天安门";
    let tagged = tagger::tag(text);
    println!("词性标注: {:?}", tagged);
    // 输出: [("我", "PN"), ("爱", "VV"), ("北京", "NR"), ("天安门", "NR")]
}

3. 命名实体识别

use lingua_chinese_language_model::ner;

fn main() {
    let text = "马云是阿里巴巴的创始人";
    let entities = ner::recognize(text);
    println!("命名实体: {:?}", entities);
    // 输出: [("马云", "PERSON"), ("阿里巴巴", "ORG")]
}

4. 情感分析

use lingua_chinese_language_model::sentiment;

fn main() {
    let text = "这个产品非常好用，我非常满意！";
    let score = sentiment::analyze(text);
    println!("情感得分: {:.2}", score);
    // 输出: 情感得分: 0.85 (范围-1到1，1表示最积极)
}

高级功能

1. 自定义词典

use lingua_chinese_language_model::tokenizer;

fn main() {
    let mut tokenizer = tokenizer::Tokenizer::new();
    tokenizer.add_word("区块链技术");  // 添加自定义词汇
    
    let text = "学习区块链技术很重要";
    let tokens = tokenizer.segment(text);
    println!("分词结果: {:?}", tokens);
    // 输出: ["学习", "区块链技术", "很", "重要"]
}

2. 批量处理

use lingua_chinese_language_model::{tokenizer, tagger};

fn main() {
    let texts = vec![
        "第一句话",
        "第二句话更长一些",
        "第三句话"
    ];
    
    // 并行分词
    let segmented: Vec<Vec<&str>> = tokenizer::segment_batch(&texts);
    
    // 并行词性标注
    let tagged = tagger::tag_batch(&texts);
    
    println!("批量分词结果: {:?}", segmented);
    println!("批量标注结果: {:?}", tagged);
}

性能优化建议

对于大量文本处理，使用segment_batch和tag_batch等批量处理方法
重用Tokenizer实例而不是每次都创建新的
对于固定任务，可以只加载需要的模型组件

注意事项

首次使用时会自动下载模型文件(约300MB)
处理长文本(>1000字)时建议分段处理
专业领域文本可能需要添加领域词典

完整示例demo

下面是一个结合了分词、词性标注和命名实体识别的完整示例：

use lingua_chinese_language_model::{tokenizer, tagger, ner};

fn main() {
    // 示例文本
    let text = "清华大学位于北京市海淀区，是中国著名的高等学府";
    
    // 1. 分词
    let tokens = tokenizer::segment(text);
    println!("=== 分词结果 ===");
    println!("{:?}\n", tokens);
    
    // 2. 词性标注
    let tagged = tagger::tag(text);
    println!("=== 词性标注 ===");
    for (word, pos) in tagged {
        println!("{}: {}", word, pos);
    }
    println!();
    
    // 3. 命名实体识别
    let entities = ner::recognize(text);
    println!("=== 命名实体 ===");
    for (entity, label) in entities {
        println!("{}: {}", entity, label);
    }
}

输出结果示例：

=== 分词结果 ===
["清华大学", "位于", "北京市", "海淀区", "，", "是", "中国", "著名", "的", "高等学府"]

=== 词性标注 ===
清华大学: NR
位于: VV
北京市: NR
海淀区: NR
，: PU
是: VC
中国: NR
著名: VA
的: DEC
高等学府: NN

=== 命名实体 ===
清华大学: ORG
北京市: LOC
海淀区: LOC
中国: GPE

这个示例展示了如何同时使用库的多个功能来处理中文文本，适合作为项目开发的起点。