Rust世界语（Esperanto）语言处理库lingua-esperanto-language-model的使用，支持文本分析与模型训练

Lingua的世界语语言模型

这是用于世界语（Esperanto）的语言模型，被Lingua（Rust生态系统中最准确的自然语言检测库）所使用。

版本更新日志

版本1.2.0

通过包含独特和最常见的ngrams来增强语言模型，以支持独立于其他语言的绝对置信度指标。

版本1.1.0

语言模型文件现在使用Brotli算法压缩，平均减小了15%的文件大小。

安装

在项目目录中运行以下Cargo命令：

cargo add lingua-esperanto-language-model

或在Cargo.toml中添加以下行：

lingua-esperanto-language-model = "1.2.0"

完整示例代码

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use lingua_esperanto_language_model::ESPERANTO_LANGUAGE_MODEL;

fn main() {
    // 创建语言检测器，包含世界语
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&[
        Language::English,
        Language::Spanish,
        Language::Esperanto,  // 添加世界语支持
    ])
    .with_preloaded_language_models()
    .build();
    
    // 待检测的世界语文本
    let text = "Ĉu vi parolas Esperanton? Ĝi estas tre bela lingvo.";
    
    // 检测文本语言
    let detected_language = detector.detect_language_of(text);
    
    // 输出检测结果
    match detected_language {
        Some(language) => println!("检测到的语言是: {:?}", language),
        None => println!("无法确定语言"),
    }
    
    // 获取置信度分数
    let confidence_values = detector.compute_language_confidence_values(text);
    println!("语言置信度分数:");
    for (language, confidence) in confidence_values {
        println!("{:?}: {:.4}", language, confidence);
    }
}

扩展示例代码

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use lingua_esperanto_language_model::ESPERANTO_LANGUAGE_MODEL;

fn main() {
    // 创建包含更多语言的支持
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&[
        Language::English,
        Language::French,
        Language::German,
        Language::Spanish,
        Language::Esperanto,  // 世界语支持
    ])
    .with_preloaded_language_models()
    .build();

    // 测试多种语言的文本
    let texts = vec![
        ("英语测试", "This is an English sentence."),
        ("世界语测试", "Ĉu vi komprenas ĉi tiun frazon?"),
        ("法语测试", "Je parle un peu français."),
        ("混合文本测试", "Mi parolas Esperanton kaj English."),
    ];

    for (desc, text) in texts {
        println!("\n测试: {}", desc);
        println!("文本: {}", text);

        // 检测主要语言
        if let Some(lang) = detector.detect_language_of(text) {
            println!("主要语言: {:?}", lang);
        } else {
            println!("无法确定主要语言");
        }

        // 获取所有语言的置信度
        println!("详细置信度:");
        let confidences = detector.compute_language_confidence_values(text);
        for (lang, score) in confidences {
            println!("  {:?}: {:.4}", lang, score);
        }
    }

    // 单独检查世界语模型
    println!("\n世界语模型信息:");
    println!("模型大小: {} ngrams", ESPERANTO_LANGUAGE_MODEL.ngram_count());
    println!("支持的最长ngram: {}", ESPERANTO_LANGUAGE_MODEL.maximum_ngram_length());
}

这个扩展示例展示了：

支持更多语言的检测
批量测试不同语言的文本
显示更详细的置信度分析
访问世界语模型的元信息
处理混合语言文本的能力
展示了如何获取模型的基本统计信息

注意：实际使用时需要确保已正确添加所有相关语言的依赖项。

sinazl 1楼

Rust世界语（Esperanto）语言处理库lingua-esperanto-language-model使用指南

介绍

lingua-esperanto-language-model是一个专门为世界语（Esperanto）设计的Rust语言处理库，提供文本分析和模型训练功能。这个库特别适合处理世界语这种人工构造语言，它包含了针对世界语特性的优化处理。

主要功能

世界语文本分词与标记化
词频统计与分析
N-gram语言模型构建
自定义模型训练
文本相似度计算

安装

在Cargo.toml中添加依赖：

[dependencies]
lingua-esperanto-language-model = "0.2.0"

完整示例demo

use lingua_esperanto_language_model::{
    tokenizer,
    analysis,
    models::{NgramModel, NgramType},
    similarity
};

fn main() {
    // 示例1：文本分词
    let text = "Ĉu vi parolas Esperanton? Ĝi estas bela lingvo!";
    let tokens = tokenizer::tokenize(text);
    println!("分词结果: {:?}\n", tokens);

    // 示例2：词频统计
    let text = "Esperanto estas facila lingvo. Esperanto estas logika.";
    let freq = analysis::word_frequency(text);
    println!("词频统计: {:?}\n", freq);

    // 示例3：训练和使用N-gram模型
    let corpus = vec![
        "Saluton, kiel vi fartas?".to_string(),
        "Mi fartas bone, dankon.".to_string(),
        "Kio estas via nomo?".to_string()
    ];
    
    let mut model = NgramModel::new(NgramType::Bigram);
    model.train(&corpus);
    model.save("esperanto_bigram.model").unwrap();
    
    let loaded_model = NgramModel::load("esperanto_bigram.model").unwrap();
    let next_word = loaded_model.predict("Mi");
    println!("预测下一个词: {:?}\n", next_word);

    // 示例4：文本相似度计算
    let text1 = "Esperanto estas internacia lingvo";
    let text2 = "Esperanto estas facila kaj bela lingvo";
    let sim = similarity::cosine_similarity(text1, text2);
    println!("文本相似度: {:.2}\n", sim);

    // 高级功能示例：自定义分词
    let config = tokenizer::TokenizerConfig {
        split_contractions: false,
        keep_punctuation: false,
    };
    let custom_tokenizer = tokenizer::Tokenizer::with_config(config);
    let custom_tokens = custom_tokenizer.tokenize("Mi estas en la domo.");
    println!("自定义分词结果: {:?}\n", custom_tokens);
}

性能提示

对于大型语料库，考虑使用rayon进行并行处理：

use lingua_esperanto_language_model::analysis;
use rayon::prelude::*;

fn process_large_corpus(corpus: &[String]) {
    let word_counts: Vec<_> = corpus.par_iter()
        .map(|text| analysis::word_frequency(text))
        .collect();
    // 进一步处理...
}

内存优化：对于非常大的模型，可以使用mmap特性来减少内存占用。

注意事项

世界语的特殊字符（如ĉ, ĝ, ĥ, ĵ, ŝ, ŭ）会被正确处理
库内部使用Unicode规范化，确保不同形式的字符被一致处理
训练数据越多，模型效果越好，建议至少准备10MB以上的世界语文本

这个库为世界语NLP任务提供了坚实的基础，开发者可以基于它构建更复杂的应用如机器翻译、聊天机器人等。