Rust泰语自然语言处理库lingua-thai-language-model的使用，支持高效泰语文本分析和语言模型构建

Lingua的泰语语言模型

这是用于泰语的语言模型，被Lingua所使用。Lingua是Rust生态系统中最准确的自然语言检测库。

更新日志

版本1.2.0

通过包含独特和最常见的ngrams来增强语言模型，以支持独立于其他语言的绝对置信度指标。

版本1.1.0

语言模型文件现在使用Brotli算法压缩，平均减少了15%的文件大小。

安装

在项目目录中运行以下Cargo命令：

cargo add lingua-thai-language-model

或者在你的Cargo.toml中添加以下行：

lingua-thai-language-model = "1.2.0"

使用示例

以下是一个完整的示例代码，展示如何使用lingua-thai-language-model进行泰语文本分析：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};

fn main() {
    // 创建语言检测器，包含泰语支持
    let languages = vec![Language::Thai];
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&languages).build();
    
    // 泰语文本示例
    let text = "ภาษาไทยเป็นภาษาราชการของประเทศไทย";
    
    // 检测语言
    let detected_language = detector.detect_language_of(text);
    
    match detected_language {
        Some(language) => println!("检测到的语言是: {:?}", language),
        None => println!("无法确定语言"),
    }
    
    // 获取置信度分数
    let confidence_scores = detector.compute_language_confidence_values(text);
    println!("置信度分数: {:?}", confidence_scores);
}

代码说明

首先导入必要的模块和类型
创建语言检测器，指定支持的语言(此处为泰语)
提供泰语文本进行检测
使用检测器判断文本语言
获取并输出语言检测的置信度分数

这个库主要作为Lingua语言检测功能的泰语支持组件，需要与lingua主库一起使用。它提供了高效的泰语文本分析和语言模型构建能力。

完整示例demo

以下是一个更完整的示例，展示如何使用lingua-thai-language-model进行多种泰语文本分析：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};

fn main() {
    // 初始化检测器，支持泰语和其他可能需要的语言
    let languages = vec![
        Language::Thai,
        Language::English,
        Language::Chinese,
    ];
    
    let detector = LanguageDetectorBuilder::from_languages(&languages)
        .with_preloaded_language_models()
        .build();
    
    // 测试多个泰语句子
    let thai_samples = vec![
        "สวัสดีครับ",
        "ประเทศไทยเป็นประเทศที่สวยงาม",
        "ฉันรักภาษาไทย",
    ];
    
    for text in thai_samples {
        println!("\n分析文本: {}", text);
        
        // 检测语言
        match detector.detect_language_of(text) {
            Some(lang) => println!("检测结果: {}", lang),
            None => println!("无法确定语言"),
        }
        
        // 获取详细置信度
        let confidences = detector.compute_language_confidence_values(text);
        println!("置信度分析:");
        for (lang, score) in confidences {
            println!("  {}: {:.4}", lang, score);
        }
    }
    
    // 测试混合语言文本
    let mixed_text = "Hello สวัสดี 你好";
    println!("\n分析混合语言文本: {}", mixed_text);
    let result = detector.detect_language_of(mixed_text);
    println!("混合文本检测结果: {:?}", result);
}

代码说明

初始化语言检测器，支持泰语、英语和中文
使用with_preloaded_language_models预加载语言模型
测试多个纯泰语文本样本
对每个文本输出检测结果和详细置信度分数
最后测试混合语言文本的检测能力

这个示例展示了库的核心功能，包括语言检测、置信度分析和混合语言处理能力。

yuanlaile 1楼

Rust泰语自然语言处理库lingua-thai-language-model使用指南

简介

lingua-thai-language-model是一个用于泰语自然语言处理的Rust库，提供了高效的泰语文本分析和语言模型构建功能。该库特别适合需要处理泰语文本的开发者，支持分词、语言模型训练和文本分析等任务。

主要特性

高效的泰语文本分词
支持n-gram语言模型构建
泰语文本预处理工具
轻量级且高性能
易于集成到Rust项目中

安装

在Cargo.toml中添加依赖：

[dependencies]
lingua-thai-language-model = "0.1.0"  # 请使用最新版本号

完整示例代码

以下是一个完整的演示示例，展示了如何使用lingua-thai-language-model库进行泰语文本处理：

use lingua_thai_language_model::{
    tokenizer::ThaiTokenizer,
    language_model::NgramLanguageModel,
    preprocessing::{clean_text, normalize_thai}
};
use std::fs::File;
use std::io::{BufWriter, BufReader};

fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 示例1: 泰语分词
    let tokenizer = ThaiTokenizer::new();
    let text = "ภาษาไทยเป็นภาษาที่สวยงามและมีเอกลักษณ์เฉพาะตัว";
    let tokens = tokenizer.tokenize(text);
    println!("分词结果: {:?}", tokens);
    
    // 示例2: 构建3-gram语言模型
    let mut model = NgramLanguageModel::new(3);
    let corpus = vec![
        "ภาษาไทย".to_string(),
        "เป็นภาษาที่สวยงาม".to_string(),
        "และมีเอกลักษณ์เฉพาะตัว".to_string()
    ];
    model.train(&corpus);
    
    // 计算句子概率
    let sentence = "ภาษาไทยสวยงาม";
    let prob = model.sentence_probability(sentence);
    println!("'{}'的概率: {}", sentence, prob);
    
    // 示例3: 文本预处理
    let dirty_text = "ภาษาไทย!!  มีตัวเลข123ปนอยู่";
    let cleaned = clean_text(dirty_text);
    println!("清理后: {}", cleaned);
    let normalized = normalize_thai(&cleaned);
    println!("标准化后: {}", normalized);
    
    // 示例4: 保存和加载模型
    let file = File::create("thai_lm.bin")?;
    let writer = BufWriter::new(file);
    model.save(writer)?;
    
    let file = File::open("thai_lm.bin")?;
    let reader = BufReader::new(file);
    let loaded_model = NgramLanguageModel::load(reader)?;
    println!("模型加载成功!");
    
    // 示例5: 自定义分词器
    struct LengthFilterTokenizer {
        base: ThaiTokenizer,
        min_length: usize,
    }
    
    impl Tokenizer for LengthFilterTokenizer {
        fn tokenize(&self, text: &str) -> Vec<String> {
            self.base.tokenize(text)
                .into_iter()
                .filter(|t| t.len() >= self.min_length)
                .collect()
        }
    }
    
    let custom_tokenizer = LengthFilterTokenizer {
        base: ThaiTokenizer::new(),
        min_length: 2,
    };
    let custom_tokens = custom_tokenizer.tokenize(text);
    println!("自定义分词结果: {:?}", custom_tokens);
    
    Ok(())
}

输出示例

运行上述代码可能会产生类似以下输出：

分词结果: ["ภาษา", "ไทย", "เป็น", "ภาษา", "ที่", "สวยงาม", "และ", "มี", "เอกลักษณ์", "เฉพาะ", "ตัว"]
'ภาษาไทยสวยงาม'的概率: 0.00042
清理后: ภาษาไทย มีตัวเลขปนอยู่
标准化后: ภาษาไทย มีตัวเลขปนอยู่
模型加载成功!
自定义分词结果: ["ภาษา", "ไทย", "เป็น", "ภาษา", "ที่", "สวยงาม", "และ", "มี", "เอกลักษณ์", "เฉพาะ", "ตัว"]

性能提示

对于大型语料库，考虑使用迭代器分批处理数据
可以使用rayon并行库加速模型训练过程
预处理阶段尽可能过滤掉无用字符

注意事项

泰语分词可能因上下文不同而产生不同结果
语言模型效果取决于训练数据的质量和数量
当前版本主要支持标准泰语