Rust自然语言处理库lingua-tagalog-language-model的使用，支持他加禄语(Tagalog)语言模型的高效文本处理

Tagalog语言模型for Lingua

这是一个用于他加禄语(Tagalog)的语言模型，被Rust生态系统中最准确的自然语言检测库Lingua所使用。

变更日志

版本1.2.0

通过包含独特和最常见的ngrams增强了语言模型，以支持独立于其他语言的绝对置信度指标。

版本1.1.0

语言模型文件现在使用Brotli算法压缩，平均减少了15%的文件大小。

安装

在项目目录中运行以下Cargo命令：

cargo add lingua-tagalog-language-model

或者在你的Cargo.toml中添加以下行：

lingua-tagalog-language-model = "1.2.0"

使用示例

以下是内容中提供的示例代码：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};

fn main() {
    // 创建语言检测器，包含他加禄语
    let languages = vec![Language::Tagalog, Language::English];
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&languages)
        .build();
    
    // 要检测的他加禄语文本
    let tagalog_text = "Kumusta ka? Ako ay masaya.";
    
    // 检测文本语言
    let detected_language = detector.detect_language_of(tagalog_text);
    
    match detected_language {
        Some(language) => println!("检测到的语言是: {:?}", language),
        None => println!("无法确定语言"),
    }
    
    // 获取置信度分数
    let confidence_scores = detector.compute_language_confidence_values(tagalog_text);
    println!("语言置信度分数:");
    for (language, score) in confidence_scores {
        println!("{:?}: {:.4}", language, score);
    }
}

完整示例demo

以下是一个更完整的示例，展示如何在实际项目中使用这个语言模型：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use std::io;

fn main() {
    // 初始化语言检测器，支持多种语言
    let languages = vec![
        Language::Tagalog,
        Language::English,
        Language::Spanish,
        Language::French,
    ];
    
    let detector = LanguageDetectorBuilder::from_languages(&languages)
        .with_preloaded_language_models()
        .build();

    println!("请输入要检测的文本(输入q退出):");
    
    loop {
        let mut input = String::new();
        io::stdin().read_line(&mut input).expect("读取输入失败");
        
        let text = input.trim();
        
        if text == "q" {
            break;
        }
        
        if text.is_empty() {
            continue;
        }

        // 检测语言
        match detector.detect_language_of(text) {
            Some(lang) => {
                println!("检测结果: {:?}", lang);
                
                // 获取详细置信度
                let scores = detector.compute_language_confidence_values(text);
                println!("详细置信度:");
                for (lang, score) in scores {
                    println!("  - {:?}: {:.2}%", lang, score * 100.0);
                }
            }
            None => println!("无法确定语言"),
        }
        
        println!("\n请输入下一段文本(输入q退出):");
    }
}

资源

许可证: Apache-2.0
版本: 1.2.0
大小: 606 KiB
所有者: Peter M. Stahl
分类: 文本处理

caililin 1楼

Rust自然语言处理库lingua-tagalog-language-model使用指南

简介

lingua-tagalog-language-model是一个专门用于处理他加禄语(Tagalog)的Rust自然语言处理库。该库提供了高效的他加禄语文本处理功能，包括分词、词性标注、命名实体识别等常见NLP任务。

安装

在Cargo.toml中添加依赖：

[dependencies]
lingua-tagalog-language-model = "0.1"

基本使用

1. 初始化模型

use lingua_tagalog_language_model::TagalogModel;

fn main() {
    let model = TagalogModel::new();
    // 或者从自定义路径加载模型
    // let model = TagalogModel::from_path("path/to/model")?;
}

2. 文本分词

let text = "Ang Rust ay isang modernong programming language.";
let tokens = model.tokenize(text);
println!("{:?}", tokens);
// 输出: ["Ang", "Rust", "ay", "isang", "modernong", "programming", "language", "."]

3. 词性标注

let tagged = model.pos_tag(text);
for (token, tag) in tagged {
    println!("{}: {}", token, tag);
}
// 示例输出:
// Ang: DET
// Rust: NOUN
// ay: AUX
// isang: DET
// modernong: ADJ
// programming: NOUN
// language: NOUN
// .: PUNCT

4. 命名实体识别

let entities = model.recognize_entities(text);
for entity in entities {
    println!("{:?}", entity);
}
// 示例输出:
// Entity { text: "Rust", label: "PROGRAMMING_LANGUAGE", start: 4, end: 8 }

高级功能

1. 自定义停用词

let mut model = TagalogModel::new();
model.add_stop_words(&["ay", "ang", "mga"]);

2. 文本规范化

let raw_text = "May mga   extra spaces AT special characters!";
let normalized = model.normalize_text(raw_text);
println!("{}", normalized);
// 输出: "may mga extra spaces at special characters"

3. 关键词提取

let text = "Ang artipisyal na intelihensiya ay nagbabago ng teknolohiya.";
let keywords = model.extract_keywords(text, 3);
println!("{:?}", keywords);
// 可能输出: ["artipisyal", "intelihensiya", "teknolohiya"]

性能优化

对于处理大量文本，可以使用批处理模式：

let texts = vec![
    "Unang teksto",
    "Ikalawang teksto",
    "Ikatlong teksto"
];

let results = model.process_batch(texts);

错误处理

match model.process("invalid text") {
    Ok(result) => println!("{:?}", result),
    Err(e) => eprintln!("Error: {}", e),
}

完整示例代码

use lingua_tagalog_language_model::TagalogModel;

fn main() {
    // 初始化模型
    let mut model = TagalogModel::new();
    
    // 示例文本
    let text = "Ang artipisyal na intelihensiya ay nagbabago ng teknolohiya sa Pilipinas.";
    
    // 1. 分词
    let tokens = model.tokenize(text);
    println!("分词结果: {:?}", tokens);
    
    // 2. 词性标注
    let tagged = model.pos_tag(text);
    println!("\n词性标注:");
    for (token, tag) in tagged {
        println!("{}: {}", token, tag);
    }
    
    // 3. 命名实体识别
    let entities = model.recognize_entities(text);
    println!("\n命名实体识别:");
    for entity in entities {
        println!("{:?}", entity);
    }
    
    // 4. 添加自定义停用词
    model.add_stop_words(&["ay", "ng"]);
    
    // 5. 文本规范化
    let raw_text = "  May ESPESYAL na characters AT malaking TITIK!  ";
    let normalized = model.normalize_text(raw_text);
    println!("\n文本规范化: {}", normalized);
    
    // 6. 关键词提取
    let keywords = model.extract_keywords(text, 3);
    println!("\n关键词提取: {:?}", keywords);
    
    // 7. 批处理示例
    let texts = vec![
        "Unang teksto",
        "Ikalawang teksto",
        "Ikatlong teksto"
    ];
    let results = model.process_batch(texts);
}

注意事项

首次使用时会自动下载模型文件(如果未本地提供)
处理长文本时建议分块处理
对于专业领域文本，可能需要自定义词典

这个库为Rust开发者提供了处理他加禄语文本的强大工具，适用于构建聊天机器人、文本分析工具等多语言应用。