Rust乌尔都语语言模型库lingua-urdu-language-model的使用

这是用于乌尔都语的语言模型，由Rust生态系统中最准确的自然语言检测库Lingua使用。

版本变更

版本1.2.0

通过包含独特且最常见的ngrams来增强语言模型，以支持独立于其他语言的绝对置信度指标。

版本1.1.0

现在使用Brotli算法压缩语言模型文件，平均减小了15%的文件大小。

安装方法

在项目目录中运行以下Cargo命令：

cargo add lingua-urdu-language-model

或者在Cargo.toml中添加以下行：

lingua-urdu-language-model = "1.2.0"

示例代码

以下是使用lingua-urdu-language-model进行乌尔都语文本检测的完整示例：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};

fn main() {
    // 创建语言检测器，包含乌尔都语支持
    let detector: LanguageDetector = LanguageDetectorBuilder::from_all_languages()
        .with_preloaded_language_models()
        .build();
    
    // 要检测的乌尔都语文本
    let text = "کیا حال ہے؟";
    
    // 检测语言
    let detected_language = detector.detect_language_of(text);
    
    // 输出结果
    match detected_language {
        Some(language) => println!("检测到的语言: {}", language),
        None => println!("无法确定语言"),
    }
}

这个示例展示了如何：

创建一个包含所有支持语言的语言检测器
加载预训练的语言模型(包括乌尔都语)
检测给定文本的语言
输出检测结果

完整示例演示

以下是一个更完整的示例，展示如何检测多种语言并获取置信度分数：

use lingua::{Language, LanguageDetector, LanguageDetectorBuilder};
use lingua::Language::{English, Urdu, Arabic};

fn main() {
    // 创建只包含英语、乌尔都语和阿拉伯语的语言检测器
    let languages = vec![English, Urdu, Arabic];
    let detector: LanguageDetector = LanguageDetectorBuilder::from_languages(&languages)
        .with_preloaded_language_models()
        .build();
    
    // 测试多种语言的文本
    let texts = vec![
        ("Hello, how are you?", "英语文本"),
        ("کیا حال ہے؟", "乌尔都语文本"),
        ("كيف حالك؟", "阿拉伯语文本"),
        ("这是一段中文文本", "不支持的语言")
    ];
    
    for (text, description) in texts {
        println!("\n测试文本: {}", description);
        
        // 检测最可能的语言
        if let Some(language) = detector.detect_language_of(text) {
            println!("检测到的语言: {}", language);
        } else {
            println!("无法确定语言");
        }
        
        // 获取所有语言的置信度分数
        let confidence_values = detector.compute_language_confidence_values(text);
        println!("置信度分数:");
        for (lang, confidence) in confidence_values {
            println!("- {}: {:.4}", lang, confidence);
        }
    }
}

这个完整示例展示了：

如何创建针对特定语言集的语言检测器
如何检测不同语言的文本
如何获取语言检测的置信度分数
如何处理不支持的语言

文档

完整文档可以在文档网站上找到。

仓库

项目源代码位于代码托管平台。

h691938207 1楼

Rust乌尔都语语言模型库lingua-urdu-language-model使用指南

介绍

lingua-urdu-language-model是一个专门为乌尔都语(Urdu)设计的Rust语言模型库，提供了高效的乌尔都语文本处理与自然语言处理(NLP)功能。该库旨在帮助开发者轻松集成乌尔都语语言处理能力到他们的Rust应用程序中。

主要功能

乌尔都语文本分词
词性标注
命名实体识别
语言模型推断
文本相似度计算
乌尔都语文本预处理

安装

在Cargo.toml中添加依赖：

[dependencies]
lingua-urdu-language-model = "0.1.0"  # 请使用最新版本号

完整示例代码

use lingua_urdu_language_model::{UrduLanguageModel, training::ModelTrainer};
use rayon::prelude::*;
use clap::Parser;

// 命令行参数结构体
#[derive(Parser)]
struct Cli {
    /// 要分析的乌尔都语文本
    text: String,
    
    /// 是否显示详细信息
    #[arg(short, long)]
    verbose: bool,
}

fn main() {
    // 初始化语言模型
    let model = UrduLanguageModel::new();
    
    // 解析命令行参数
    let args = Cli::parse();
    
    // 基本文本分析
    println!("输入文本: {}", args.text);
    
    // 分词
    let tokens = model.tokenize(&args.text);
    println!("分词结果: {:?}", tokens);
    
    // 词性标注
    let pos_tags = model.pos_tag(&args.text);
    println!("词性标注: {:?}", pos_tags);
    
    // 命名实体识别
    let entities = model.recognize_entities(&args.text);
    println!("命名实体: {:?}", entities);
    
    // 文本相似度示例
    let similar_text = "میں اسلام آباد سے ہوں";
    let similarity = model.text_similarity(&args.text, similar_text);
    println!("与'{}'的相似度: {:.2}", similar_text, similarity);
    
    // 批量处理示例
    let texts = vec![
        "پہلا جملہ",
        "دوسرا جملہ",
        &args.text
    ];
    
    // 并行处理
    let results: Vec<_> = texts.par_iter()
        .map(|text| model.tokenize(text))
        .collect();
    
    if args.verbose {
        println!("批量处理结果:");
        for (i, result) in results.iter().enumerate() {
            println!("文本 {}: {:?}", i+1, result);
        }
    }
    
    // 模型训练示例
    let trainer = ModelTrainer::new();
    let training_data = vec![
        ("میں طالب علم ہوں", "POSITIVE"),
        ("یہ اچھا نہیں ہے", "NEGATIVE"),
        ("لاہور ایک خوبصورت شہر ہے", "POSITIVE"),
    ];
    
    let trained_model = trainer.train(training_data);
    println!("模型训练完成!");
    
    // 保存模型
    trained_model.save("my_urdu_model.bin")
        .expect("保存模型失败");
}

代码说明

模型初始化：UrduLanguageModel::new()创建默认的语言模型实例
文本分词：tokenize()方法将乌尔都语句子分割成词语
词性标注：pos_tag()返回每个词语的词性标记
命名实体识别：recognize_entities()识别文本中的人名、地名等实体
并行处理：使用Rayon库实现多线程并行处理文本
模型训练：ModelTrainer可以基于标注数据训练自定义模型

使用建议

对于生产环境，建议将模型实例缓存为全局变量
处理大量文本时使用并行处理提高性能
专业领域应用应该使用领域数据微调模型
注意乌尔都语的从右向左书写特性

典型应用场景

乌尔都语聊天机器人
社交媒体内容分析
乌尔都语文档搜索引擎
自动化文本分类系统
语言学习应用

这个完整的示例展示了库的核心功能，可以作为开发乌尔都语处理应用的起点。根据具体需求，可以进一步扩展和定制功能。

Rust乌尔都语语言模型库lingua-urdu-language-model的使用，提供高效乌尔都语文本处理与NLP功能