Rust日语分词库lindera-ipadic-neologd的使用，基于IPADIC词典和NEologd更新实现高效日文文本处理

字典版本

该仓库包含mecab-ipadic-neologd字典。

字典格式

IPADIC字典格式和词性标签的详细信息请参考手册。

索引	名称(日语)	名称(英语)
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Major POS classification
5	品詞細分類1	Middle POS classification
6	品詞細分類2	Small POS classification
7	品詞細分類3	Fine POS classification
8	活用形	Conjugation type
9	活用型	Conjugation form
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation

用户字典格式(CSV)

简单版本

索引	名称(日语)	名称(英语)
0	表層形	surface
1	品詞	Major POS classification
2	読み	Reading

详细版本

索引	名称(日语)	名称(英语)	备注
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	POS
5	品詞細分類1	POS subcategory 1
6	品詞細分類2	POS subcategory 2
7	品詞細分類3	POS subcategory 3
8	活用形	Conjugation type
9	活用型	Conjugation form
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation
13	-	-	13之后可以自由扩展

安装

在项目目录中运行以下Cargo命令：

cargo add lindera-ipadic-neologd

或者在Cargo.toml中添加以下行：

lindera-ipadic-neologd = "0.45.0"

完整示例代码

use lindera::mode::Mode;
use lindera::tokenizer::{Tokenizer, TokenizerConfig};
use lindera_ipadic_neologd::load_dictionary;

fn main() {
    // 加载NEologd词典
    let dictionary = load_dictionary().unwrap();
    
    // 创建分词器配置
    let config = TokenizerConfig {
        dictionary,
        user_dictionary: None,
        mode: Mode::Normal,
    };
    
    // 初始化分词器
    let tokenizer = Tokenizer::with_config(config).unwrap();
    
    // 待分词的日文文本
    let text = "羽生結弦選手はフィギュアスケートの金メダリストです。";
    
    // 分词处理
    let tokens = tokenizer.tokenize(text).unwrap();
    
    // 输出分词结果
    for token in tokens {
        println!("{}: {:?}", token.text, token.detail);
    }
}

示例输出

羽生結弦: ["名詞", "固有名詞", "人名", "名", "*", "*", "羽生結弦", "ハニュウユズル", "ハニュウユズル"]
選手: ["名詞", "普通名詞", "一般", "*", "*", "*", "選手", "センシュ", "センシュ"]
は: ["助詞", "係助詞", "*", "*", "*", "*", "は", "ハ", "ワ"]
フィギュアスケート: ["名詞", "固有名詞", "一般", "*", "*", "*", "フィギュアスケート", "フィギュアスケート", "フィギュアスケート"]
の: ["助詞", "格助詞", "*", "*", "*", "*", "の", "ノ", "ノ"]
金: ["名詞", "普通名詞", "一般", "*", "*", "*", "金", "キン", "キン"]
メダリスト: ["名詞", "普通名詞", "一般", "*", "*", "*", "メダリスト", "メダリスト", "メダリスト"]
です: ["助動詞", "*", "*", "*", "特殊・デス", "基本形", "です", "デス", "デス"]
。: ["補助記号", "句点", "*", "*", "*", "*", "。", "。", "。"]

该示例展示了如何使用lindera-ipadic-neologd库对日文文本进行分词处理，并输出每个词的表层形式及其详细的词性标注信息。

yuanlaile 1楼

Rust日语分词库lindera-ipadic-neologd使用指南

介绍

lindera-ipadic-neologd是一个基于Rust的高性能日语分词库，它结合了IPADIC词典和NEologd词典更新，能够处理现代日语文本中的新词和网络用语。

该库是Lindera项目的一部分，提供了：

基于IPADIC词典的准确分词
整合NEologd词典更新，支持新词识别
高效的Rust原生实现
支持词性标注

安装方法

在Cargo.toml中添加依赖：

[dependencies]
lindera-ipadic-neologd = "0.12.0"

基本使用方法

简单分词示例

use lindera_ipadic_neologd::tokenizer::Tokenizer;

fn main() {
    // 创建分词器实例
    let tokenizer = Tokenizer::new().unwrap();
    
    // 对日文文本进行分词
    let text = "令和時代の新語・流行語を処理できます";
    let tokens = tokenizer.tokenize(text).unwrap();
    
    // 输出分词结果
    for token in tokens {
        println!("{}: {}", token.text, token.detail.join(", "));
    }
}

输出结果示例

令和: 名詞,固有名詞,一般,*,*,*,令和,レイワ,レイワ
時代: 名詞,普通名詞,一般,*,*,*,時代,ジダイ,ジダイ
の: 助詞,連体化,*,*,*,*,の,ノ,ノ
新語: 名詞,普通名詞,一般,*,*,*,新語,シンゴ,シンゴ
・: 記号,一般,*,*,*,*,・,・,・
流行語: 名詞,普通名詞,一般,*,*,*,流行語,リュウコウゴ,リューコーゴ
を: 助詞,格助詞,*,*,*,*,を,ヲ,ヲ
処理: 名詞,サ変可能,*,*,*,*,処理,ショリ,ショリ
できます: 動詞,非自立可能,*,*,一段,基本形,できる,デキマス,デキマス

高级功能

自定义分词模式

use lindera_ipadic-neologd::{tokenizer::Tokenizer, mode::Mode};

fn main() {
    // 使用不同的分词模式
    let tokenizer_normal = Tokenizer::new_with_mode(Mode::Normal).unwrap();
    let tokenizer_decompose = Tokenizer::new_with_mode(Mode::Decompose).unwrap();
    
    let text = "東京スカイツリー";
    
    println!("Normal模式:");
    for token in tokenizer_normal.tokenize(text).unwrap() {
        println!("{}", token.text);
    }
    
    println!("\nDecompose模式:");
    for token in tokenizer_decompose.tokenize(text).unwrap() {
        println!("{}", token.text);
    }
}

输出结果

Normal模式:
東京スカイツリー

Decompose模式:
東京
スカイツリー

处理用户词典

可以添加自定义词典来处理特定领域的术语：

use lindera_ipadic_neologd::tokenizer::{Tokenizer, TokenizerConfig};

fn main() {
    let config = TokenizerConfig {
        user_dict_path: Some("path/to/user_dict.csv".into()),
        ..Default::default()
    };
    
    let tokenizer = Tokenizer::with_config(config).unwrap();
    
    let text = "これはユーザー辞書で登録した単語です";
    let tokens = tokenizer.tokenize(text).unwrap();
    
    for token in tokens {
        println!("{}", token.text);
    }
}

性能优化建议

对于大量文本处理，建议：

复用Tokenizer实例，避免重复创建
考虑使用多线程处理
对于固定文本模式，可以预编译正则表达式

use lindera_ipadic_neologd::tokenizer::Tokenizer;
use rayon::prelude::*;

fn main() {
    let tokenizer = Tokenizer::new().unwrap();
    let texts = vec![
        "第一のテキスト",
        "第二のサンプル文章",
        "第三のデータ",
    ];
    
    // 并行处理多个文本
    let results: Vec<_> = texts
        .par_iter()
        .map(|text| tokenizer.tokenize(text).unwrap())
        .collect();
    
    for result in results {
        println!("{:?}", result);
    }
}

完整示例代码

// 导入必要的模块
use lindera_ipadic_neologd::{
    tokenizer::{Tokenizer, TokenizerConfig},
    mode::Mode
};
use rayon::prelude::*;

fn main() {
    // 示例1: 基本分词功能
    println!("=== 基本分词示例 ===");
    let tokenizer = Tokenizer::new().unwrap();
    let text = "令和時代の新語・流行語を処理できます";
    let tokens = tokenizer.tokenize(text).unwrap();
    
    for token in tokens {
        println!("{}: {}", token.text, token.detail.join(", "));
    }

    // 示例2: 不同分词模式比较
    println!("\n=== 分词模式比较 ===");
    let text = "東京スカイツリー";
    
    let tokenizer_normal = Tokenizer::new_with_mode(Mode::Normal).unwrap();
    println!("Normal模式:");
    for token in tokenizer_normal.tokenize(text).unwrap() {
        println!("{}", token.text);
    }
    
    let tokenizer_decompose = Tokenizer::new_with_mode(Mode::Decompose).unwrap();
    println!("\nDecompose模式:");
    for token in tokenizer_decompose.tokenize(text).unwrap() {
        println!("{}", token.text);
    }

    // 示例3: 使用用户词典
    println!("\n=== 用户词典示例 ===");
    let config = TokenizerConfig {
        user_dict_path: Some("path/to/user_dict.csv".into()),
        ..Default::default()
    };
    
    let tokenizer_with_dict = Tokenizer::with_config(config).unwrap();
    let text_with_custom = "これはユーザー辞書で登録した単語です";
    let tokens_with_dict = tokenizer_with_dict.tokenize(text_with_custom).unwrap();
    
    for token in tokens_with_dict {
        println!("{}", token.text);
    }

    // 示例4: 并行处理优化
    println!("\n=== 并行处理示例 ===");
    let texts = vec![
        "第一のテキスト",
        "第二のサンプル文章",
        "第三のデータ",
    ];
    
    let results: Vec<_> = texts
        .par_iter()
        .map(|text| tokenizer.tokenize(text).unwrap())
        .collect();
    
    for result in results {
        println!("{:?}", result);
    }
}

注意事项

词典文件较大，首次运行可能需要下载
对于非常新的网络用语，可能需要更新词典或添加用户词典
分词结果可能因模式不同而有差异

这个库特别适合需要处理现代日语文本、社交媒体内容或包含大量新词的应用程序。