Lindera IPADIC Builder

IPADIC 词典构建器，用于 Lindera。该项目是从 kuromoji-rs 分叉而来。

词典版本

此仓库包含 mecab-ipadic。

词典格式

有关 IPADIC 词典格式和词性标签的详细信息，请参考 manual。

索引	名称 (日语)	名称 (英语)
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Major POS classification
5	品詞細分類1	Middle POS classification
6	品詞細分類2	Small POS classification
7	品詞細分類3	Fine POS classification
8	活用形	Conjugation type
9	活用型	Conjugation form
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation

用户词典格式 (CSV)

简单版本

索引	名称 (日语)	名称 (英语)
0	表層形	surface
1	品詞	Major POS classification
2	読み	Reading

详细版本

索引	名称 (日语)	名称 (英语)	备注
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	POS
5	品詞細分類1	POS subcategory 1
6	品詞細分類2	POS subcategory 2
7	品詞細分類3	POS subcategory 3
8	活用形	Conjugation type
9	活用型	Conjugation form
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation
13	-	-	13 之后可以自由扩展。

完整示例代码

use lindera_ipadic_builder::build;
use std::path::Path;

fn main() -> std::io::Result<()> {
    // 输入词典目录路径
    let input_dir = Path::new("path/to/mecab-ipadic");
    
    // 输出目录路径
    let output_dir = Path::new("path/to/output");
    
    // 构建IPADIC词典
    build(input_dir, output_dir)?;
    
    println!("词典构建完成！输出目录: {:?}", output_dir);
    
    Ok(())
}

安装依赖:

[dependencies]
lindera-ipadic-builder = "0.32.3"

更完整的示例：构建词典并使用Lindera分词

use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;
use lindera_ipadic_builder::build;
use std::path::Path;

fn main() -> LinderaResult<()> {
    // 1. 构建词典
    let input_dict = Path::new("path/to/mecab-ipadic");
    let output_dir = Path::new("path/to/output");
    
    println!("正在构建词典...");
    build(input_dict, output_dir)?;
    println!("词典构建完成！");
    
    // 2. 使用构建好的词典进行分词
    let dictionary = output_dir.join("lindera-ipadic");
    let tokenizer = Tokenizer::new_with_dir(&dictionary, None)?;
    
    // 示例文本
    let text = "日本語の形態素解析を行います";
    
    // 分词
    let tokens = tokenizer.tokenize(text)?;
    
    println!("分词结果:");
    for token in tokens {
        println!("{}: {}", token.text, token.detail.join(", "));
    }
    
    Ok(())
}

这个更完整的示例展示了：

首先构建IPADIC词典
然后使用构建好的词典创建一个Lindera分词器
最后对示例文本进行分词并输出结果

注意：实际使用时需要将"path/to/mecab-ipadic"和"path/to/output"替换为实际的目录路径。

wuwangju 1楼

Rust日语分词库lindera-ipadic-builder使用指南

lindera-ipadic-builder是一个用于构建和集成IPADIC词典的Rust工具，它是Lindera分词器生态系统的一部分，专门为日语文本处理提供高效的分词功能。

功能特点

支持IPADIC词典格式的构建
提供高效的词典加载和查询性能
与Lindera分词器无缝集成
支持自定义词典扩展

安装方法

在Cargo.toml中添加依赖：

[dependencies]
lindera-ipadic-builder = "0.12.0"
lindera = "0.12.0"

基本使用方法

1. 构建IPADIC词典

use lindera_ipadic_builder::build;

fn main() -> std::io::Result<()> {
    // 输入目录（包含IPADIC词典文件）
    let input_dir = "path/to/ipadic";
    
    // 输出目录（构建后的词典将保存在这里）
    let output_dir = "path/to/output";
    
    // 构建词典
    build(input_dir, output_dir)?;
    
    Ok(())
}

2. 使用构建好的词典进行分词

use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    // 使用构建好的词典初始化分词器
    let dictionary = lindera::DictionaryConfig {
        kind: Some(lindera::DictionaryKind::IPADIC),
        path: Some("path/to/output".to_string()),
    };
    
    let tokenizer = Tokenizer::with_config(dictionary)?;
    
    // 分词示例
    let text = "日本語の文章を分かち書きします。";
    let tokens = tokenizer.tokenize(text)?;
    
    for token in tokens {
        println!("{}", token.text);
    }
    
    Ok(())
}

高级用法

自定义词典扩展

use lindera_ipadic_builder::build;
use std::path::PathBuf;

fn main() -> std::io::Result<()> {
    let input_dir = "path/to/ipadic";
    let output_dir = "path/to/output";
    let user_dict_path = PathBuf::from("path/to/user_dict.csv");
    
    // 构建包含自定义词典的IPADIC
    build(input_dir, output_dir, Some(&user_dict_path))?;
    
    Ok(())
}

性能优化配置

use lindera::mode::Mode;
use lindera::tokenizer::{Tokenizer, TokenizerConfig};

fn main() -> LinderaResult<()> {
    let config = TokenizerConfig {
        dictionary: lindera::DictionaryConfig {
            kind: Some(lindera::DictionaryKind::IPADIC),
            path: Some("path/to/output".to_string()),
        },
        user_dictionary: None,
        mode: Mode::Normal,
    };
    
    let tokenizer = Tokenizer::with_config(config)?;
    
    // 处理大量文本
    let large_text = "長い日本語の文章...";
    let tokens = tokenizer.tokenize(large_text)?;
    
    Ok(())
}

完整示例demo

// 完整示例：从构建词典到分词使用全流程

use lindera_ipadic_builder::build;
use lindera::tokenizer::{Tokenizer, TokenizerConfig};
use lindera::LinderaResult;
use std::path::PathBuf;

fn main() -> LinderaResult<()> {
    // 1. 构建IPADIC词典
    let input_dir = "path/to/ipadic"; // 替换为你的IPADIC词典目录
    let output_dir = "path/to/output"; // 替换为输出目录
    
    // 构建词典（可以添加自定义词典）
    let user_dict_path = PathBuf::from("path/to/user_dict.csv"); // 可选
    build(input_dir, output_dir, Some(&user_dict_path))?;
    
    // 2. 使用构建好的词典进行分词
    let config = TokenizerConfig {
        dictionary: lindera::DictionaryConfig {
            kind: Some(lindera::DictionaryKind::IPADIC),
            path: Some(output_dir.to_string()),
        },
        user_dictionary: None,
        mode: lindera::mode::Mode::Normal,
    };
    
    let tokenizer = Tokenizer::with_config(config)?;
    
    // 3. 分词示例
    let texts = vec![
        "東京特許許可局",
        "日本語の文章を分かち書きします。",
        "これはテストです。"
    ];
    
    for text in texts {
        println!("输入文本: {}", text);
        let tokens = tokenizer.tokenize(text)?;
        
        println!("分词结果:");
        for token in tokens {
            println!("- {}", token.text);
        }
        println!();
    }
    
    Ok(())
}

注意事项

需要先下载IPADIC词典文件（通常可以从官方渠道获取）
构建过程可能需要几分钟时间，取决于词典大小
构建后的词典文件较大，建议在生产环境中预构建并使用

示例输出

对于输入文本"東京特許許可局"：

東京
特許
許可
局

lindera-ipadic-builder为Rust开发者提供了强大的日语文本处理能力，特别适合需要高性能日语分词的应用场景。

Rust日语分词库lindera-ipadic-builder的使用，高效构建与集成IPADIC词典的自然语言处理工具