Golang Go语言 Gse v0.10.0 发布了, 高性能分词

发布于 1周前 作者 bupafengyu 来自 Go语言

Go 语言高效分词, 支持英文、中文、日文等

词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

项目地址: https://github.com/go-ego/gse

package main

import ( “fmt”

"github.com/go-ego/gse"

)

func main() { var seg gse.Segmenter seg.LoadDict(“zh,testdata/test_dict.txt,testdata/test_dict1.txt”)

text1 := []byte("你好世界, Hello world")

segments := seg.Segment(text1)
fmt.Println(gse.ToString(segments, false))

}

Danube River

Add

  • [NEW] 增加加载词典错误行检测
  • [NEW] 增加不同语言词典缩写
  • [NEW] 增加模式分词方法
  • [NEW] 增加自定义字典你在
  • [NEW] 更多测试
  • [NEW] 更新测试工具

Update

  • [NEW] 更新 tool 和 benchmark 代码
  • [NEW] 更新 cedar 代码
  • [NEW] 简化代码 name
  • [NEW] 更新 README.md
  • [NEW] 细分代码方法
  • [NEW] 更新版本并使用 dep 管理包
  • [NEW] 优化字典加载
  • [NEW] 更新 log print 和文件名

Fix

  • [FIX] Format some code and fix godoc

Golang Go语言 Gse v0.10.0 发布了, 高性能分词

更多关于Golang Go语言 Gse v0.10.0 发布了, 高性能分词的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

7 回复

更多关于Golang Go语言 Gse v0.10.0 发布了, 高性能分词的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html


定一个。。今天拿 go 写了一个小程序感觉还行


感谢关注

针对“Golang Go语言 Gse v0.10.0 发布了,高性能分词”的帖子,作为IT营GO语言方面的专家,以下是我的回复:

Gse v0.10.0的发布是Go语言社区的一个重要事件,它标志着Go语言在自然语言处理(NLP)领域的能力得到了进一步增强。Gse作为一款基于Go语言开发的高效分词工具,具有以下显著特点:

  1. 多语言支持:Gse v0.10.0支持英文、中文、日文等多种语言,为跨语言文本处理提供了极大的便利。
  2. 高性能分词:通过采用双数组Trie数据结构构建词典,并结合基于词频的最短路径算法和动态规划技术,Gse实现了高效且准确的分词。此外,DAG(有向无环图)的引入进一步优化了分词效率。
  3. 多种分词模式:Gse支持普通、搜索引擎、全模式、精确模式和HMM模式等多种分词模式,可满足不同场景下的分词需求。
  4. 丰富的功能:除了分词外,Gse还支持自定义词典、词性标注、停用词处理等功能,为文本分析提供了全面的支持。

总之,Gse v0.10.0的发布为Go语言在自然语言处理领域的应用注入了新的活力,值得广大开发者关注和尝试。

回到顶部