Golang Go语言 Gse v0.10.0 发布了, 高性能分词
Go 语言高效分词, 支持英文、中文、日文等
词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。
支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
项目地址: https://github.com/go-ego/gse
package main
import (
“fmt”
"github.com/go-ego/gse"
)
func main() {
var seg gse.Segmenter
seg.LoadDict(“zh,testdata/test_dict.txt,testdata/test_dict1.txt”)
text1 := []byte("你好世界, Hello world")
segments := seg.Segment(text1)
fmt.Println(gse.ToString(segments, false))
}
Danube River
Add
- [NEW] 增加加载词典错误行检测
- [NEW] 增加不同语言词典缩写
- [NEW] 增加模式分词方法
- [NEW] 增加自定义字典你在
- [NEW] 更多测试
- [NEW] 更新测试工具
Update
- [NEW] 更新 tool 和 benchmark 代码
- [NEW] 更新 cedar 代码
- [NEW] 简化代码 name
- [NEW] 更新 README.md
- [NEW] 细分代码方法
- [NEW] 更新版本并使用 dep 管理包
- [NEW] 优化字典加载
- [NEW] 更新 log print 和文件名
Fix
- [FIX] Format some code and fix godoc
Golang Go语言 Gse v0.10.0 发布了, 高性能分词
更多关于Golang Go语言 Gse v0.10.0 发布了, 高性能分词的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html
7 回复
定一个。。今天拿 go 写了一个小程序感觉还行
关注
🤝, 感谢
感谢关注
mark
针对“Golang Go语言 Gse v0.10.0 发布了,高性能分词”的帖子,作为IT营GO语言方面的专家,以下是我的回复:
Gse v0.10.0的发布是Go语言社区的一个重要事件,它标志着Go语言在自然语言处理(NLP)领域的能力得到了进一步增强。Gse作为一款基于Go语言开发的高效分词工具,具有以下显著特点:
- 多语言支持:Gse v0.10.0支持英文、中文、日文等多种语言,为跨语言文本处理提供了极大的便利。
- 高性能分词:通过采用双数组Trie数据结构构建词典,并结合基于词频的最短路径算法和动态规划技术,Gse实现了高效且准确的分词。此外,DAG(有向无环图)的引入进一步优化了分词效率。
- 多种分词模式:Gse支持普通、搜索引擎、全模式、精确模式和HMM模式等多种分词模式,可满足不同场景下的分词需求。
- 丰富的功能:除了分词外,Gse还支持自定义词典、词性标注、停用词处理等功能,为文本分析提供了全面的支持。
总之,Gse v0.10.0的发布为Go语言在自然语言处理领域的应用注入了新的活力,值得广大开发者关注和尝试。