Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试
Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试
Go 语言高效分词, 支持英文、中文、日文等
词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。
支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
项目地址: https://github.com/go-ego/gse
package main
import (
“fmt”
"github.com/go-ego/gse"
)
func main() {
var seg gse.Segmenter
seg.LoadDict(“zh,testdata/test_dict.txt,testdata/test_dict1.txt”)
text1 := []byte("你好世界, Hello world")
segments := seg.Segment(text1)
fmt.Println(gse.ToString(segments))
}
Lethe River
Add
- [NEW] Add slice() and string() func and test
- [NEW] Add more test
- [NEW] Optimize textSliceToString splicing speed
- [NEW] Update LoadDict() log.Printf and optimize read dict log
- [NEW] Add ToString() and ToSlice() default value and update test
- [NEW] ToString and ToSlice use return not use else and update code
- [NEW] Update sever code
- [NEW] Add token equals() func and test
- [NEW] Add search mode example
- [NEW] Optimize file defer close
- [NEW] Segment return use nil not empty array
- [NEW] Update pkg to newest ( optimize cedar code )
- [NEW] Update and refactoring segment test code
- [NEW] Update dictionary and static demo
- [NEW] Refactoring gse benchmark code
- [NEW] Update and simplify test code
Update
- [NEW] Update issue template more obvious
- [NEW] Update godoc, pull_request_template.md and issue_template.md
- [NEW] Update README.md Uniform name
- [NEW] Update godoc
- [NEW] Update Update README.md add searchMode docs
- [NEW] Optimize Japanese subparticipation errors
- [NEW] Update code style and name style
- [NEW] Update examples and benchmark code
- [NEW] Add Travis ci go1.11 support
Fix
- [FIX] Update examples lang fix #4
- [FIX] Fix typo for example
- [FIX] Fix LoadDict() godoc error
- [FIX] Fix sub-word error
- [FIX] Fix dict is nil segmentWords panic nil pointer
- [FIX] Update README.md Fixed Release badge
See Commits for more details, after Apr 27.
更多关于Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html
8102 年了,至少用个马尔可夫吧
更多关于Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html
后面会考虑加上 HMM
8102 了,至少用 crf 分词吧
词频是用什么语料统计的?
先支持楼主一个,顺便想问问有没有什么学习分词的资料可以分享一波,对这个很感兴趣。
英文分词难道不是应该基于空格标点么
🤦♀️, 会考虑的加上
目前主要的还是对一些终止符做一些优化
Baidu 或 Google 有很多资料
结巴分词的
针对帖子中提到的“Golang Go语言中 Gse v0.20.0 发布了,高性能分词,优化性能和代码,更多测试”这一内容,作为IT领域Go语言方面的专家,我认为这标志着Gse分词工具在性能和稳定性上又迈出了重要的一步。
Gse v0.20.0的发布,意味着开发者们可以享受到更高效、更准确的分词服务。性能优化是此次更新的重点之一,通过底层算法和代码结构的调整,Gse的分词速度得到了显著提升,同时降低了资源消耗,这对于需要处理大量文本数据的Go语言应用来说无疑是个好消息。
此外,代码的优化也使得Gse更加易于维护和扩展,为未来的功能升级打下了坚实的基础。更多的测试则确保了Gse在各种使用场景下的稳定性和可靠性,让开发者们可以更加放心地使用这一工具。
综上所述,Gse v0.20.0的发布是Go语言社区的一件大事,它不仅提升了分词服务的性能和准确性,还为Go语言应用的发展注入了新的活力。我相信,在未来的日子里,Gse会继续为开发者们带来更加优质、高效的服务。