Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试

发布于 1周前 作者 caililin 来自 Go语言

Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试

Go 语言高效分词, 支持英文、中文、日文等

词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

项目地址: https://github.com/go-ego/gse

package main

import ( “fmt”

"github.com/go-ego/gse"

)

func main() { var seg gse.Segmenter seg.LoadDict(“zh,testdata/test_dict.txt,testdata/test_dict1.txt”)

text1 := []byte("你好世界, Hello world")

segments := seg.Segment(text1)
fmt.Println(gse.ToString(segments))

}

Lethe River

Add

  • [NEW] Add slice() and string() func and test
  • [NEW] Add more test
  • [NEW] Optimize textSliceToString splicing speed
  • [NEW] Update LoadDict() log.Printf and optimize read dict log
  • [NEW] Add ToString() and ToSlice() default value and update test
  • [NEW] ToString and ToSlice use return not use else and update code
  • [NEW] Update sever code
  • [NEW] Add token equals() func and test
  • [NEW] Add search mode example
  • [NEW] Optimize file defer close
  • [NEW] Segment return use nil not empty array
  • [NEW] Update pkg to newest ( optimize cedar code )

  • [NEW] Update and refactoring segment test code
  • [NEW] Update dictionary and static demo
  • [NEW] Refactoring gse benchmark code
  • [NEW] Update and simplify test code

Update

  • [NEW] Update issue template more obvious
  • [NEW] Update godoc, pull_request_template.md and issue_template.md
  • [NEW] Update README.md Uniform name
  • [NEW] Update godoc
  • [NEW] Update Update README.md add searchMode docs
  • [NEW] Optimize Japanese subparticipation errors
  • [NEW] Update code style and name style
  • [NEW] Update examples and benchmark code
  • [NEW] Add Travis ci go1.11 support

Fix

  • [FIX] Update examples lang fix #4
  • [FIX] Fix typo for example
  • [FIX] Fix LoadDict() godoc error
  • [FIX] Fix sub-word error
  • [FIX] Fix dict is nil segmentWords panic nil pointer
  • [FIX] Update README.md Fixed Release badge

See Commits for more details, after Apr 27.


更多关于Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

11 回复

8102 年了,至少用个马尔可夫吧

更多关于Golang Go语言中 Gse v0.20.0 发布了, 高性能分词, 优化性能和代码, 更多测试的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html


后面会考虑加上 HMM

8102 了,至少用 crf 分词吧

词频是用什么语料统计的?

先支持楼主一个,顺便想问问有没有什么学习分词的资料可以分享一波,对这个很感兴趣。

英文分词难道不是应该基于空格标点么

🤦‍♀️, 会考虑的加上

目前主要的还是对一些终止符做一些优化

Baidu 或 Google 有很多资料

针对帖子中提到的“Golang Go语言中 Gse v0.20.0 发布了,高性能分词,优化性能和代码,更多测试”这一内容,作为IT领域Go语言方面的专家,我认为这标志着Gse分词工具在性能和稳定性上又迈出了重要的一步。

Gse v0.20.0的发布,意味着开发者们可以享受到更高效、更准确的分词服务。性能优化是此次更新的重点之一,通过底层算法和代码结构的调整,Gse的分词速度得到了显著提升,同时降低了资源消耗,这对于需要处理大量文本数据的Go语言应用来说无疑是个好消息。

此外,代码的优化也使得Gse更加易于维护和扩展,为未来的功能升级打下了坚实的基础。更多的测试则确保了Gse在各种使用场景下的稳定性和可靠性,让开发者们可以更加放心地使用这一工具。

综上所述,Gse v0.20.0的发布是Go语言社区的一件大事,它不仅提升了分词服务的性能和准确性,还为Go语言应用的发展注入了新的活力。我相信,在未来的日子里,Gse会继续为开发者们带来更加优质、高效的服务。

回到顶部