Golang实现朴素贝叶斯分类算法插件库bayesian的使用

朴素贝叶斯分类

在任意数量的类别中对字符串集合执行朴素贝叶斯分类。bayesian还支持词频-逆文档频率计算(TF-IDF)。

背景

这是一个低门槛的Go库，用于基本的贝叶斯分类。请查看代码注释以了解朴素贝叶斯分类器的相关知识，并花时间理解下溢边缘情况，否则可能导致分类不准确。

安装

使用go命令安装：

go get github.com/jbrukh/bayesian
go install !$

特性

条件概率和"对数似然"评分
下溢检测
简单的分类器持久化
统计功能
TF-IDF支持

示例1 (简单分类)

要使用分类器，首先需要创建一些类别并训练它：

import "github.com/jbrukh/bayesian"

const (
    Good bayesian.Class = "Good"
    Bad  bayesian.Class = "Bad"
)

// 创建分类器
classifier := bayesian.NewClassifier(Good, Bad)

// 训练数据
goodStuff := []string{"tall", "rich", "handsome"}
badStuff  := []string{"poor", "smelly", "ugly"}

// 学习分类
classifier.Learn(goodStuff, Good)
classifier.Learn(badStuff,  Bad)

然后可以确定每个类别的分数以及数据最可能属于的类别：

// 获取对数分数
scores, likely, _ := classifier.LogScores(
    []string{"tall", "girl"},
)

分数的大小表示可能性。或者(但有浮点下溢的风险)，可以获取实际概率：

// 获取概率分数
probs, likely, _ := classifier.ProbScores(
    []string{"tall", "girl"},
)

示例2 (TF-IDF支持)

要使用TF-IDF分类器，首先需要创建一些类别并训练它，在训练后和调用分类方法(如LogScores、SafeProbScores和ProbScores)之前需要调用ConvertTermsFreqToTfIdf()：

import "github.com/jbrukh/bayesian"

const (
    Good bayesian.Class = "Good"
    Bad bayesian.Class = "Bad"
)

// 创建带有TF-IDF支持的分类器
classifier := bayesian.NewClassifierTfIdf(Good, Bad)

goodStuff := []string{"tall", "rich", "handsome"}
badStuff  := []string{"poor", "smelly", "ugly"}

classifier.Learn(goodStuff, Good)
classifier.Learn(badStuff,  Bad)

// 必须调用此方法
classifier.ConvertTermsFreqToTfIdf()

然后可以确定每个类别的分数以及数据最可能属于的类别：

// 获取对数分数
scores, likely, _ := classifier.LogScores(
    []string{"tall", "girl"},
)

// 获取概率分数
probs, likely, _ := classifier.ProbScores(
    []string{"tall", "girl"},
)

请明智地使用此库。

更多关于golang实现朴素贝叶斯分类算法插件库bayesian的使用的实战教程也可以访问 https://www.itying.com/category-94-b0.html

wuwangju 1楼

更多关于golang实现朴素贝叶斯分类算法插件库bayesian的使用的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

Golang实现朴素贝叶斯分类算法 - 使用bayesian库

朴素贝叶斯是一种基于概率统计的分类算法，在文本分类、垃圾邮件过滤等领域有广泛应用。下面我将介绍如何使用Go语言的bayesian库实现朴素贝叶斯分类。

安装bayesian库

首先安装bayesian库：

go get github.com/jbrukh/bayesian

基本使用示例

package main

import (
	"fmt"
	"github.com/jbrukh/bayesian"
)

// 定义分类类别
const (
	Good bayesian.Class = "Good"
	Bad  bayesian.Class = "Bad"
)

func main() {
	// 创建分类器，指定可能的类别
	classifier := bayesian.NewClassifier(Good, Bad)
	
	// 训练数据 - 学习Good类别的特征
	goodStuff := []string{"tall", "rich", "handsome"}
	classifier.Learn(goodStuff, Good)
	
	// 训练数据 - 学习Bad类别的特征
	badStuff := []string{"poor", "smelly", "ugly"}
	classifier.Learn(badStuff, Bad)
	
	// 测试数据
	test1 := []string{"tall", "handsome"}
	test2 := []string{"poor", "ugly"}
	
	// 进行分类预测
	scores1, likely1, _ := classifier.LogScores(test1)
	scores2, likely2, _ := classifier.LogScores(test2)
	
	fmt.Printf("'%v' is %s (scores: %v)\n", test1, likely1, scores1)
	fmt.Printf("'%v' is %s (scores: %v)\n", test2, likely2, scores2)
	
	// 保存分类器到文件
	err := classifier.WriteToFile("classifier.dat")
	if err != nil {
		fmt.Println("保存分类器失败:", err)
	}
	
	// 从文件加载分类器
	newClassifier, err := bayesian.NewClassifierFromFile("classifier.dat")
	if err != nil {
		fmt.Println("加载分类器失败:", err)
		return
	}
	
	// 使用加载的分类器进行预测
	scores3, likely3, _ := newClassifier.LogScores(test1)
	fmt.Printf("Loaded classifier: '%v' is %s\n", test1, likely3)
}

实际应用示例 - 垃圾邮件分类

下面是一个更实际的垃圾邮件分类示例：

package main

import (
	"fmt"
	"github.com/jbrukh/bayesian"
	"strings"
)

const (
	Spam bayesian.Class = "Spam"
	Ham  bayesian.Class = "Ham"
)

// 预处理文本，分词
func tokenize(text string) []string {
	// 简单的分词处理，实际应用中可能需要更复杂的处理
	return strings.Split(strings.ToLower(text), " ")
}

func main() {
	// 创建分类器
	classifier := bayesian.NewClassifier(Spam, Ham)
	
	// 训练数据 - 垃圾邮件样本
	spamSamples := []string{
		"Buy cheap drugs online",
		"Win a free iPhone",
		"Make money fast",
		"Discount viagra",
	}
	
	// 训练数据 - 正常邮件样本
	hamSamples := []string{
		"Meeting tomorrow at 10am",
		"Please review the attached document",
		"Project status update",
		"Lunch next week?",
	}
	
	// 训练分类器
	for _, sample := range spamSamples {
		classifier.Learn(tokenize(sample), Spam)
	}
	
	for _, sample := range hamSamples {
		classifier.Learn(tokenize(sample), Ham)
	}
	
	// 测试邮件
	testEmails := []string{
		"Get rich quick",
		"Project meeting postponed",
		"Free vacation offer",
		"Please send me the report",
	}
	
	// 进行分类预测
	for _, email := range testEmails {
		tokens := tokenize(email)
		_, likely, _ := classifier.LogScores(tokens)
		fmt.Printf("Email: '%s' - Classification: %s\n", email, likely)
	}
	
	// 获取特征重要性
	fmt.Println("\nMost informative features:")
	features := classifier.WordsByClass()
	fmt.Println("Spam features:", features[Spam][:5]) // 前5个最重要的垃圾邮件特征
	fmt.Println("Ham features:", features[Ham][:5])   // 前5个最重要的正常邮件特征
}

高级功能

1. 自定义特征权重

// 可以给某些特征赋予更高权重
classifier.LearnWeighted([]string{"urgent", "important"}, Ham, []float64{2.0, 3.0})

2. 停用词处理

// 在实际应用中，通常需要过滤停用词
var stopWords = map[string]bool{
	"the": true, "and": true, "a": true, "of": true, "to": true,
}

func tokenizeWithStopWords(text string) []string {
	words := strings.Split(strings.ToLower(text), " ")
	var filtered []string
	for _, word := range words {
		if !stopWords[word] {
			filtered = append(filtered, word)
		}
	}
	return filtered
}

3. 性能优化

对于大规模数据集，可以考虑：

使用更高效的分词算法
定期修剪不重要的特征
使用并发训练

// 并发训练示例
func trainConcurrently(classifier *bayesian.Classifier, samples []string, class bayesian.Class) {
	var wg sync.WaitGroup
	chunkSize := len(samples) / 4 // 分成4部分并发处理
	
	for i := 0; i < 4; i++ {
		start := i * chunkSize
		end := start + chunkSize
		if i == 3 {
			end = len(samples) // 最后一部分包含剩余所有
		}
		
		wg.Add(1)
		go func(slice []string) {
			defer wg.Done()
			for _, sample := range slice {
				classifier.Learn(tokenize(sample), class)
			}
		}(samples[start:end])
	}
	
	wg.Wait()
}

注意事项

朴素贝叶斯假设特征之间相互独立，这在现实中往往不成立
需要足够多的训练数据才能获得好的效果
文本分类时，特征工程（如分词、停用词处理）对结果影响很大
对于不平衡数据集，可能需要调整类别先验概率

bayesian库提供了简单易用的API来实现朴素贝叶斯分类，适合中小规模的数据集。对于更大规模或更复杂的应用，可能需要考虑其他机器学习库或框架。