Golang高效安全处理大数据管道的worker插件库go-workers的使用

go workers

快速开始

安装依赖

go get github.com/catmullet/go-workers

导入库

import (
    workers "github.com/catmullet/go-workers"
)

创建worker

type MyWorker struct {}

func NewMyWorker() Worker {
	return &MyWorker{}
}

func (my *MyWorker) Work(in interface{}, out chan<- interface{}) error {
	// 在这里处理工作迭代
}

runner := workers.NewRunner(ctx, NewMyWorker(), numberOfWorkers)

发送工作到worker

runner.Send("Hello World")

等待worker完成并处理错误

if err := runner.Wait(); err != nil {
    // 处理错误
}

使用多个worker

将工作从一个worker传递到下一个worker

runnerOne := workers.NewRunner(ctx, NewMyWorker(), 100).Work()
runnerTwo := workers.NewRunner(ctx, NewMyWorkerTwo(), 100).InFrom(workerOne).Work()

从多个worker接收输出

runnerOne := workers.NewRunner(ctx, NewMyWorker(), 100).Work()
runnerTwo := workers.NewRunner(ctx, NewMyWorkerTwo(), 100).Work()
runnerThree := workers.NewRunner(ctx, NewMyWorkerThree(), 100).InFrom(workerOne, workerTwo).Work()

向worker传递字段

添加值

worker

type MyWorker struct {
	message string
}

func NewMyWorker(message string) Worker {
	return &MyWorker{message}
}

func (my *MyWorker) Work(in interface{}, out chan<- interface{}) error {
	fmt.Println(my.message)
}

runner := workers.NewRunner(ctx, NewMyWorker(), 100).Work()

设置超时或截止时间

// 设置2秒超时
timeoutRunner.SetTimeout(2 * time.Second)

// 设置从现在起4小时的截止时间
deadlineRunner.SetDeadline(time.Now().Add(4 * time.Hour))

func workerFunction(in interface{}, out chan<- interface{} error {
	fmt.Println(in)
	time.Sleep(1 * time.Second)
}

性能提示

缓冲写入器

runner.Println()
runner.Printf()
runner.Print()

使用GOGC环境变量

考虑增加垃圾收集器触发的百分比(例如GOGC=200)。200% -> 300%是一个好的起点。确保你的机器有足够的内存支持。

使用GOMAXPROCS环境变量

对于处理大量简单数据的worker，考虑降低GOMAXPROCS。但要小心，这可能会影响整个应用程序的性能。请先分析和基准测试你的应用程序。

更多关于golang高效安全处理大数据管道的worker插件库go-workers的使用的实战教程也可以访问 https://www.itying.com/category-94-b0.html

gougou168 1楼

更多关于golang高效安全处理大数据管道的worker插件库go-workers的使用的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

Go-Workers 高效安全处理大数据管道的 Worker 插件库

Go-Workers 是一个用于高效安全处理大数据管道的 Golang Worker 插件库，它提供了简单易用的接口来构建并发处理流水线。下面我将详细介绍其核心功能和使用方法。

核心特性

并发控制：可配置的并发 Worker 数量
任务队列：内置缓冲队列管理
优雅关闭：支持平滑关闭处理中的任务
错误处理：内置错误处理机制
监控支持：可集成 Prometheus 等监控工具

基本使用示例

package main

import (
	"context"
	"fmt"
	"time"

	"github.com/go-workers/goworkers"
)

func main() {
	// 1. 创建 Worker 池配置
	config := goworkers.Config{
		QueueName:         "high_priority",
		Concurrency:       10,       // 并发 Worker 数量
		Namespace:         "myapp:", // Redis 命名空间
		PollInterval:      1 * time.Second,
		HeartbeatInterval: 5 * time.Second,
	}

	// 2. 注册 Worker 处理函数
	err := goworkers.RegisterWorker("my_worker", processJob, 3) // 3 是重试次数
	if err != nil {
		panic(err)
	}

	// 3. 启动 Worker 池
	pool := goworkers.NewPool(config, 5) // 5 是池大小
	ctx := context.Background()
	go pool.Start(ctx)

	// 4. 生产任务
	for i := 0; i < 100; i++ {
		job := goworkers.Job{
			Class: "my_worker",
			Args:  []interface{}{i, fmt.Sprintf("task-%d", i)},
		}
		goworkers.Enqueue(&job)
	}

	// 5. 等待处理完成
	time.Sleep(10 * time.Second)
	pool.Stop()
}

// 处理函数
func processJob(ctx context.Context, job *goworkers.Job) error {
	id := job.Args[0].(int)
	name := job.Args[1].(string)
	fmt.Printf("Processing job %d: %s\n", id, name)
	// 模拟处理耗时
	time.Sleep(500 * time.Millisecond)
	return nil
}

高级功能

1. 自定义中间件

// 日志中间件
func loggingMiddleware(next goworkers.HandlerFunc) goworkers.HandlerFunc {
	return func(ctx context.Context, job *goworkers.Job) error {
		start := time.Now()
		fmt.Printf("Starting job: %s\n", job.Class)
		
		err := next(ctx, job)
		
		fmt.Printf("Finished job in %v\n", time.Since(start))
		return err
	}
}

// 使用中间件
goworkers.RegisterWorkerWithMiddleware(
	"my_worker", 
	processJob, 
	3,
	loggingMiddleware,
)

2. 错误处理

func processJob(ctx context.Context, job *goworkers.Job) error {
	// 模拟可能失败的操作
	if rand.Intn(10) < 2 { // 20% 失败率
		return fmt.Errorf("random error occurred")
	}
	return nil
}

// 全局错误处理器
goworkers.SetErrorHandler(func(err error, job *goworkers.Job) {
	fmt.Printf("Error processing job %v: %v\n", job.Args, err)
	// 可以在这里实现重试逻辑或报警
})

3. 批量处理模式

// 批量处理函数
func batchProcessor(ctx context.Context, jobs []*goworkers.Job) error {
	fmt.Printf("Processing batch of %d jobs\n", len(jobs))
	// 批量处理逻辑
	for _, job := range jobs {
		fmt.Printf("  - %v\n", job.Args)
	}
	return nil
}

// 注册批量 Worker
err := goworkers.RegisterBatchWorker(
	"batch_worker",
	batchProcessor,
	10,      // 每批最大数量
	3,       // 重试次数
	5*time.Second, // 最大等待时间
)

性能优化建议

合理设置并发数：根据 CPU 核心数和任务类型调整
使用批处理：对于 I/O 密集型任务特别有效
内存管理：避免在 Worker 中创建大对象
连接池：数据库/Redis 等使用连接池
监控指标：跟踪队列长度、处理时间等

生产环境注意事项

优雅关闭：确保处理中的任务完成再退出
错误恢复：实现健壮的错误处理机制
资源限制：防止内存泄漏或资源耗尽
日志记录：详细记录处理过程和错误
监控报警：设置关键指标阈值报警

Go-Workers 提供了强大而灵活的功能来处理大数据管道，通过合理配置和优化，可以构建高效稳定的数据处理系统。