"最近在学习Go语言，想尝试用Go实现一个高并发的爬虫程序。但在实际开发中遇到了一些问题：

如何合理控制goroutine的数量以避免被目标网站封禁？
Go的channel在爬虫任务分发和结果收集时应该如何设计比较高效？
有没有成熟的Go爬虫框架推荐，还是自己从头实现更好？
针对反爬虫机制(如验证码、IP限制)，Go有哪些比较好的解决方案？
高并发情况下如何优雅地处理爬虫异常和错误恢复？

希望能有实际开发经验的朋友分享一下最佳实践。"

实现高并发爬虫可以用Go语言的goroutine和channel来处理。首先定义一个任务队列，将待爬取的URL存入其中。创建一个固定的worker池，每个worker都是一个goroutine，从任务队列中取出URL进行爬取。

package main

import (
	"fmt"
	"net/http"
	"sync"
)

func worker(task chan string, wg *sync.WaitGroup) {
	defer wg.Done()
	client := &http.Client{}
	for url := range task {
		resp, err := client.Get(url)
		if err != nil {
			fmt.Println("Error:", err)
			continue
		}
		// 处理响应内容
		fmt.Println(resp.Status)
		resp.Body.Close()
	}
}

func main() {
	urls := []string{"http://example.com", "http://golang.org", /*更多URL*/ }
	task := make(chan string, len(urls))
	var wg sync.WaitGroup

	// 创建固定数量的工作线程
	for i := 0; i < 10; i++ {
		wg.Add(1)
		go worker(task, &wg)
	}

	// 分发任务
	for _, url := range urls {
		task <- url
	}
	close(task)

	wg.Wait()
}

这段代码中，通过goroutine实现并发爬取，并使用channel传递URL，避免了线程竞争。通过sync.WaitGroup等待所有worker完成任务。记得设置合理的goroutine数量以避免系统资源耗尽。

htzhanglong 2楼

实现一个高并发的Go语言爬虫，可以利用Go的goroutine和channel特性。首先定义一个URL队列，将需要抓取的网页地址放入队列中，使用goroutine池来处理这些URL。

初始化：创建一个URL队列（可以用slice或channel），初始化goroutine池（比如100个goroutine）。
抓取逻辑：每个goroutine从队列中取出一个URL，通过http.Get或第三方库（如colly）发送HTTP请求获取页面内容。
数据处理：解析HTML内容，提取所需信息，存入数据库或文件。
错误处理：对网络失败、超时等情况进行捕获并重试。
停止机制：当队列为空且所有goroutine退出时，爬虫停止运行。

注意设置合理的goroutine数量避免系统资源耗尽，同时添加限流机制防止对目标服务器造成过大压力。示例代码如下：

package main

import (
	"fmt"
	"net/http"
	"strings"
)

func worker(urlChan <-chan string) {
	for url := range urlChan {
		resp, err := http.Get(url)
		if err != nil {
			fmt.Println("Error fetching", url, ":", err)
			continue
		}
		defer resp.Body.Close()
		// 解析响应内容...
		fmt.Println("Fetched", url)
	}
}

func main() {
	urls := []string{"http://example.com/page1", "http://example.com/page2"}
	urlChan := make(chan string, len(urls))
	for _, url := range urls {
		urlChan <- url
	}
	close(urlChan)

	var goroutines [10]*http.Client
	for i := 0; i < 10; i++ {
		go worker(urlChan)
	}

	// 等待所有goroutine完成
}

vueper 3楼

Go语言实现高并发爬虫

Go语言非常适合实现高并发爬虫，其goroutine和channel机制能轻松处理大量并发请求。以下是一个简单的高并发爬虫实现：

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"sync"
	"time"
)

type Crawler struct {
	visited map[string]bool
	mu      sync.Mutex
	wg      sync.WaitGroup
}

func NewCrawler() *Crawler {
	return &Crawler{
		visited: make(map[string]bool),
	}
}

func (c *Crawler) crawl(url string, maxDepth int) {
	defer c.wg.Done()

	if maxDepth <= 0 {
		return
	}

	c.mu.Lock()
	if c.visited[url] {
		c.mu.Unlock()
		return
	}
	c.visited[url] = true
	c.mu.Unlock()

	fmt.Printf("Crawling: %s\n", url)

	resp, err := http.Get(url)
	if err != nil {
		fmt.Printf("Error crawling %s: %v\n", url, err)
		return
	}
	defer resp.Body.Close()

	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		fmt.Printf("Error reading body: %v\n", err)
		return
	}

	// 这里可以解析body获取更多链接
	// links := parseLinks(body)
	
	// 模拟找到新链接
	links := []string{
		"https://example.com/page1",
		"https://example.com/page2",
	}

	for _, link := range links {
		c.mu.Lock()
		if !c.visited[link] {
			c.wg.Add(1)
			go c.crawl(link, maxDepth-1)
		}
		c.mu.Unlock()
	}
}

func main() {
	c := NewCrawler()
	c.wg.Add(1)
	go c.crawl("https://example.com", 3) // 从example.com开始，最大深度3

	// 设置超时
	done := make(chan struct{})
	go func() {
		c.wg.Wait()
		close(done)
	}()

	select {
	case <-done:
		fmt.Println("Crawling completed")
	case <-time.After(10 * time.Second):
		fmt.Println("Crawling timed out")
	}
}

关键点说明

并发控制：
- 使用goroutine处理每个URL请求
- sync.WaitGroup等待所有goroutine完成
- sync.Mutex保护共享的visited map
性能优化：
- 限制爬取深度防止无限递归
- 记录已访问URL避免重复爬取
- 设置超时防止长时间运行
扩展性：
- 可以添加速率限制(如令牌桶)
- 可以添加robots.txt解析
- 可以添加代理支持
- 可以引入URL队列进行广度优先搜索

这个示例展示了基本框架，实际应用中需要根据需求添加HTML解析、数据存储、异常处理等功能。