Python 多线程爬虫停止条件如何设置？

gougou168 1楼

可以每次开新的线程的时候传入一个变量并+1，记录当前的深度，达到一个阈值就不要再开新的线程。

h691938207 2楼

核心思路： 用队列控制任务流，主线程监控队列空 + 所有工作线程空闲作为停止信号。

具体实现：

用 queue.Queue 存放待爬取的 URL。
工作线程从队列取 URL 执行，新发现的 URL 再放回队列。
主线程通过 queue.join() 等待所有任务完成，并设置线程为守护线程或发送停止信号。

代码示例：

import threading
import queue
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

class ThreadedCrawler:
    def __init__(self, start_url, max_threads=5):
        self.start_url = start_url
        self.max_threads = max_threads
        self.base_url = '/'.join(start_url.split('/')[:3])
        self.visited = set()
        self.url_queue = queue.Queue()
        self.url_queue.put(start_url)
        self.workers = []
        self.lock = threading.Lock()

    def crawl(self):
        # 启动工作线程
        for _ in range(self.max_threads):
            t = threading.Thread(target=self.worker)
            t.daemon = True  # 设为守护线程，主线程结束即退出
            t.start()
            self.workers.append(t)

        # 等待队列清空
        self.url_queue.join()
        print("所有任务完成，爬虫停止")

    def worker(self):
        while True:
            try:
                url = self.url_queue.get(timeout=3)  # 设置超时避免永久阻塞
                if url not in self.visited:
                    self.process_url(url)
                self.url_queue.task_done()
            except queue.Empty:
                break  # 队列空且超时，线程退出

    def process_url(self, url):
        with self.lock:
            if url in self.visited:
                return
            self.visited.add(url)
        
        try:
            print(f"爬取: {url}")
            resp = requests.get(url, timeout=5)
            soup = BeautifulSoup(resp.text, 'html.parser')
            
            # 提取新链接（示例）
            for link in soup.find_all('a', href=True):
                new_url = urljoin(self.base_url, link['href'])
                if new_url.startswith(self.base_url) and new_url not in self.visited:
                    self.url_queue.put(new_url)
        except Exception as e:
            print(f"处理 {url} 时出错: {e}")

if __name__ == "__main__":
    crawler = ThreadedCrawler("https://example.com", max_threads=3)
    crawler.crawl()

关键点说明：