Python爬虫中，MySQL唯一索引导致重复数据插入时ID自增的问题如何解决？

虽然我不懂你说了什么，但是 INSERT 数据难道 ID 不应该自增？

问题核心： 在并发爬虫场景下，使用唯一索引（或唯一约束）防止重复数据时，因 INSERT ... ON DUPLICATE KEY UPDATE 或 REPLACE INTO 等语句触发“更新”行为，导致自增ID不连续跳号。这是MySQL的预期行为，但如果你关心ID的连续性，需要调整策略。

解决方案： 放弃依赖数据库自增ID的连续性，或改用“先查后插”的逻辑来避免触发自增ID的消耗。

具体代码示例（先查后插）：

import pymysql
from contextlib import contextmanager

@contextmanager
def get_db_connection():
    conn = pymysql.connect(host='localhost', user='user', password='passwd', database='test_db')
    try:
        yield conn
    finally:
        conn.close()

def insert_article_if_not_exists(article_data):
    """
    article_data: dict, 包含 title, url, content 等字段
    假设 url 字段上有唯一索引
    """
    with get_db_connection() as conn:
        with conn.cursor() as cursor:
            # 1. 先检查是否存在
            check_sql = "SELECT id FROM articles WHERE url = %s"
            cursor.execute(check_sql, (article_data['url'],))
            existing = cursor.fetchone()
            
            if existing:
                print(f"文章已存在，ID: {existing[0]}")
                return existing[0]  # 返回已存在的ID
            
            # 2. 不存在则插入
            insert_sql = """
                INSERT INTO articles (title, url, content, publish_time)
                VALUES (%s, %s, %s, %s)
            """
            cursor.execute(insert_sql, (
                article_data['title'],
                article_data['url'],
                article_data['content'],
                article_data.get('publish_time')  # 使用get避免KeyError
            ))
            new_id = cursor.lastrowid
            conn.commit()
            print(f"新文章插入成功，ID: {new_id}")
            return new_id

# 使用示例
data = {
    'title': 'Python爬虫技巧',
    'url': 'https://example.com/article1',  # 假设这是唯一标识
    'content': '文章内容...',
    'publish_time': '2023-10-01 12:00:00'
}
article_id = insert_article_if_not_exists(data)

关键点解释：

先执行SELECT查询，判断唯一键（如url）是否已存在。
如果存在，直接返回已有的ID，不执行INSERT。
如果不存在，才执行INSERT，此时自增ID会正常连续增长。
这种方法避免了ON DUPLICATE KEY UPDATE或REPLACE触发的“伪插入”，从而防止自增ID被消耗。

注意： 在高并发下，这种方法可能存在竞态条件（两个线程同时查不到然后都插入）。如果爬虫并发很高，需要在程序层加锁（如对URL加分布式锁）或使用数据库的SELECT ... FOR UPDATE（但会降低性能）。对于大多数爬虫场景，先查后插+适度并发控制已经足够。

总结建议： 用“先查后插”代替ON DUPLICATE KEY UPDATE来保持ID连续。

sinazl 3楼

不懂你说了什么，插了数据当然会自增，不知道你是怎么判断重复的，重复的跳过就是了

htzhanglong 4楼

我猜是说,判断重复的数据后并灭有插入,但是 ID 却消耗掉了.可能和 on duplicate key update 的问题类似吧.

sinazl 5楼

难道爬虫都不过滤重复数据了么，布隆过滤器了解一下

bupafengyu 6楼

过滤不了，也没用。只能在数据库上设置唯一索引。

caililin 7楼

用框架就意味着你失去灵活性，就这么简单的任务都无法搞定，所以少用框架

zlyuanteng 8楼

你数据能设置唯一索引, 你代码过滤不了? 数据库不是代码??

bupafengyu 9楼

这是业务问题,跟框架没什么关系

phonegap100 10楼作者

你该去好好看看 INSERT 语句 ON DUPLICATE 时的用法了。

gougou168 11楼

同意 3 楼…
是不是写入的时候用的是“ replace into ”
而不是 “ on duplicate key update ”

yuanlaile 12楼

以前用过 scrapy+django+djangoitem 爬到内容直接用 django ORM 入库，每条信息都会有一个唯一索引用识别，
再爬的时候 Foo.objects.get_or_create(defaults__exact=‘bar’, defaults={‘defaults’: ‘baz’})

htzhanglong 13楼

on duplicate key update 也会导致原 id 变化的