Python 爬虫中如何将 URL 地址转义为安全的文件名？

什么文件的名？

gougou168 2楼作者

import re
import hashlib
from urllib.parse import urlparse, quote
import os

def url_to_filename(url, max_length=255, use_hash=False):
    """
    将URL转换为安全的文件名
    
    参数:
        url: 原始URL字符串
        max_length: 最大文件名长度（默认255，适应大多数文件系统）
        use_hash: 是否使用哈希作为文件名（避免过长URL）
    
    返回:
        安全的文件名
    """
    # 1. 解析URL获取主要部分
    parsed = urlparse(url)
    
    # 2. 移除协议头
    netloc = parsed.netloc.replace(':', '_')  # 将端口冒号替换为下划线
    
    # 3. 处理路径部分：移除查询参数和片段
    path = parsed.path.rstrip('/') or 'index'  # 空路径转为'index'
    
    # 4. 合并域名和路径
    base_name = f"{netloc}{path}"
    
    # 5. 替换不安全字符
    # 保留字母、数字、下划线、点、连字符
    safe_name = re.sub(r'[^\w\-\.]', '_', base_name)
    
    # 6. 处理多个连续下划线
    safe_name = re.sub(r'_+', '_', safe_name)
    
    # 7. 处理过长文件名
    if len(safe_name) > max_length or use_hash:
        # 使用MD5哈希生成短文件名
        url_hash = hashlib.md5(url.encode()).hexdigest()[:16]
        # 保留部分原始信息（前50字符）便于识别
        prefix = safe_name[:50] if len(safe_name) > 50 else safe_name
        safe_name = f"{prefix}_{url_hash}"
    
    # 8. 确保文件名以字母或数字开头
    if not safe_name[0].isalnum():
        safe_name = 'file_' + safe_name
    
    # 9. 移除末尾的点（Windows限制）
    safe_name = safe_name.rstrip('.')
    
    # 10. 截断到最大长度
    return safe_name[:max_length]

# 使用示例
test_urls = [
    "https://www.example.com/path/to/page.html",
    "http://sub.domain.co.uk:8080/api/data?key=value&id=123#section",
    "https://example.com/中文路径/文件.html",
    "ftp://user:pass@server.com/very/long/path/that/exceeds/maximum/filename/length/limit/with/many/subdirectories/and/parameters.html"
]

for url in test_urls:
    filename = url_to_filename(url)
    print(f"URL: {url[:60]}...")
    print(f"文件名: {filename}")
    print(f"长度: {len(filename)}")
    print("-" * 50)

# 高级版本：带扩展名保留
def url_to_filename_with_ext(url, keep_ext=True):
    """保留文件扩展名的版本"""
    filename = url_to_filename(url)
    
    if keep_ext:
        # 提取原始URL的扩展名
        parsed = urlparse(url)
        path = parsed.path
        # 获取最后一个点后面的部分
        ext_match = re.search(r'\.(\w{1,10})$', path)
        if ext_match:
            ext = ext_match.group(1).lower()
            # 常见扩展名检查
            common_exts = {'html', 'htm', 'php', 'asp', 'jsp', 'xml', 'json'}
            if ext in common_exts or len(ext) <= 5:
                # 如果文件名已包含扩展名，不重复添加
                if not filename.endswith(f'.{ext}'):
                    filename = f"{filename}.{ext}"
    
    return filename

# 测试扩展名保留
print("\n=== 扩展名保留测试 ===")
test_url = "https://example.com/data/page.html?id=1"
print(f"原始URL: {test_url}")
print(f"无扩展名: {url_to_filename(test_url)}")
print(f"有扩展名: {url_to_filename_with_ext(test_url)}")

核心思路：