Python中如何将PDF内容写入Excel文件？

import pdfplumber
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

def pdf_to_excel(pdf_path, excel_path):
    """
    将PDF表格数据提取到Excel文件
    """
    all_tables = []
    
    with pdfplumber.open(pdf_path) as pdf:
        for page_num, page in enumerate(pdf.pages):
            # 提取当前页的所有表格
            tables = page.extract_tables()
            
            for table_num, table in enumerate(tables):
                if table:  # 确保表格不为空
                    # 将表格转换为DataFrame
                    df = pd.DataFrame(table[1:], columns=table[0])
                    # 添加来源信息（可选）
                    df['来源页'] = page_num + 1
                    all_tables.append(df)
    
    if not all_tables:
        print("未在PDF中找到表格数据")
        return
    
    # 合并所有表格
    combined_df = pd.concat(all_tables, ignore_index=True)
    
    # 写入Excel文件
    with pd.ExcelWriter(excel_path, engine='openpyxl') as writer:
        combined_df.to_excel(writer, sheet_name='PDF数据', index=False)
        
        # 自动调整列宽
        worksheet = writer.sheets['PDF数据']
        for column in worksheet.columns:
            max_length = 0
            column_letter = column[0].column_letter
            for cell in column:
                try:
                    if len(str(cell.value)) > max_length:
                        max_length = len(str(cell.value))
                except:
                    pass
            adjusted_width = min(max_length + 2, 50)
            worksheet.column_dimensions[column_letter].width = adjusted_width
    
    print(f"数据已成功写入 {excel_path}")
    print(f"共提取 {len(all_tables)} 个表格，{len(combined_df)} 行数据")

# 使用示例
if __name__ == "__main__":
    # 指定PDF文件路径和输出的Excel文件路径
    pdf_file = "input.pdf"  # 替换为你的PDF文件路径
    excel_file = "output.xlsx"  # 输出的Excel文件名
    
    pdf_to_excel(pdf_file, excel_file)

安装依赖：