Python json 数据清洗有没有好用点的工具?

自己写好痛苦,数据量太大,结构太复杂。请问大神们,有没有“可以让源数据中指定的某个字段关联清洗结果中的某个字段”的工具?
Python json 数据清洗有没有好用点的工具?

3 回复

对于JSON数据清洗,我常用json模块配合列表推导和字典推导来处理。如果结构复杂,pandasjson_normalize很实用。这里给你个例子:

import json
import pandas as pd
from pandas import json_normalize

# 假设原始数据
raw_data = '''
[
    {"id": 1, "name": "Alice", "extra": {"age": 25, "city": "NY"}},
    {"id": 2, "name": "Bob", "extra": null},
    {"id": 3, "name": null, "extra": {"age": 30}}
]
'''

# 基础清洗
data = json.loads(raw_data)
cleaned = [
    {
        "id": item["id"],
        "name": item.get("name") or "Unknown",
        "age": item.get("extra", {}).get("age"),
        "city": item.get("extra", {}).get("city")
    }
    for item in data
]

# 用pandas处理缺失值
df = json_normalize(data)
df.fillna({"name": "Unknown"}, inplace=True)
df["age"] = df["extra.age"].fillna(0)

简单来说,根据数据复杂度选工具就行。


etl 了解一下

回到顶部