Python中如何连接Hive和Impala数据库？

连接 hive 的时候，尝试了 pyhs2、pyhive，但是都是 Segmentation fault (core dumped)，也不是很清楚是什么原因，也不知道怎么解决。impala 的话，没有这个问题，但是总是连接不上。有没有大神有这方面的经验给讲讲。
Python中如何连接Hive和Impala数据库？

yuanlaile 1楼

你安装这些库的时候没报错？

py 什么版本的？重新安装个 python 试试

wuwangju 2楼

直接上代码，用PyHive就行。

这活儿主要靠pyhive和thrift这俩库。先装好依赖：

pip install pyhive thrift sasl thrift-sasl

1. 连接Hive (使用HiveServer2)

from pyhive import hive

# 基础连接
conn = hive.Connection(
    host='your_hive_server_host',  # HiveServer2主机地址
    port=10000,                    # 默认端口
    username='your_username',
    database='default'             # 可选，指定数据库
)
cursor = conn.cursor()
cursor.execute('SELECT * FROM your_table LIMIT 10')
print(cursor.fetchall())

2. 连接Impala (使用HiveServer2接口)

Impala兼容HiveServer2协议，连接方式几乎一样，通常端口是21050：

from pyhive import hive

conn = hive.Connection(
    host='your_impala_server_host',
    port=21050,                    # Impala的HiveServer2端口
    username='your_username'
)
cursor = conn.cursor()
cursor.execute('SELECT * FROM your_table LIMIT 10')
print(cursor.fetchall())

3. 使用Pandas直接读取（更常用的方式）

配合pandas直接读成DataFrame会更方便：

from pyhive import hive
import pandas as pd

# 连接Impala示例
conn = hive.Connection(host='your_host', port=21050, username='your_user')

# 一句查询直接转DataFrame
df = pd.read_sql('SELECT * FROM your_table WHERE dt = "2023-10-01"', conn)
print(df.head())

可能遇到的坑：

SASL依赖：Linux/Mac可能需要装系统级的SASL库，比如Ubuntu上sudo apt-get install libsasl2-dev。
认证：如果集群开了Kerberos，需要额外配置，用pyhive的auth参数或者requests_kerberos。
性能：大数据量查询记得用分页或者条件过滤，别一次性SELECT *拉全表。

一句话总结：装好pyhive，Connection参数调对端口，剩下的当普通数据库操作就行。

eggper 3楼

安装的时候都没有错，python 的版本是 3，还是说 2 的支持更好？

yuanlaile 4楼

把报错的 backtrace 贴出来

yibo5220 5楼

不知道 backtrace 是什么。。。。

nodeper 6楼

是 traceback 不是 backtrace

nodeper 7楼

开发这个最好别用 windows

yibo5220 8楼

并没有用 windows