HarmonyOS鸿蒙Next中如何在APP内置本地大模型

bupafengyu 1楼

开发者您好，请提供如下信息，方便问题分析解决：
1、您需要内置哪种类型的本地大模型（如文本问答、图像超分、语音识别等）？
2、您的应用面向的目标设备类型是什么（如手机、平板等）？

更多关于HarmonyOS鸿蒙Next中如何在APP内置本地大模型的实战系列教程也可以访问 https://www.itying.com/category-93-b0.html

nodeper 2楼

文本问答
手机平板，

nodeper 3楼

【解决方案】
开发者您好，您可以查看CANN_LM_Engine，参考端到端的业务集成指导手册，让模型通过CANN工具链做量化和转换后，最终在端侧运行。

nodeper 4楼

由于您未提供具体的HTML内容，请将需要转换的HTML代码粘贴到输入中，我会按照您的要求处理并输出Markdown。

bupafengyu 5楼

找HarmonyOS工作还需要会Flutter的哦，有需要Flutter教程的可以学学大地老师的教程，很不错，B站免费学的哦：https://www.bilibili.com/video/BV1S4411E7LY/?p=17

bupafengyu 6楼

鸿蒙7自带盘古本地大模型，不用自己开发了。

sinazl 7楼作者

这样吗，谢谢佬，

phonegap100 8楼

系统自带

phonegap100 9楼

可以做，但要先把范围收住：移动端内置本地大模型通常优先选小参数量、量化后的模型，而不是直接塞 7B/8B 级别模型进普通应用。

工程上一般分三块：1. 推理框架，选择能编译到 HarmonyOS/ohos arm64 的 MNN、ONNX Runtime、llama.cpp 类 native 方案；2. 模型文件，放 rawfile 或首次启动复制到沙箱，注意包体、内存和加载时间；3. 线程与体验，推理放 Worker/native 线程，做流式输出、取消、温控和低内存保护。当前不要假设任意模型都能直接走 NPU，先用 CPU/可用后端跑通小模型，再评估端侧性能。

vueper 10楼

期待HarmonyOS能在未来推出更多针对企业用户的解决方案。

yibo5220 11楼

谢谢佬，

sinazl 12楼作者

内置本地大模型完全没有问题，但是目前受算力限制，建议使用1B以下的模型，例如qwen0.5b，hunyuan0.6b等，需要使用像个推理框架例如阿里的MNN等框架，只需要在编译对应的鸿蒙版本并内置模型，进行推理即可，可以参考安卓端的 MNN 官方app MNN chat，可以实现没有网络下的大模型推理运行

itying888 13楼

谢谢佬，我研究一下，

nodeper 14楼

内置本地大模型的话，需要一定存储的空间，不如直接调用已用的模型，还方便一些，

itying888 15楼

内置本地大模型会导致App体积特别大，你还是参考主流的AI助手，采用线上部署远程API调用的方式吧！

vueper 16楼

API调用的只能说前人之述备矣，不是很想做造轮子的东西，

songsunli 17楼

HarmonyOS NEXT支持端侧AI推理，可通过集成MindSpore Lite或NNAPI接口加载量化后的轻量级本地模型（如MobileNet、TinyBERT等）。将模型文件打包至资源目录，利用ModelHelper或AIModelManager初始化并调用推理接口，实现离线运行。无需依赖云端即可完成推理任务。

gougou168 18楼

在HarmonyOS Next应用中内置本地大模型，核心是将模型文件集成到HAP包并利用端侧推理框架运行。具体步骤：

模型转换与集成：将PyTorch/TensorFlow等模型转换为MindSpore Lite或ONNX格式，放在rawfile目录下随应用打包。
推理框架选择：使用HarmonyOS内置的MindSpore Lite或HiAI Foundation，它们提供C API和ArkTS API，支持CPU/NPU异构推理。
运行时加载：通过RawFileManager读取模型文件，调用框架加载并创建会话，输入前处理后的数据执行推理。
性能优化：开启NPU加速（需设备支持），使用动态量化或Int8模型减小体积与延迟。

注意：大模型文件可能较大，可考虑分包或首次启动时从服务器下载，但若严格本地内置则需确保HAP合规大小。