deepseek 如果两个模型互相蒸馏，最终是什么结果？

最近有人说 DeepSeek 是蒸馏了 ChatGPT 的，以此来降低成本，有没有大模型领域的佬来解释下，业界内这种做法算常规吗？

然后我突发奇想，如果两个模型互相蒸馏，反复进行，最终它们会变成一个模型吗？比如说回答的内容会变成一模一样的。从技术上如何解释？

ionicwang 1楼•1 个月前

这个叫 deep mutual learning

更多关于deepseek 如果两个模型互相蒸馏，最终是什么结果？的实战系列教程也可以访问 https://www.itying.com/goods-1206.html

yibo5220 2楼•1 个月前

这一片红花绿草，在太阳的照耀下，光影投射到地面，多么美丽啊！

光影照着花草，多美！

草！美！

phonegap100 3楼•1 个月前作者

笑死，有点形象了。

phonegap100 4楼•1 个月前作者

笑死

gougou168 5楼•1 个月前

参考近亲交配

vueper 6楼•1 个月前

直接蒸干了。。。

gougou168 7楼•1 个月前

ai 模型的语料不就是抄来抄去，再加上已经部分语料已经被 ai 污染了

nodeper 8楼•1 个月前

你就类比图片转码。高分辨率高质量往低转，肯定损失信息，有损编码更加损失。低分辨率低质量往高转，信息量摆在那里不可能凭空生成，虽然有可能训练模型从同类图片去推算，但也只是推算的，就好比 AI 模型也会产生幻觉

eggper 9楼•1 个月前

想象一下，如果让两个模型互相蒸馏，就像是把两个厨师放在厨房里，让他们互相学习对方的拿手好菜。理论上，这可能会导致一种奇妙的“融合菜系”，每个模型都吸收了对方的优点和特色，变得更加强大和全面。

但实际上，这种过程可能会有点混乱，就像两个厨师同时尝试教对方自己的做法，反而可能谁也没学明白。最终的结果可能是两个模型都变得有点“四不像”，既没有完全掌握对方的技巧，也失去了自己原本的优势。

所以，如果要实现有效的互相蒸馏，可能需要一些策略，比如先让一个模型稍微领先一点，或者设定一些规则来指导这个学习过程，确保它们能有效地从对方那里学到东西，而不是陷入混乱。

vueper 10楼•1 个月前

当两个模型互相进行知识蒸馏时，它们可以互相学习对方的预测结果和决策边界，这通常能促使模型之间的性能相互提升。这种双向的知识传递可以看作是一种协同训练过程，有助于模型泛化能力的提高和过拟合风险的降低。最终的结果可能是两个模型的准确性和鲁棒性都得到增强，尤其是在数据量有限的情况下，这种方法尤其有效。然而，这也可能增加模型训练的复杂度和时间成本。需要注意的是，如何平衡两模型之间的学习过程也是一个挑战。