模型蒸馏就像是“学霸带学渣”的学习方法。举个生活中的例子:
想象学校里有个超级学霸(复杂的大模型),解题又快又准,但每次考试要花很长时间写详细步骤,不适合快速答题比赛。于是,老师让学霸把自己的解题思路教给一个反应更快的普通学生(轻量的小模型),让他能像学霸一样正确解题,但速度更快。 为什么要用蒸馏?
大模型(学霸)虽然厉害,但太笨重,用起来费电、占内存,不适合手机、智能手表等小设备。 小模型(普通学生)通过蒸馏,能继承大模型的核心能力,既轻便又高效。
本质上,蒸馏就是把复杂模型的核心知识“提炼”出来,教给更简单的小模型,让技术既能保持效果,又更容易落地使用。