MIT研究发现新推理方法,温度采样加投票解锁模型潜力

2025年10月7日,研究人员从MIT发现,简单的基于温度的采样与多数投票可以解锁基础LLM中的复杂推理能力,而无需额外训练,这对强化学习是高级推理必要条件的假设提出了挑战。

该方法通过调整温度参数来控制生成的随机性,并结合多个输出的投票机制,显著提升了基础大语言模型在复杂推理任务上的表现。这一发现可能改变模型训练的方式,为资源有限的开发者提供了利用现有模型实现高级功能的新途径。

传统观点认为,只有通过RLHF等复杂训练过程,大语言模型才能获得可靠的推理能力。但MIT的研究表明,通过巧妙的采样和聚合策略,基础模型本身就具备这些能力的潜力,只是需要合适的方法来激发。

该方法在数学推理、逻辑推理和常识推理等多个任务上进行了验证,均显示出显著的效果提升。这一研究成果有望降低AI应用的门槛,使更多组织和个人能够利用现有基础模型开发高性能的AI应用。

返回AI新闻列表