首先,我们来了解一下AI教母李飞飞教授关于 Test-time scaling 的论文:《s1: Simple test-time scaling》
论文大致讲了个什么事情呢?简单来说,提出了一种新的测试时间缩放方法,旨在提高模型在推理阶段的效率和准确性。通过调整模型的思考预算,可以在不同的任务和数据集上实现更好的性能。
就是说对于一些复杂问题,需要用推理链来解决的问题,我们可以通过调整模型的思考预算来提高推理效率和准确性。上图也可以看到当思考预算增加时,模型的性能会有明显提升。
插一句题外话,论文中判断问题难易程度的方式是通过让 Qwen2.5-32B-Instruct 模型回答问题,答对的问题就是简单问题,答错的就是复杂问题。
论文也做了消融实验来探讨,在未满足思考预算时插入一些不同的特定词(如:Wait!)对模型最终性能的影响。结果表明,插入特定词可以有效地引导模型进行更深入的思考,并且“Wait,Wait”的效果最好。