渐进式缩放策略:我们提出了一种渐进式缩放策略,以有效地将视觉编码器与 LLM 对齐。该策略采用分阶段训练方法,从较小、资源高效的 LLM 开始,逐步扩展到较大的 LLM。这种方法源于我们的观察:即使使用 NTP 损失联合训练 InternViT 和 LLM,得到的视觉特征也是可泛化的表示,可以被其他 LLM 轻松理解。具体而言,InternViT 与较小的 LLM(例如 20B)一起训练,重点是优化基本视觉能力和跨模态对齐。此阶段避免了直接使用大型 LLM 进行训练所带来的高昂计算成本。使用共享权重机制,训练好的 InternViT 可以无缝迁移到更大的 LLM(例如 72B),而无需重新训练。因此,在训练更大的模型时,所需的数据要少得多,计算成本也显著降低
改进的训练策略:为了增强模型对实际场景的适应性和整体性能,我们引入了两项关键技术:和。对于随机 JPEG 压缩,我们采用质量等级在 75 到 100 之间的随机 JPEG 压缩来模拟互联网来源图像中常见的质量下降问题。对于损失重加权,我们以统一的格式表达了广泛应用的策略(即标记平均和样本平均),并提出使用平方平均来平衡梯度对长响应或短响应的偏差。
结构良好的数据组织:在模型开发过程中,我们观察到即使少量异常样本也可能导致推理过程中模型行为异常。为了解决这个问题,我们提出了一个由基于 LLM 的质量评分和基于规则的过滤组成的过滤流程,显著减少了异常行为的发生,尤其是重复生成,并在 CoT 推理任务中取得了显著的改进。此外,我们还实施了数据打包策略,以提高 GPU 利用率并提升训练效率。