镜像社区
部署GPU实例
模型API
文档中心
常见问题(FAQ)
DeepSeek
LLM
Qwen-Smvl
最近Huggingface团队发布了超小多模态模型SmolVLM2,可以做到端侧1GB显存推理。在怀着惊喜试用后发现,虽然模型有极其强大的视觉文本理解能力,但是模型却无法理解中文。作者尝试当前中文小模型扛把子Qwen3与SmolVLM2直接微调拼接的想法
0/小时
v1.0

本教程将介绍一种模型拼接的思路,将SmolVLM2的视觉模块(0.09B)与Qwen3最小的模型(0.6B)进行对齐微调,最终使得Qwen模型具备一定的视觉理解能力。由于笔者时间有限且考虑到文章篇幅的原因,因此该系列预计将以系列的方式放出。篇幅规划如下:

第一篇:如何构建和微调一个拼接模型(本篇博客) 第二篇:模型测评、数据集优化、回答人类对齐 第三篇:微调技巧介绍、视觉位置编码改动与模型结构优化

小批量微调训练 为了进行快速验证,笔者首先使用cocoqa数据集并且进行了200steps的训练,所有参数与前文所述一致。通过

运行实验命令如下,推荐使用8卡进行训练,在8张沐曦GPU卡上预计需要使用20min

# 单GPU训练
CUDA_VISIBLE_DEVICES=0 python train.py ./cocoqa_train.yaml
# 8GPU训练
accelerate launch --num_process 8 train.py ./cocoqa_train.yaml
#全量微调
CUDA_VISIBLE_DEVICES=0 python train_staged.py ./staged_training.yaml
镜像信息
@敢敢のwings
已使用
0
镜像大小140GB
最近编辑2025-08-23
支持卡型
48G RTX40系
+1
框架版本
PyTorch-Ubuntu24.04+CUDA12.4
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-08-23
PyTorch:Ubuntu24.04+CUDA12.4 | CUDA:12.4 | 大小:140.00GB