Ming-UniVision 是一种突破性的多模态大语言模型(MLLM),它将视觉理解、生成和编辑统一在一个自回归下一词预测(NTP)框架内,由 MingTok 驱动——这是首个连续的统一视觉分词器。通过消除离散量化并利用共享的连续潜在空间,Ming-UniVision 实现了跨不同任务的流畅、端到端的多模态推理。在基于高保真连续视觉表示的训练下,Ming-UniVision 支持多轮、上下文感知的视觉-语言交互,如迭代问答、图像生成和语义编辑——所有这些都不需要将中间状态解码为像素。这使得能够进行高效、连贯且类似人类的、具有一致特征动态的多模态对话。