财联社1月28日讯(编辑) 就在华尔街周一对“DeepSeek风暴”进行紧张评估的时候,这家中国公司再次抛出新产品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3多模态大模型Janus-Pro,它也是开源的。
除夕清晨钟声敲响前不久,Deepseek工程师们在“拥抱脸”平台上上传了Janus Pro 7B和1.5B模型。这两个模型升级了去年10月发布的Janus模型。
(Janus与Janus Pro 来源:技术报告)对7B生成图像的比较
参数为15亿和70亿,这意味着这两种模式具有在消费者计算机上本地运行的潜力。和R1一样,Janus 使用MIT许可证的Pro在商业上没有限制。
据DeepSeek介绍,Janus-Pro是一个统一多模态理解和生成的新型自回归框架。通过将视觉编码分为“理解”和“生成”两条路径,仍然采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,而且提高了框架的灵活性。
根据报告中给出的“跑分”数据,在一些文生图的基准测试中,Janus-Pro 70亿参数模型的性能优于OpenAIDALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。
(来源:技术报告)
尽管DALL-E 3是2023年OpenAI发布的“老模型”,Janus Pro目前只能分析和生成规格较小的图像(384 x 384)。在如此紧凑的模型尺寸中,DeepSeek仍然表现出令人印象深刻的性能。
技术报告显示,在视觉生成方面,Janus-Pro在统一预训练阶段添加了7200万张高质量合成图像,实际数据与合成数据的比例达到1:1.实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeekk VL2增加了大约9000万个样本。
作为一种多模态模型,Janus-Pro不仅可以描述图片,识别地标景点(如杭州西湖),识别图片中的文字,还可以介绍图片中的知识(如下图中的“猫和老鼠”蛋糕)。
(来源:技术报告)
该公司还在报告中给出了更多的图像生成案例。