LLaVA是一个大型多模态模型,旨在实现通用视觉和语言理解。它端到端训练,可以理解文本和图像,并在聊天中灵活运用这些信息。LLaVA在多模态指令跟随数据集上与GPT-4表现相似,相对分数达到85.1%。在Science QA上,其准确率达到92.53%。LLaVA模型将预训练的视觉编码器(CLIP ViT-L/14)与大型语言模型(Vicuna)通过简单投影矩阵连接。训练分为两个阶段:阶段1只更新投影矩阵,基于CC3M子集进行特征对齐预训练;阶段2更新投影矩阵和大型语言模型进行端到端微调,适应日常用户导向应用和科学问答场景。

相关导航

暂无评论

暂无评论...