清华大学开源视觉语言模型VisionTalk

2025年7月29日,清华大学自然语言处理实验室开源多模态模型VisionTalk。该模型在图像描述和视觉问答任务上达到国际领先水平。

模型采用创新的注意力机制,能够同时处理图像和文本信息,理解复杂场景中的对象关系。在COCO数据集测试中,该模型在图像描述任务上取得CIDEr分数135.2的成绩。

项目负责人表示开源是为了促进学术研究,目前已发布预训练模型和完整训练代码。研究团队还提供了在线演示平台,用户可上传图片体验模型的视觉理解能力。

返回AI新闻列表