清华大学开源视觉语言模型VisionTalk-cadmin官方网站_cadmin商城系统_cadmin全能商城系统_cadmin全能AI系统

2025年7月29日，清华大学自然语言处理实验室开源多模态模型VisionTalk。该模型在图像描述和视觉问答任务上达到国际领先水平。

模型采用创新的注意力机制，能够同时处理图像和文本信息，理解复杂场景中的对象关系。在COCO数据集测试中，该模型在图像描述任务上取得CIDEr分数135.2的成绩。

项目负责人表示开源是为了促进学术研究，目前已发布预训练模型和完整训练代码。研究团队还提供了在线演示平台，用户可上传图片体验模型的视觉理解能力。