MM - ReAct是一个将ChatGPT与视觉专家库相结合以实现多模态推理和行动的系统范式,主要内容如下:
项目概述
- 研究团队:由微软Azure AI的Zhengyuan Yang、Linjie Li、Jianfeng Wang等多人合作完成,部分成员贡献相等,Lijuan Wang为项目负责人。
- 项目目标:解决具有挑战性的视觉理解任务,探索现有视觉和视觉 - 语言模型可能难以处理的高级视觉任务。
核心技术与设计
- 文本提示设计:引入特殊的文本提示设计,能表示文本描述、文本化空间坐标以及用对齐文件名表示的图像和视频等密集视觉信号,使语言模型可接受、关联和处理多模态信息,促进Chat...