今天分享的是:谢春宇:多模态大模型:开放世界理解
报告共计:49页
本次分享主要介绍了360在多模态大模型方面的探索与实践,包括模型研发回顾、技术挑战及解决方案,以及业务落地情况。
1. 多模态大模型研发回顾
- 模型发展代际:从22年底至今,LMM经历了三代发展。第一代聚焦模态对齐原型验证;第二代增加目标定位能力,研发竞争加剧;第三代致力于解决高分辨率输入、图文模态竞争和多模态Scaling Law等问题。
- 路线选择:原生多模态路线理论上限高但训练成本高,少数巨头采用;缝合路线可复用单模态成果,成本低,多数企业和学界采用。
2. 技术挑战与解决方案
- 高分辨率输入支持:前两代模型分辨率有限,制约因素为成本和语言模型窗口大小。第三代通过切块等方式解决,语言模型输入窗口也大幅提升。
- 图文模态竞争:多模态训练存在任务竞争,解决方式一是保持LLM原有能力但模型融合设计训练难度大,二是放弃文本模态能力提升视觉任务表现但会导致LLM遗忘。
展开剩余81%- 多模态Scaling Law:缝合路线面临performance scaling up能力问题,解决方案一是在视觉编码器和缝合层预训练海量数据,二是加入纯文本训练数据。
3. 360多模态大模型探索与实践
- SEEChat模型:浅层融合模型,主打Dialogue、Captioning和OVD能力,通过多阶段训练和数据处理提升性能。
- 实验探索:使用多种LLMs、数据和技术进行实验,提升模型能力。
- 360VL业务落地:包括图像标签化、开放世界目标检测、安防视频自动化巡检等,在多个场景应用落地,为企业提供数字化解决方案。
以下为报告节选内容
发布于:广东省