Z Tech|专访Lecun与谢赛宁门徒,00后OpenAI奖学金博士Peter Tong:深入探讨多模态大模型的创新进展与未来趋势
近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!
北京时间2月24日周一上午10点(美西时间2月23日周日晚上6点),Z Potentials特邀Yann Lecun和谢赛宁联合培养的纽约大学博士Peter Tong(童晟邦)直播Talk,深度解析其团队颠覆性工作Cambrian与MetaMorph,揭开LLM“无痛学视觉”的终极密码!
童晟邦 (Peter Tong) 是纽约大学(NYU)Courant计算机科学系的二年级博士生,由Yann LeCun教授和Saining Xie教授共同指导。他毕业于加州大学伯克利分校(UC Berkeley),获得计算机科学、应用数学(荣誉)和统计学(荣誉)三学士学位。在本科期间,他曾是伯克利人工智能实验室(BAIR)的研究员,师从马毅教授和Jacob Steinhardt教授。
他的研究方向包括世界模型、无监督/自监督学习、生成模型和多模态大模型。研究成果多次发表在顶级会议上,例如NeurIPS、ICLR、CVPR和ICCV,并多次被接收为 Oral Paper。此外,他曾获OpenAI奖学金,并在Meta的FAIR实验室参与研究实习。他出生于中国南京,成长于澳大利亚墨尔本,热衷于推动人工智能领域的前沿研究与应用发展。
本次分享将涵盖两篇科研工作:
Cambrian-1:以视觉为核心探索多模态大语言模型
- 设计并评估了20多种视觉编码器
- 提出了新的视觉基准测试CV-Bench
- 引入了动态空间感知连接器SVA(Spatial Vision Aggregator ),高效集成视觉特征和语言模型
- 提供了高质量的开放式视觉Instruction Tuning数据集
🔗 论文链接:https://github.com/cambrian-mllm/cambrian,模型权重、代码、相关工具、数据集均已公开。
MetaMorph:LLM的“视觉超进化”
- 200k数据+指令微调,让语言模型直接输出连续视觉Token
- 使用VPiT预测多模态Token
- 在生成视觉Token之前隐式执行推理步骤
🔗 论文地址:https://arxiv.org/pdf/2412.14164v1
发表评论