kaiyun开云他在推特中写道,自己非常期待探索视觉感知、世界模型与机器人技术如何融合,构建真正的“物理智能”。
OpenAI世界模拟方向的负责人之一、Sora项目资深领导Aditya Ramesh也第一时间留言欢迎。
本科毕业后,他前往美国加州理工学院(Caltech)攻读博士,于2017年获得应用与计算数学博士学位。
博士期间,他专注于机器学习理论与应用,开始探索深度学习在视觉领域的潜力。
博士毕业后,他加入微软研究院,并在Microsoft Research雷德蒙德担任首席研究员。
同时还在微软内部跨组织推动计算机视觉与多模态智能项目,包括Alexandar Multi-Modal和Florence等方向。
值得一提的是,他在2021年还加入了华盛顿大学,担任电气与计算机工程系的兼职助理教授至今。
2022年起,他转入Meta FAIR(现Meta超级智能实验室),研究计算机视觉与多模态智能,累计工作近4年。
担任Segment Anything 3(SAM 3)项目负责人:SAM 3是一个统一框架,可在图像和视频中实现目标检测、分割与跟踪。
作为SAM系列最新迭代(2025年11月),该模型推出统一框架,支持图像和视频中的目标检测、分割与跟踪,实现零样本泛化到任意物体和场景。
担任Llama 4视觉grounding项目负责人,延续Llama 3优势,进一步强化专家级图像grounding能力(如像素级定位与复杂场景理解),被视为Llama 4对标GPT-4o的关键差异化亮点。
这些工作不仅提升了Meta的生成式AI竞争力,还为开源社区贡献了高影响力工具。
为什么突然之间所有人都在加入 OpenAI?我是挺兴奋的,但这是为什么?
因为(OpenAI)有算力+Sora级别的世界建模基础设施。如果没有这两样,到2026年几乎不可能做出真正高水平的机器人系统。