第二章:慧眼观星辨玄象 新锐领军驭混元
AI之发展,已入深水区。单一模态之探索渐趋成熟,多模态融合则方兴未艾。有青年才俊,目光如炬,早已在此新兴领域布局深耕。
谢赛宁:观星明眸烛幽晦 Cambrian光耀启新元
谢赛宁,亦是上海交大高材生,后获加州大学圣迭戈分校计算机博士,现执教于纽约大学,任助理教授 [User Query]。其学术焦点,在于多模态视觉语言模型,尤重视觉先验知识、空间推理能力(其代表工作如CLIP、V、V-IRL等),并涉足视频生成等前沿方向 [User Query]。
谢赛宁及其合作者(包括图灵奖得主Yann LeCun)敏锐地指出,当前的多模态大语言模型(MLLM)虽功能强大,却在视觉理解上存在固有缺陷。他直言:“当前的视觉表示还不足以理解语言”,更将单纯的语言模型比作“盲人摸象般被遮蔽了双眼的博学的系统”。此等深刻反思,正是其研究之原动力。
为突破此困境,谢赛宁团队推出了以视觉为核心的多模态大模型Cambrian-1。此名取得极妙,“寒武纪”乃地球生命大爆发之时代,生物演化出更强视觉。谢赛宁借此寓意AI视觉能力的跃升,将带来理解能力的深刻变革。Cambrian-1的核心创新之一,在于引入“空间视觉聚合器”(Spatial Visual Aggregator, SVA),旨在更优地融合视觉与语言信息,其设计强调空间归纳偏置与多阶段视觉特征聚合。谢赛宁特别指出,SVA之精妙,远非简单的多层感知器(MLP)所能企及。凭借此等创新,Cambrian-1在CV-Bench等多个基准测试中表现卓越,于某些视觉中心任务上甚至超越了GPT-4V等知名模型。
在此之前,谢赛宁在V、V-IRL等项目中的探索,已为Cambrian-1的诞生奠定了坚实基础。例如,V Bench便是一个旨在评估模型视觉搜索与定位能力的基准测试平台。
谢赛宁之工作,其核心理念可概括为“眼见为实”的AI哲学。他坚信,AI若要达致更深层次的理解,尤其是对描述物理世界的语言,必须拥有坚实的“感官基础”,视觉尤为关键。这无疑对纯文本驱动的LLM范式提出了重要挑战。其研究路径清晰展现了严谨的科学进取精神:从通过V Bench等工具诊断现有模型之不足,到构建Cambrian-1及SVA等创新方案以疗治沉疴。此种“诊断而后施治”的系统方法,正是推动科学前行的正道。于LLM横扫AI之际,谢赛宁对SVA中“空间归纳偏置”的强调,亦提醒吾人:即便在大模型时代,精心设计的领域先验知识,对于提升复杂多模态任务的性能与鲁棒性,依然至关重要。
杨笛一:架言桥通社稷理 斯隆青眼识凤麟
杨笛一,巾帼不让须眉,亦出自上海交大ACM班,后负笈深造,现为斯坦福大学助理教授,此前曾任教于佐治亚理工学院。其研究独辟蹊径,聚焦于自然语言处理(NLP)与社会科学的交叉领域,致力于理解人类在社会情境下的交流模式,并构建具备社会意识的语言技术,以期促进人与人、人与机器之间更和谐的互动。简言之,她探索的是“具有社会意识的自然语言处理”。
年纪轻轻,杨笛一已是荣誉等身。她曾入选福布斯“30位30岁以下精英榜”、IEEE“AI十大潜力人物”、麻省理工科技评论中国区“35岁以下科技创新35人”等诸多榜单。尤为瞩目者,乃2024年度斯隆研究奖(Sloan Research Fellowship)。此奖项始创于1955年,素有“诺奖风向标”之美誉,其分量之重,不言而喻。
杨笛一不仅自身科研卓越,亦不忘反哺后学。她积极参与母校上海交大致远学院的各类分享活动,将自己从科研新手到斯坦福助理教授的宝贵经验倾囊相授,助力学弟学妹们成长。她曾寄语青年学子:“要拥有不断成长的心态,关注自身独特的优势,学习利用社交的力量”。
杨笛一所开拓的“具有社会意识的NLP”研究方向,代表了AI发展的一个重要前沿:即从追求纯粹的技术能力,迈向理解并融入复杂人类社会系统。这对于AI真正造福社会、与人类和谐共存至关重要。她出身于以严谨编程训练著称的交大ACM班,却选择专攻AI的社会技术层面,这本身即昭示了顶尖科技人才对“影响力”定义的拓宽——从解决纯粹的计算难题,延伸至以AI应对人文与社会挑战。斯隆奖的垂青,正是对这一跨学科路径深远意义的肯定。杨笛一可视为新一代研究者的典范,他们既精通尖端AI/NLP技术,又深谙社会科学理论。此种融合催生了前所未有的研究范式,使得大规模、数据驱动的社会现象分析成为可能,为我们理解复杂世界打开了新的窗口。

留下评论