首页 > AI资讯 > 最新资讯 > 计算机视觉领域“大牛”代季峰加盟清华大学

计算机视觉领域“大牛”代季峰加盟清华大学

新火种    2023-10-29

近日,“计算机视觉领域‘大牛’代季峰重回学界”的消息在国内科技界引起关注。

澎湃新闻记者7月28日查询发现,清华大学电子工程系官网“人员情况”栏目更新信息显示,代季峰已入列该系信息认知与智能系统研究所副教授名单。

公开资料显示,代季峰,博士,在清华大学自动化系于2009年和2014年分别获得学士和博士学位。2012年至2013年间,他在加州大学洛杉矶分校访学。2014年至2019年间,他在微软亚洲研究院(MSRA)视觉组工作,曾担任首席研究员、研究经理。2019年至2022年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。

代季峰的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了30多篇论文,根据谷歌学术统计获得了20000多次引用。他的一些工作,如区域全卷积网络R-FCN、可变形卷积网络Deformable ConvNets,被编入顶尖大学计算机视觉课程的讲义中。他于2015、2016年获得领域权威的COCO物体识别竞赛一等奖,后续历届冠军系统也均使用了他提出的可变形卷积模块。

代季峰在商汤科技工作期间,曾经担任本田-商汤自动驾驶研发项目的技术负责人。他是IJCV的编委,CVPR 2021和ECCV 2020的领域主席,ICCV 2019的公共事务主席,AAAI 2018的高级PC成员,北京智源人工智能研究院的青年科学家。

清华大学电子工程系官方微信公众号7月13日发布的一则学术会议预告中,代季峰还以商汤科技研究院执行研究总监的身份拟发表题为《BEVFormer:新一代自动驾驶环视感知算法介绍》的介绍。

这篇主题演讲的摘要中提到,随着智能驾驶落地应用场景不断延伸,系统信息表达的准确度要求进一步提升。一个合格的智能驾驶系统,需要准确表示包括道路布局、车道结构、道路使用者等元素组成的周围环境。然而,物体的距离、场景的深度信息在2D 感知结果上并不能得到有效呈现。这些信息才是智能驾驶系统对周围环境进行正确判断的关键。因此,3D 场景感知才是智能驾驶视觉感知的优选。

最近,基于多视角摄像头的3D目标检测在鸟瞰图下的感知(Bird's-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面,将不同视角在 BEV 下统一与表征是很自然的描述,方便后续规划控制模块任务;另一方面,BEV 下的物体没有图像视角下的尺度和遮挡问题。如何优雅地得到一组BEV下的特征描述,是提高检测性能的关键。

代季峰团队提出BEVFormer 环视感知的新框架,通过使用时空注意力机制学习用以支撑多种自动驾驶任务的鸟瞰图视角下的环境表征。总体而言,BEVFormer通过使用预定义的格栅化的鸟瞰图查询来与时间和空间特征进行交互,从而获取时空信息。为了聚合空间信息,设计了一种空间交叉注意力机制,每个鸟瞰图查询在相机视角下的相关区域提取空间特征。对于时序信息,提出时序自注意力机制从历史鸟瞰图特征中获取所需时序特征。在nuScenes数据集上达到了56.9 % NDS,比之前的最好效果高了9.0% NDS。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。