近年来,大语言模型(LLM)取得了显著进展,其中尤以 ChatGPT 和 GPT-4 为代表,前者是火出圈的对话模型,后者是多模态大模型。最近一段时间,视觉领域也出现突破性研究,比如 Meta 发布了「分割一切 」AI 模型(SAM),将 NLP 领域的 Prompt 范式延展到 CV 领域。OpenAI 开源模型 Consistency Models 无需对抗训练即可快速获得高质量样本,被视为扩散模型的终结者。同时,3D 与具身智能也成为计算机视觉领域的热门研究课题。
为了便于了解 AI 领域的最新科研成果与发展趋势,AI 顶会是必不可少的一环,特别是对图像领域感兴趣的研究人员,CVPR 就是一个很好的选择。
作为 CV 领域的顶会,CVPR 每年都会吸引大量研究机构和高校参会,投稿数量也 在持续增加。我们以 CVPR 2023 为例,今年共收到 9155 份提交,比去年增加了 12%,创下新纪录;接收 2360 篇论文,接收率为 25.78%。今年大会将于 6 月 18 日至 22 日在温哥华会议中心举行。
为了给国内 CV 社区从业者搭建一个自由轻松的学术交流平台,机器之心计划于 6 月 3 日组织「CVPR 2023 线下论文分享会」,广邀 CV 社区成员报名参与。
本次论文分享会将设置 Keynote、 论文分享、Poster 展示、企业招聘等环节,就业内关注的 CV 热门主题邀请顶级专家、论文作者与观众做学术交流。
目前,分享会全日程、Keynote 分享嘉宾及演讲主题正式公布。
Keynote 嘉宾及演讲主题
上午 Keynote 1:林达华 三维世界的 AIGC
分享摘要:智能内容生成(AIGC)已经成为当前人工智能学术领域的热点。以 Stable diffusion 为代表的一系列新技术在图像生成领域大放异彩。我们的视觉世界本质上是三维结构,视觉内容生成也将从二维世界迈向更加丰富的三维世界。在这次分享中,我将介绍研究团队在 CVPR 2023 所发表的一系列关于三维生成的论文,涵盖三维数据、NeRF 建模、以及 Diffusion model 在三维领域的应用,其中包括入选 award candidate 的 OmniObject3D。
分享人介绍:林达华,香港中文大学信息⼯程系副教授,上海⼈⼯智能实验室领军科学家,⾹港中⽂⼤学交叉学科⼈⼯智能研究所所长。林教授于 2012 年在美国麻省理⼯学院获得计算机科学博⼠学位。他在 AI 领域发表逾 200 篇论⽂,引用逾 30000 次。他在 2010 年获得 NeurIPS 的最佳学⽣论⽂奖,在 CVPR 2023 入选 award candidate。他曾指导研究团队参加 ImageNet、ActivityNet 与 COCO 等计算机视觉领域的主要国际竞赛,多次夺冠。他还担任 IJCV 的编委,以及多次担任领域主席。他于 2018 年主导发起的 OpenMMLab 已经成为深度学习时代最具影响的计算机视觉算法开源项⽬。
上午 Keynote 2:代季峰 从通用感知模型到通用具身模型
分享摘要:AI 的最新进展产生了能够理解幽默,响应不同语言的视觉提示,并从文本描述创建图像的通用感知算法。推动这一进步的关键因素是大量数据集的可用性以及使得在这些数据集上进行模型训练成为可能的创新方法,从而使机器学习模型在完成任务时变得更强大,更有效,更准确。然而,机器人技术领域仍在应对诸如适应性、学习以及理解人类语言等问题。传统模型通常无法在任务之间推广学习,需要对每个新任务进行大量的再训练和调整。为解决这个问题,研究人员正在利用大型语言模型,如 GPT-4,通过从视觉和语言领域转移知识来增强机器人系统。
我们旨在将通用感知模型的成果推广到机器人领域,即创建一个真正通用的具身智能模型,需要一个能够从多种模态(如视觉和语言)学习的系统,增强机器人与其环境和人类的互动。虽然将语言和视觉信息整合到机器人系统中有可能带来潜在的好处,但也存在相当大的挑战,需要精心设计的算法和架构来有效地处理多模态输入,同时保留各个组件的能力。传感器数据在将大型语言模型应用在机器人系统中起着至关重要的作用。将语言模型与原始传感器数据相结合,使系统能够更密切地连接其物理环境,从而促进更有效的学习和互动。这种新颖的通用机器人模型将语言模型训练成直接摄取原始传感器数据流,增强其对环境的理解和任务执行。
将大型语言模型与原始传感器数据相结合,得到的通用机器人模型将促进高效的机器人学习,使机器人能够快速适应新任务和环境,同时最大程度地减少了大量再训练的需要。因此,从大型感知模型到大型实体模型的过渡,以其挑战和创新为特征,开启了机器人技术新的篇章,即适应性强,效率高,智能的机器人系统的出现。
分享人介绍:代季峰,清华大学电子工程系副教授,博士生导师,上海人工智能实验室领军科学家。在 2009 年和 2014 年于清华大学自动化系分别获得工学学士和博士学位,博士导师周杰教授。2014 年至 2019 年在微软亚洲研究院视觉组工作,担任首席研究员、研究经理。2019 年至 2022 年在商汤科技研究院工作,担任执行研究总监,二级部门长。2022 年 7 月全职加入清华大学电子工程系。他的研究兴趣包括计算机视觉、深度学习等。他在相关领域发表国际期刊、会议文章 50 余篇,论文总引用 2 万 7 千余次。多篇论文成为物体识别领域里程碑式的成果,被编入世界一流大学视觉课程讲义,被选入深度学习权威框架 PyTorch 成为标准算子。他连续两年获得物体识别领域权威的 COCO 比赛冠军,之后历届冠军系统也使用了他提出的算法。他提出的算法获得自动驾驶感知领域权威的 Waymo 2022 竞赛冠军。他是顶刊 IJCV 的编委,和顶会 NeurIPS, ICCV,CVPR,ECCV 的领域主席,ICCV 2019 的宣传主席。
下午 Keynote 1:徐凯 基于三维几何感知的具身智能
分享摘要:视觉感知是机器人探索、感知和理解未知环境的最重要方式。随着三维传感技术的飞速发展,三维图形正与机器人视觉深度融合,形成基于三维几何的机器人感知与交互新途径,实现机器人对未知环境的三维感知和灵巧交互,并最终支持机器人在三维环境中实现具身智能。本次报告围绕重建、理解、交互三个方面,汇报我们近年来的系列工作,包括:快速相机运动下的实时三维重建,机器人自主与协同式场景扫描与重建,机器人主动式场景理解,以及基于三维几何表征学习的机器人灵巧抓取等,并尝试探讨基于三维几何感知的具身智能的未来发展方向。
分享人介绍:徐凯,国防科技大学教授。国家优青,湖南省杰青。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉及其机器人应用等。发表 CCF A 类论文 70 余篇,其中包括计算机图形学顶级会议 SIGGRAPH 论文 27 篇。担任 ACM Transactions on Graphics 等领域顶级国际期刊的编委。担任 GMP 2023、CAD/Graphics 2017 等国际会议的论文共同主席,以及 SIGGRAPH、Eurographics 等会议的程序委员。担任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会秘书长、中国图学学会理事。获湖南省自然科学一等奖 2 项(排名第 1 和第 3)、中国计算机学会自然科学一等奖(3)、军队科技进步二等奖、军队教学成果二等奖。
下午 Keynote 2:韦星星 物理环境下深度神经网络安全性研究
分享摘要:深度神经网络的对抗鲁棒性已经被广泛研究,目前在物理域使用最广泛的攻击方法是对抗补丁,尽管可以获得不错的效果,但是其隐蔽性较差,实现也比较繁琐。本报告介绍有意义的对抗补丁构造方法 - 对抗贴片,不同于传统生成对抗噪声的方式,对抗贴片使用生活中随处可以见的材料,通过优化求解该贴片在目标物体上的位置和形状等信息来构造物理攻击。在可见光、红外等不同模态下的实验验证了本方法的先进性和有效性。
分享人介绍:韦星星,现任北航人工智能研究院副教授,博士生导师,小米青年学者,北航青年拔尖人才。主要研究方向为对抗机器学习和计算机视觉,在 TPAMI, IJCV 和 NeurIPS, CVPR, ICCV 等人工智能领域顶级期刊和会议发表学术论文 60 余篇(TPAMI/IJCV 论文 4 篇)。在 DEFCON,ACMMM,CVPR 上举办的国际竞赛中获得三项冠/亚军,作为负责人主持科技部“新一代人工智能” 2030 重大项目课题、国家自然科学基金面上项目、青年项目、CCF-腾讯犀牛鸟基金等。
Poster 展示论文
报名方式
对本场活动感兴趣的读者可以通过下文链接报名。机器之心会将审核结果反馈至您报名时填写的手机号与邮箱。
报名链接:https://www.bagevent.com/event/8456461?code=091F06Ga1ZNPoF0CqbGa1NHKVn0F06Ga&state=STATE
直播观看渠道
直播预约:为了方便大家学习,机器之心开通了多条直播渠道,可通过下列方式预约观看。
方式一:机器之心机动组视频号
方式二:
扫描二维码观看直播
签到时间:2023 年 6 月 3 日 8:00-9:00
会议地址:北京市朝阳区望京浦项中心 B 座二层多功能厅
签到方式:出示签到二维码,核验成功即可入场
如何获取签到二维码:报名通过审核后,机器之心会将审核结果发送至您报名时填写的手机号与邮箱中,您可打开短信或邮件点击链接获取签到二维码。
交流群:每位嘉宾分享后都设有 QA 环节,欢迎大家扫码加入交流群提问讨论,或添加活动小助手:jiqizhixinsh ,备注「CVPR 2023 论文分享会」小助手将邀请您进群。
下一篇:学习知多少:java篇