Facebook AI 正在升维突破：教AI像人类一样理解三维世界

2019-11-03 22:23:20 DeepTech深科技

为了更好地理解现实世界，AI 系统不仅需要准确识别物体，还必须学会以三维视角理解视觉场景，比如将二维图片中的沙发、餐桌和茶几以三维建模的方式重现出来。

这对 AI 的图像理解能力提出了极高的要求，因为它必须知道如何判断景深，搞清楚对象位于照片的前景还是背景中，甚至要在一定程度上推断出缺失部分的样子。

Facebook AI 近日在首尔国际计算机视觉大会（ICCV）上演示了他们在这个领域的最新研究成果，同时也在博客和 arxiv 上发布了技术简介和论文，表现惊艳，研究成果之一还获得了 ICCV 最佳论文提名。

图 | 将视频中的沙发和椅子三维化（来源：Facebook）

为了实现这一目标，研究人员不仅开发了新的算法，还整合了多个最新研究成果，包括用来预测 3D 形状的 Mesh R-CNN 神经网络框架，用来提取和重建 3D 不规则模型的 C3DPO 方法，用来检测物体和生成 3D 点云的 VoteNet 技术以及配套的新型优化算法等等。

研究团队相信，通过加强对三维物体的了解，AI 可以更紧密地连接二维和三维世界，在计算机视觉领域扮演更重要的角色，推动 3D 打印、AR 和 VR 等技术在现实生活中的进步，将这些技术拓展到更广泛的任务上，最终像人类一样理解三维世界。

预测受阻挡的 3D 不规则形状

现有的基于 Mask R-CNN 的图像理解和感知系统的确很强大，适用广泛，但它们做出的预测主要以二维数据为依据，忽略了真实世界复杂的三维结构。想要在真实世界中识别和判断不规则物体的三维数据，例如在杂乱多变的环境中识别和排除遮挡物，需要克服一系列光学挑战。由于技术原因，仅凭现有的工程框架（Mask R-CNN）难以胜任。

为了应对这些挑战，

研究人员首先通过网格预测分支（mesh prediction branch）强化了 Mask R-CNN 的 2D 对象分割系统，随后专门创建了一个 Pytorch 库 Torch3d，里面储存了高度优化后的 3D 运算符，可以帮助实现 3D 物体结构采样和预测。

简单来说，新开发的 Mesh R-CNN 框架可以借助现有的 Mask R-CNN 来检测和分类图像中的各种物体，之后使用网格预测器推断和描绘出一个物体 3D 形状，最终获得细粒度的 3D 结构数据。

在这一过程中，Facebook 还使用了 Detectron2 库。这是一个模块化物体检测库，最早由 Facebook 团队在 2018 年推出，获得过多次更新。它将 RGB 图像视为输入值，可以检测物体和预测 3D 形状，同时还支持捕捉视频中的物体和动作变化。

与训练 Mask R-CNN 类似，研究团队使用了监督学习的方式来训练 Mesh R-CNN 学习 3D 形状预测。他们在 Pix3D 和 ShapeNet 两个数据集上评估了新框架，它成为了第一个可以在所有场景类别中检测到物体完整 3D 形状的系统，而且综合表现也高出之前框架 7%。

通过二维关键点重建三维对象

对于无法使用网格的场景，Facebook 研究人员开发了另一种方法：捕捉 2D 关键点，再将数据输入 C3DPO 系统（Canonical 3D Pose Network），用来重建 3D 关键点模型。

2D 关键点可以通过跟踪物体特定部分的运动得到，比如人的关节和鸟的翅膀，可以提供物体几何形状或视角变化的完整轨迹。这并不难实现，难的是如何生成 3D 关键点，这对于 3D 建模来说至关重要，也是在现实中应用潜力最大的地方——更好的建模质量意味着在 VR 中生成更逼真的虚拟头像。

图 | 通过二维图片关键点（上）生成三维模型（下）（来源：Facebook）

研究团队开发的 C3DPO 模型可以重建数十万张图像的数据集，每张图片都包含数千个 2D 关键点。在给定一组 2D 关键点的前提下，该模型可以预测现有的摄像头视角参数，并且得出标准视角下 3D 关键点的定位信息，对确定物体的相对位置至关重要。

为了克服分解 3D 视角和形状时的不确定性——AI 需要脑补看不到的地方，存在茫茫多的可能性——研究人员开发了一套正则化技术，包含第二个辅助深度神经网络，可以随着 3D 重建网络一起学习，规范模型重建过程。

Facebook 强调，由于之前基于矩阵分解的方法存在内存限制，这种重建是无法实现的。而新开发的深度网络 C3DPO 能够以小批量（minibatch）的状态运行，效率很高，对硬件的要求大大降低，使得对飞机等大型物体的三维数据捕捉和重建成为可能。

学习如何从像素映射到物体表面

为了减少针对一般物体开发三维形状数据捕捉的监督程度，

Facebook 团队开发了一种类似于自动物体分割的方法，适用于未标注图像。无需明确预测图像底层的 3D 结构，就可以直接将图像中的像素映射到 3D 形状模板的表面上。

这种映射不仅可以帮助系统更好地理解图像，还能够帮助归纳相同类别物体之间的关系。以人类为例，当我们看到左侧图像中高亮显示的鸟喙，就可以轻松找到右侧图像中对应的点。

对于 AI 来说，实现像素到物体表面的映射意味着它也可以具备这种能力，因为同类别的物体之间共享了相似的 3D 结构。如果我们训练 AI 学习如何正确坐在椅子上或者握住杯子，那么在它学会之后，再换一张椅子或者一个杯子，它对物体 3D 结构的理解也可以帮助其快速掌握新技巧。

这些成果不仅可以帮助 AI 加深对传统 2D 图像和视频内容的理解，还可以用来增强 AR 和 VR 体验。

研究团队表示，在评估不同个例之间对应关系的准确性时，新系统的表现优于旧方法两倍。更重要的是，这种学习方式可以实现从像素到物体表面的映射，并将其与表面到像素的逆向操作配对，从而形成一个从训练到检验的循环，所用的图片数据集也无需标注，因此大大降低了训练所需的监督程度。

改善 3D 系统物体检测任务

最后一个在 3D 建模任务中扮演重要角色的成果是 VoteNet。这是一套为 3D 点云系统定制的高精度端到端 3D 对象检测网络，获得了 ICCV 2019 的最佳论文提名。

与传统依赖 2D 图像信号的点云系统不同，VoteNet 支持的系统完全基于 3D 点云，效率和精度都更胜一筹，可以从深度相机获取 3D 点云，并返回带有物体或形状标注的 3D 边界框。

它以经典霍夫变换算法为基础（利用投票的方法检测物体形状），引入了一种新的投票机制，可以在物体中心附近生成新点，然后将它们分组和汇总，生成多个 3D 盒状提案。深度神经网络在学习如何投票之后，每组 3D 种子点（seed point）会投票决定物体中心，找到它们的位置，综合起来代表特定物体的位置，还能判断物体类别，标注它是椅子还是桌子。

图 | VoteNet 实现方式（来源：Facebook）

研究人员表示，开源的 VoteNet 具有简单的设计、紧凑的模型和很高的效率，是最先进的 3D 物体检测方式之一。它仅凭几何信息，无需彩色图像，就在 SUN GRB-D 和 ScanNet 的测试中超越了现有方法，是捕捉场景中 3D 对象的核心工具

从自动驾驶到生物医疗，3D 扫描技术的应用场景正在快速拓展，因此使用计算机直接理解和分类 3D 场景物体的能力变得愈发重要。这对计算机视觉研究提出了更高的要求，但也是增强 AI 对现实场景理解能力的必要过程，有助于进一步缩小物理空间和虚拟空间的差距，推动 VR 和 AR 等技术的发展，甚至是掀起新一轮技术革命。

最终如果综合触觉感官和自然语言理解等技术，我们有朝一日或许能够见到像人类一样理解并与现实世界互动的 AI 系统。

分享到:

閱讀更多 DeepTech深科技 的文章

關鍵字: 体育人工智能理解

Facebook 面试题全解析

Facebook Messenger终于有桌面应用了

Facebook Messenger推出对抗新冠病毒谣言的社区中心

山寨 Facebook，emmmm......

Facebook、微软与世卫组织合作举办冠状病毒黑客马拉松

Facebook：2019圣诞节前后购买Ouest的新用户数高达90%

Facebook：向每名员工发放1000美元奖金以抗击新冠疫情

Facebook 为世卫组织免费提供新型冠状病毒相关广告

02.27 Facebook 证实将禁止含新型冠状病毒不实信息的广告

02.27 Facebook：禁止疫情相关误导性广告

Facebook：欧盟提案将威胁创新和言论自由

Facebook：WhatsApp用户数超过20亿

Facebook Twitter和Instagram账号遭黑客攻击

01.28 Facebook 和雷蛇限制员工赴中国旅行

12.23 Facebook 继华为之后也将独立开发操作系统以脱离谷歌及安卓控制

12.21 Facebook：以删除数百个虚假账号包括AI生成虚假信息

12.10 Facebook 是如何一步步靠着外来产品拼凑起海外社交帝国的？

12.03 Facebook、苹果等硅谷六公司十年避税逾千亿美元

扫脸可识别其脸书账号？Facebook

Facebook 在隐私丑闻之后推出了另一款市场研究应用

Facebook APP能偷偷开启你的iPhone相机

Facebook Pay在美国推出

Facebook 为 WhatsApp、Instagram 等应用带来支付服务 Facebook Pay

Facebook 改名为 FACEBOOK

Facebook 称 100 名开发者“意外”访问了用户数据

Facebook 又换LOGO了

Facebook Libra负责人马库斯：5年后中国数字人民币将成为赢家

「图」Facebook Messenger密聊模式将为语音和视频提供端到端加密

为新VR社交平台Horizon让路，Facebook Spaces正式停止运营

Facebook 会沦落为二十年前的微软吗？

Facebook：下一个微信？

Facebook、谷歌大脑和MIT顶级AI专家正在寻找的神经网络通用理论

Facebook 为何还不认错？

Facebook 2019年开发者大会时间公布！

Facebook 又山寨出了一个美版抖音

Facebook Lite 正在测试 iOS 版本，这是 Facebook 应用的精简版

Facebook 再度发生数据泄漏事件

Facebook 遭网络攻击影响五千万用户

印度AR应用正在爆发 Facebook AR Studio平台将大力扶持该领域

Facebook 尝试用区块链技术挑战大银行现有的支付网络？

Facebook 计划于新闻机构合作推出视频节目

蚂蚁金服专利年申请量超过亚马逊、Facebook

05.18 Facebook：一季度清除190万个恐怖主义有关帖子

05.16 如何构建转换的亚马逊产品列表-Facebook Live Recap

04.08 Facebook COO：不想让我用你的数据推广告？那就付费

Facebook 推出一系列新隐私措施，赋予用户更大控制权

贝佐斯威胁广告双巨头谷歌、Facebook

Facebook 昔日的挫败与今日的瓶颈

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。