Facebook分享:如何利用AI技术将2D图片转换成3D图片:JN江南体育
发布时间:2024-11-15 20:41:01
本文摘要:(映维网2020年03月05日)Facebook于2018年发售了3D Photos功能,并将其作为一种与朋友和家人共享图片的全新沉浸式格式。

(映维网2020年03月05日)Facebook于2018年发售了3D Photos功能,并将其作为一种与朋友和家人共享图片的全新沉浸式格式。但这项功能倚赖于高端智能手机的双头摄像头“人像模式”。所以,只有一个后置摄像头的典型移动设备无法不予用于。

为了将这种视觉格式带来更加多用户,Facebook使用了最先进设备的机器学习技术,容许完全任何的标准2D图片分解3D图片。团队认为,无论是用于标准单摄像头的Android或iOS设备所摄制的照片,还是上传遍智能手机或笔记本电脑的数十年前的老照片,这一系统可以推测任何图片的3D结构。利用这项先进设备的技术,数百万配备单摄像头的智能手机或平板电脑将需要首次精彩地利用3D照片技术。

切换为3D同时可以令其你以全新的方式体验数十年前的家庭照片和其他贵重图像。享有先进设备双摄像头设备的用户某种程度可以借此获益,因为你现在可以利用单个前置摄像头展开3D自拍电影。现在,所有iPhone 7或更高版本,或近期的中高端Android设备用户都可以在Facebook应用程序中展开尝试。这个动画说明了系统是如何为创立3D图像而估计2D图片有所不同区域的深度。

建构这种强化的3D照片技术必须解决各种技术挑战,如训练可准确推断出多个主体的3D方位的模型,以及优化系统,令其其需要反对常规的移动处理器较慢已完成处置。为了解决涉及挑战,Facebook AI团队通过数百万对公共3D图像及其附带的深度图来训练卷积神经网络,并利用FBNet和ChamNet等先前研发的各种移动优化技术。现在这项功能早已向所有Facebook用户对外开放,而团队日前通过博文讲解了涉及的研发细节。

原图是用单透镜照相机摄制,不包括任何深度图数据。Facebook的系统将其切换右图右图的3D图像。1. 为移动设备带给高效的性能等价标准RGB图像,3D Photos CNN可以为每个像素估算距摄像头的距离。

团队通过以下四种方式来构建所述目标:用于一组可参数化,针对移动设备优化的神经建构模块所建构的网络架构。自动化架构搜寻,为其找寻有效地配备,从而令其系统需要反对任何设备在多于一秒内继续执行任务。

分析感官训练,从而在移动设备利用高性能的INT8分析,同时仅次于程度地增加分析过程中潜在的质量上升。来自公共3D照片的大量训练数据。

2. 神经建构模块团队研发的架构用于了受FBNet灵感的建构模块。FBNet是用作为移动设备和其他资源有限设备优化ConvNet架构的框架。

结构模块由点式卷积,附加的上取样,K x K深度式卷积,以及可选的点式卷积构成。研究人员构建了一个U-net样式的架构,并改动为沿着skip connection摆放FBNet建构模块。U-net编码器和解码器包括五个阶段,网卓新闻网,每个阶段对应于有所不同的空间分辨率。

网络架构阐述:所述的网络架构是一个U-net,并且包括沿skip connection摆放的额外宏级别建构模块。3. 自动化架构搜寻为了寻找有效地的架构配备,团队用于了由Facebook AI研发的算法ChamNet来自动化搜寻过程。ChamNet算法递归地从搜寻空间中取样点并借以训练精度预测器。

所述精度预测器用作加快genetic search,从而定位一个在符合登录资源容许的同时最大化预测准确性的模型。在这种设置下,研究成员用于了一个不会转变地下通道拓展因子和每个模块输入地下通道数的搜寻空间,从而产生3.4×1022的有可能架构。然后,他们用于800个Tesla V100 GPU在约三天内已完成搜寻,设置及调整模型架构的FLOP约束以构建有所不同的运算点。

4. 分析感官训练配置文件情况下,模型用于单精度浮点权重和转录展开训练,但团队找到了将权重和转录分析为8位的明显优势。尤其地,int8权重仅有必须float32权重所须要存储量的四分之一,从而增加了首次用于时必需传输到设备的字节数。图像一开始都是常规2D图像,并通过Facebook AI的深度估算神经网络切换为3D。与基于float32的运算符比起,基于Int8的运算符同时具备更高的吞吐量,这要得益于QNNPACK等经过细致调整的库(已构建到PyTorch中)。

团队用于分析意识训练(Quantization-aware training;QAT)来防止由于分析而造成的质量上升。QAT(现作为PyTorch的一部分)在训练过程中仿真分析并反对偏移传播,从而避免了训练和实际性能之间的差距。

这个神经网络可处置多种内容,还包括简单场景的绘画和图像。5. 找寻创立3D体验的新方法除了完备和改良深度估计算法外,团队同时致力于为移动设备摄制的视频获取高质量的深度估计。视频带给了一个有一点注目的挑战,因为每个帧的深度必需与下一帧的深度完全一致。

但这同时是提升性能的机会,因为对同一对象的多次仔细观察可为高精度的深度估算获取额外的信号。视频长度深度估算将为用户带给各种创意的内容创立工具。

随着团队之后提高神经网络的性能,他们将探寻在诸如增强现实之类的动态应用于中利用深度估算,表面法线估算和空间推理小说。


本文关键词:JN江南体育,jn江南·体育登录入口,JN江南·体育网页版,江南app体育官网登录,JNTY江南官方体育app

本文来源:JN江南体育-www.ahxccy.com