​​Yun He Capital   

太湖云和科技成果转化创业投资基金

云禾添锋智能制造基金

云合毅玺创投基金

云和资本 YUNHE CAPITAL
厚德载物 基业长青
致力于成为中国最值得信任的创投机构
3D深度视觉引爆第4次视觉革命 | 云和研究院
来源: | 作者:云和资本 | 发布时间: 2020-06-15 | 2349 次浏览 | 分享到:

云  和  观  点



云和资本合伙人 彭昭


云和资本投资副总裁 陆婷



机器视觉为工业赋予慧眼,在现代制造业占据重要地位。我国机器视觉经历了启蒙期--探索期--高速成长期。伴随着3D传感行业的迅猛发展,机器视觉迎来轰轰烈烈的第四次视觉革命。从之前的2D平面“视界”进化到3D立体“视界”,刷脸支付、Face ID、VR、无人便利店、智能机器人等人工智能产品从实验室走向普罗大众身边。

目前,3D传感的主流技术包括:双目视觉、结构光与TOF(Time of Flight)。三种技术各有千秋,双目视觉与结构光主要基于三角定位原理测距。3D TOF技术主要是计算光线飞行的时间,让装置发出脉冲光,并且在发射处接收目标物的反射光,藉由测量时间差算出目标物的距离,从而创建物体或场景的3D深度图。

在行业应用中,消费与汽车将成为3D传感市场的最大增长引擎,其中消费端以手机为主要市场将占据,3D传感的绝大部分份额。

3D传感供应体系中,发射端VCSEL、DOE、WLO、组装以及接收端IR CIS、Filter为全新增量市场,相较于传统彩色摄像头而言创造了新的产业,价值量更大。


行业概述】


1、消费与汽车将成为3D传感市场的最大增长引擎,消费端以手机为主要市场将占据3D传感的绝大部分份额:根据Yole的预测数据,全球3D成像和传感器市场规模在2017~2023年的CAGR为44%,2017年市场规模为21亿美元。预计至2023年,3D传感市场规模约为184亿美元。2017~2023年,消费、汽车、医疗、工业与科研的CAGR分别为82%、35%、4%、12%、10%,消费与汽车将成为3D传感市场的最大增长引擎,预计2023年消费与汽车占比分别为75%与13%,消费端以手机为主要市场将占据3D传感的绝大部分份额。


2、三种主流传感技术各有千秋:3D传感的主流技术包括:双目视觉、结构光与TOF(Time of Flight)。双目视觉与结构光主要基于三角定位原理测距,TOF主要基于光的飞行时间测距。



3、TOF成安卓手机厂商主流选择,苹果手机Face ID为结构光应用主力;结构光方案是当前最为合理的移动终端3D深度视觉技术,TOF技术将是未来发展方向;由于结构光与TOF方案原理的差异,结构光适用于安全性要求高而测量距离较低的场景,苹果Face ID为目前主要应用;2019年,安卓手机大量推广使用TOF摄像头,总计13款机型,主流安卓手机厂商均推出TOF方案,预计2020年安卓手机厂商TOF渗透率将加速提升。


4、3D传感供应体系中,发射端VCSEL、DOE、WLO、组装以及接收端IR CIS、Filter为全新增量市场,相较于传统彩色摄像头而言创造了新的产业,价值量更大。

 


|行业历程——从看清到看懂


美国制造工程师协会(SME)将机器视觉定义为:“机器视觉是通过光学装置和非接触传感器自动接收和处理真实物体的图像,以获得所需信息或用于控制机器人运动的装置”。


机器视觉为工业赋予慧眼,在现代制造业占据重要地位,检测是最重要的应用。机器视觉概念早在20世纪50年代提出,已在欧美、日本等发达国家趋于成熟。当前我国经济向新动能、新经济转换,3C、汽车、光伏半导体等众多行业迸发对机器视觉技术旺盛需求。


与人类相对缓慢的进化不同,机器视觉的演进之路是迅速而具有颠覆意义的,机器看世界的方式也在经历着革命性突破。


首先是色彩维度,正如婴儿的“视界”早期只有黑白两色,早期的摄影受感光材料以及后期技术的局限只能记录单调的黑白世界。直到19世纪末,随着光学研究的突破,摄影师采用不同颜色滤镜拍摄并经过后期合成彩色照片,使得机器的视觉能力向前迈出第一步。随后,机器视觉迎来了从模拟到数字的第二次革命,依然以大家常见的摄影摄像为例:早期摄影是利用胶片感光来模拟成像,伴随着数字技术的成熟,数码相机、拍照手机逐渐取代模拟记录影像的方式,通过机器观察记录世界变得更加高效便捷。第三次视觉革命来自于电荷耦合元件在摄影摄像产品中的应用,将光信号转换成电荷信号能够获得更高解析度画面,像素数从初期的10多万增加到千万像素。像素总量的大幅度提升使画面细节能够得到更细腻的展现,机器视觉从普清走向高清时代。


3D视觉引爆第四次视觉革命。近年来,伴随着3D传感行业的迅猛发展,机器视觉迎来轰轰烈烈的第四次视觉革命,视觉升维迎来历史性的技术爆发,让其他三次视觉革命都略显黯然失色。第四次视觉革命最大的特点体现在机器直接从之前的2D平面“视界”进化到3D立体“视界”,刷脸支付、Face ID、VR、无人便利店、智能机器人等人工智能产品从实验室走向普罗大众身边,频频以“未来产品”的姿态曝光,其背后起到关键作用的黑科技便是3D视觉技术,已经成为人工智能界的新宠。


我国机器视觉经历了启蒙期-探索期-高速成长期:


1)启蒙期:早期机器视觉技术在90现代末引进,在特种印刷/烟草行业成功运用;


2)探索期:2004年开始,本土视觉公司开始探索软硬件自主研发,占据入门级市场;


3)高度发展期:2008年开始,镜头、工业相机、软件算法等核心部件国产力量崛起,向价值链上游持续突破。


我国机器视觉发展历程


2012年以来,3D视觉开始受到全球各大科技巨头的重视,包括苹果、微软、英特尔、谷歌、索尼、三星等公司纷纷加码3D视觉,如2012年左右,微软收购了3D-TOF相机公司canesta和3dv;2013年,英特尔推出RealSense实感技术,谷歌推出Project Tango项目,苹果收购结构光先驱PrimeSense;2015年索尼收购了3D视觉综合技术供应商SoftKinetic,Facebook旗下Oculus收购3D手势识别公司Pebbles。


1. 苹果


iPhoneX率先打开3D深度视觉手机市场,并持续引领全球消费电子市场。苹果公司投入最为积极,早在2010年左右便开始在3D视觉方面展开布局。2010年9月,苹果收购了瑞典三维图像识别公司PolarRose;2013年11月以3.6亿美元收购了3D视觉结构光方案先驱PrimeSense,获得大量专利和技术;在2015年之后,在3D视觉、人脸识别、图像识别等方面,苹果先后收购了Linx、Faceshift、Emotient、FlybyMedia、RealFace等多家公司,形成了全面的产业布局。


苹果近年在3D传感领域收购布局情况

时间

收购公司

业务

2013.11

Primesense

3D视觉整体解决方案服务

2015.04

LinX Imaging

多孔摄像头

2015.05

Metaio

AR/VR

2015.08

Faceshift

面部表情捕捉

2016.01

Emotient

面部表情

2016.01

Flyby Media

AR/VR

2017.02

RealFace

面部3D扫描

2018.08

Akonia Holographies

AR眼镜

2019.08

Fashwell

AI视觉

2019.12

Spectral Edge

改善图片质量

 

通过收购结构光先驱PrimeSense,苹果掌握了3D视觉最核心的技术。以色列科技公司PrimeSense是全球知名3D视觉方案供应商,于2006年研发出结构光3D传感器,是3D视觉结构光方案的先驱,随后成功应用至微软Kinect 1代(2010年)、华硕Xtion(2011年)等产品中。


2. 英特尔“结构光+双目立体光”


早在2012年左右,英特尔便着重研发实感技术,当时叫Perceptual Computing,即感知计算,并开放英特尔感知计算软件开发套件2013版。2013年1月,英特尔联合Nuance等多家公司推出了“感知计算”,类似于微软的Kinect,可进行手势与人脸识别,缺点是设备体积大,必须借助PC电脑完成。前置实感3D摄像头和Kinect原理一样,它的工作原理是“结构光”,需要一颗红外传感器。远距离的3D摄像头,使用“双目主动立体成像原理”,需要两颗红外传感器。经过多年的努力,英特尔目前可以提供包括SR300独立摄像头、R200远距离后置摄像头(3-4米,室内室外使用,640*480分辨率)、F200近距离前置摄像头(0.2-1.2米,室内使用,640*480分辨率)等硬件产品。


3. 微软


微软是最早涉足3D视觉的公司之一,公司在游戏领域推出XBOX游戏机,志在与索尼和任天堂的游戏机一较高下,为了形成自己的竞争优势,微软在2010年与PrimeSense合作,推出了XBOX360体感周边外设——Kinect1代。


但是,当时采用结构光原理的Kinect1代的游戏体验并不好,产品的准确度、图像的分辨率和响应速度一直不理想。最大的问题是精度很难提高,因为计算斑点位移需要用图像在一个小范围区域内的来做块匹配,导致牺牲了像素级别的细节,凸凹不平的表面、物体边缘、很细的物体很难检测准确的深度。


2012年美国微软发售的Kinect v1,因为可以很方便就能取得Depth(深度)和Skeleton(人物姿势)等信息,2014年发布的Xbox One Kinect,在硬件和软件上会做很大的进化。Kinect v1采用了PrimeSense公司的LightCoding技术,Xbox One Kinect采用了TOF技术。


2012年微软先后收购了TOF相机公司canesta和3dv,2013年微软终止与PrimeSense的合作,自行开发了Kinect 2代(成为Kinectone),采用的是TOF原理,无论精度、分辨率还是响应时间都得到了很大的提升。以TOF原理发射一个强度随时间周期变化的正弦信号,通过获得发射、接受信号的相位差来计算深度,精度高很多。


4. 谷歌


Project Tango是谷歌公司的明星研究项目,由谷歌先进技术与项目部门和部分研究人员,以及硅谷Movidius(已被英特尔收购)合作研发,后者提供的芯片技术可以分析和表达来自传感器和摄像头的数据。Project Tango项目的目标是希望将人类的视觉带入移动设备,为移动设备加入类似人类对空间和运动的感知能力。


Project Tango包含三块技术:运动追踪(Motion Tracking),深度感知(Depth Perception)和区域学习(Area Learning)。首先是运动追踪,设备可以通过内置的姿态传感器(加速度计和陀螺仪等)来感知当前的位置;接下来是更深入的3D识别,可以检查出周围世界环境的形状,类似于英特尔的RealSense 3D摄像技术,可以获得更准确的姿态控制以及3D对象渲染;最后就是对周围的环境和区域绘制地图。


2017年,苹果发布了自己的增强现实平台,在iOS11中为ARKit构建了广阔的目标,这让谷歌在2017年8月发布ARCore的同时决定放弃Tango项目。


2019年,Google公司AI的研究人员根据运动视差(Motion Parallax)的原理,成功训练出了一个深度学习的沙漏模型,有效地解决了移动镜头下移动人物的深度预测问题。


5. 国内厂商


自2017年9月苹果iPhoneX发布搭载结构光3D感测功能后,安卓阵营逐步推广3D感测功能。至今,全球已发布结构光手机型号7款,TOF手机型号13款,其中2款手机前后各搭载一颗TOF摄像头。从已上市的手机来看,苹果手机前置采用散斑结构光实现面部解锁功能;安卓手机2018年有4台手机跟进结构光技术,小米采用编码结构光简化算法难度。结构光技术由于成本高、量产难度大以及算法复杂,目前在安卓阵营推广较慢。


2019年,安卓手机大量推广使用TOF摄像头,总计13款机型。荣耀V20与华为Nova5 Pro机型价位仅为2999元,3D感测功能正式走向中低端机型。华为Mate30 Pro与三星S10 5G前后各搭载一颗TOF摄像头,有望引领2020年新机潮流。2019年可谓手机端TOF摄像头元年,预计2020年TOF摄像头渗透率仍将进一步提升。

 

|行业规模——我国机器视觉高速成长,百亿市场可期

全球机器视觉增速14%以上,预测2020年全球机器视觉市场规模达80亿美元。

 


在下游旺盛需求及计算机视觉等交叉学科带动下,我国机器视觉行业近五年复合增长率高达34%,是全球的2倍,2020年预计120亿元。

 


微软Kinect、英特尔RealSense、Orbbec等3D深度视觉整体解决方案广泛应用各类消费级产品。随着光学元器件集成度提升,模组方案成本下降,以及相关算法不断优化,3D深度视觉技术将进一步渗透移动终端、智能穿戴设备、智能汽车、机器人等领域。


根据Yole的预测数据,全球3D成像和传感器市场规模在2017~2023年的CAGR为44%,2017年市场规模为21亿美元,消费、汽车与工业占比分别为19%、19%与38%。预计至2023年,3D传感市场规模约为184亿美元,2017~2023年消费、汽车、医疗、工业与科研的CAGR分别为82%、35%、4%、12%、10%,消费与汽车将成为3D传感市场的最大增长引擎,预计2023年消费与汽车占比分别为75%与13%,消费端以手机为主要市场将占据3D传感的绝大部分份额。


2017~2023年3D传感的主要细分领域市场规模(亿美元)

 


|技术路径——三种方案各有千秋


图像传感器逐渐从2D发展至3D,深度信息的带入使得手机、汽车、AR等应用的可拓展性变得越来越高,从2D走向3D是未来传感器发展的一大趋势。


2D与3D

通过2D成像

通过3D成像

在2D图像上通过算法实现智能识别,由于2D图像本身包含的信息有限,即使算法再先进,信息输入端将成为智能化的短板。

全面的三维信息,对每个对象的三维轮廓、物理特征更为充分的识别

能够做到空间识别和行为识别,提升导航、轨迹、识别等AI应用能力

2D成像

3D成像

只能记录物体的纹理信息,没有面积和体积

丢失了物理世界中的第三维信息(尺寸和距离等几何数据),计算机只能实现影像记录和平面图像特征识别,分析算法难度极大

能够识别视野内空间每个点位的三维坐标信息,即能够能看到物体的长、宽、高。

能够复原完整的三维世界,并实现各种智能三维定位。



 

目前,3D传感的主流技术包括:双目视觉、结构光与TOF(Time of Flight)。双目视觉与结构光主要基于三角定位原理测距,TOF主要基于光的飞行时间测距。

 


(一)3D深度视觉技术原理


利用近红外线光来扫描周围环境,再由CMOS影像传感器接收并转换为数字信号,最后通过芯片计算出物体在三维空间中的远近与相对位置,因此能了解物体的动作、与环境互动。由此即能发展出由动作控制计算机的体感操控,能检测前方物体是该闪避的障碍物还是该放回货架上掉落商品的机器人;或是能通过环境扫描建立3D模型,以供制图或虚拟导览运用的3D扫描仪等应用。

 


(二)结构光技术原理


结构光技术是一种主动式光学测量技术,其基本原理是由结构光(有特殊模式的光,比如离散光斑,条纹光,编码结构光等等)投射器向被测物体表面投射可控制的光点、光条或光面结构,并由图像传感器(如摄像机)获得图像,通过系统几何关系,利用三角原理计算得到物体的三维坐标。

 


目前,结构光主要分为散斑结构光与编码结构光。散斑结构光的激光散斑具有高度的随机性,而且随着距离的不同会出现不同的图案,在同一空间中任何两个地方的散斑图案都不相同。只要在空间中打上这样的结构光,加以记忆就让整个空间都像是被做了标记,然后把一个物体放入这个空间后,只需获得物体散斑图案中特征点的位移量,通过三角测量法即可计算出所测物体的深度信息。编码结构光法通过将一幅或多幅,以特定的编码投射到待测物上,得到一幅对应的编码图像。利用编码方式对编码图像进行解码,得到各像点所对应物点上的光线投射角,最后由结构光法基本公式获得景物的三维坐标。目前,散斑结构光的安全性与计算复杂程度高于编码结构光。


苹果采用PrimeSense公司的lightcoding技术是结构光技术一种典型模式,利用连续光(近红外线)对测量空间进行编码,经感应器读取编码的光线,芯片运算进行解码后,生成一张具有深度的图像。LightCoding技术的关键是利用一个特殊设计的diffuser(光栅、扩散片)可以使红外光线能从不同角度射出,当激光散斑照射到粗糙物体、或是穿透毛玻璃后,会形成随机的反射斑点,散斑具有高度随机性,也会随着距离而变换图案,空间中任何两处的散斑都会是不同的图案,等于是将整个空间加上了标记,所以任何物体进入该空间、以及移动时,都可确切纪录物体的位置。

 

 

3D视觉结构光方案产品整体结构分析


通过拆解结构光先驱Primesense的产品结构,可以看到整个结构光产品方案主要由四部分组成:TX发射部分(IR Projector,主要为红外光发射器IR LD)、RX接收部分(IR Camere,主要为红外光图像传感器IR CIS)、RGB可见光图像传感器(Vis CIS)、专用数据处理芯片(Processor Chip)。红外发射器发射近红外光到物体表面,红外传感器与色彩传感器分别采集物体的深度图像和平面图像,最终经过实感芯片的处理得到三维位置信息。


可以总结一下,典型结构光3D视觉系统的工作原理为:首先红外激光发射器(IR LD)发射出近红外光(IR Light)特定图案(如激光散斑等),经过物体(如人手或人脸等)的反射之后,形变之后的图案被红外图像传感器(IR CIS)所接收,经过算法计算出人手/人脸所处的位置(Z轴);同时,可见光图像传感器采集二维平面(X与Y轴)的人手/人脸信息(Vis Light);两颗图像传感器的信息汇总至专用的图像处理芯片,从而得到三维数据,实现空间定位。


1. TX发射部分(IR Projector,主要为红外光发射器IR LD)


  • TX红外光发射部分是整个3D视觉重要的组件之一,VCSEL是近红外光源最佳方案。


TX红外光发射部分是整个3D视觉重要的组件之一,提供最核心的近红外光源,其发射图像的质量对整个识别效果至关重要。目前,可以提供800-1000nm波段的近红外光源主要有三种:红外LED、红外LD-EEL(边发射激光二极管)和VCSEL(垂直腔面发射激光器)。

 


综合分析三种方案,LED虽然成本低,但是发射光角度大,必须输出更多的功率以克服损失。此外,LED不能快速调制,限制了分辨率,需要增加闪光持续时间;边发射LD也是手势识别的可选方案,但是输出功率固定,边缘发射的模式在制造工艺方面兼容性不好;VCSEL比LD-EEL的优势在于所需的驱动电压和电流小,功耗低,光源可调变频率更高(可达数GHz),与化合物半导体工艺兼容,适合大规模集成制造。尤其是VCSEL功耗低、可调频率高、垂直发射的优点,使其比LD-EEL更加适合消费电子智能终端。


VCSEL由于其制造工艺难度较大,产品的成本相对较高,随着各大厂商的重视,尤其是高速光通信的快速发展,VCSEL工艺逐步成熟。近年来VCSEL已经大规模用于高速光网络传输领域作为激光光源,目前的产品价格已经非常接近LD-EEL。


目前,全球范围内主要的VCSEL供应商包括Finsar、Lumentum、Princeton Optronics(已被AMS收购)、ⅡⅥ等公司,它们在移动端VCSEL处于前沿的研发角色。具体的生产分为IDM和代工两种方式,在代工模式下,由IQE、全新、联亚光电等公司提供三五族化合物EPI外延片,然后由宏捷科、稳懋等公司进行晶圆制造,再经过联钧、矽品、同欣(基板)等公司的封测,便变成了独立的VCSEL器件。


致力于移动端小型化VCSEL方案设计的公司主要包括Finsar、Lumentum、Princeton Optronics、ⅡⅥ等国外光通信器件公司。国内方面光迅科技、华芯半导体具备中低端VCSEL的设计和生产能力,长春光机所在VCSEL技术研发方面有一定竞争力。但是整体而言,国内公司与海外巨头相比差距较大。


  • 发射端组件中DOE衍射光栅是实现激光散斑的关键


相比于TOF方案,结构光方案需要采用pattern图像(如激光散斑等)进行空间标识,因此需要定制的DOE(衍射光栅)和WLO(晶圆级光学透镜,包括扩束元件、准直元件、投射透镜等)。DOE衍射光学元件(Diffractive Optical Elements)对于结构光方案是至关重要的核心部件之一。


DOE衍射光学元件的产业链结构主要为:DOE光学图案设计、DOE制造与加工、光学元件模组封装,此外还需要原材料(主要为特种石英玻璃、光敏玻璃等)与精密光学加工设备(如光刻机等)这两大支持性辅助环节。

 

 

光学衍射元件DOE的制造门槛较高,苹果手机DOE组件由台积电采购玻璃后进行pattern,精材科技将台积电pattern后的玻璃进行堆叠、封装和研磨,然后交采钰进行ITO工序,最后由精材科技进行切割。台积电、精材与采钰均为台系厂商;其中,台积电持有精材40.94股份,采钰为台积电与豪威合资设立的子公司。


此外,台湾地区的奇景光电也具有生产DOE的能力,目前正与高通合作。福晶科技为微软AR眼镜HoloLens联合研发DOE等相关元件,福晶科技主要从事各类功能晶体元器件、精密光学元器件和激光器件的研发、生产和销售。大陆初创公司驭光科技成立于2016年,主要从事设计与生产DOE产品;目前已进入安卓手机3D传感核心器件供应商,全资子公司嘉兴驭光光电可规模量产DOE器件。


  •  WLO晶圆级光学元件也是核心组件


结构光TX部分中,由VCSEL发射的近红外光,首先经过光束整形器Beam Shaper(主要包括扩束元件Beam Homogenizer和准直元件Collection Lens)形成横截面积较大的、均匀的准直光束。然后经过DOE形成的光学图案再经过最后的投射透镜(Projection Lens),才能够从TX发射部分发射出去。


为了将结构光方案应用于移动端消费电子产品,发射端器件在体积和尺寸上需要压缩,因此光束整形器Beam Shaper和投射透镜Projection Lens都是采用WLO(晶圆级光学器件)工艺加工而成。


WLO晶圆级光学器件,是指晶元级镜头制造技术和工艺。与传统光学器件的加工技术不同,WLO工艺在整片玻璃晶元上,用半导体工艺批量复制加工镜头,多个镜头晶元压合在一起,然后切割成单颗镜头,具有尺寸小、高度低、一致性好等特点。光学透镜间的位置精度达到nm级,是未来标准化的光学透镜组合的最佳选择。


在3D视觉发射端结构复杂的情况下,光学器件采用WLO工艺,可有效缩减体积空间,同时器件一致性好,光束质量高,采用半导体工艺在大规模量产之后具有成本优势。


目前,WLO技术主要掌握在Heptagon(被AMS收购)、Himax奇景光电、VisEra采钰、Anteryon(被晶方科技收购)等厂商手中,其中Heptagon拥有大部分专利。WLO技术具有很高技术壁垒,全球具备规模量产能力的厂商极少。国内水晶光电参与一部分Filter镀膜工艺。福晶科技曾为JDSU、Finisar等光通信企业供给通信级准直镜头,有望拓展进军消费级准直镜头领域。华天科技和晶方科技在WLO方面布局较早,主要提供WLO加工技术。


2. RX接收部分(IR Camere,主要为红外光图像传感器IR CIS)


3D结构光方案中,RX红外接收部分主要为一颗红外摄像头。该红外摄像头主要包括三部分:红外CMOS传感器、光学镜头、红外窄带干涉滤色片。


在基本结构上与目前主流的可见光摄像头类似,但是在具体的零部件方面存在差异:


① 可见光CMOS传感器需要识别RGB三色,对分辨率的要求高,红外CMOS只需要识别近红外光,分辨率要求不高;


② 可见光摄像头需要红外截止滤色片将红外光截止掉,只通过可见光,而红外摄像头只通过特定波段的近红外光,而将可见光截止掉,因此需要窄带滤色片;


③ 由于可见光摄像头对图像分辨率要求高,因此光学镜头的设计非常复杂,红外摄像头对光学镜头的要求不高。


  • 红外CMOS传感器


红外CMOS图像传感器(IRCIS)用来接收被手部或脸部反射的红外光,在技术上这是一个比较成熟的器件。目前3D视觉刚刚起步,不同厂商采用的图像识别方案不同,对红外CMOS的要求(如分辨率、响应速度等)不同,因此在3D视觉方案中所需的红外CMOS需要特制。


目前,红外CMOS图像传感器供应商主要包括意法半导体、奇景光电、三星电子、富士通、东芝等公司。


此外,红外CMOS传感器有一个较大的问题就是散热困难,使得整个芯片需要额外增加金属散热片。


  • 红外窄带干涉滤色片


对于3D视觉而言,红外摄像头与可见光摄像头在滤色片方面存在较大的差异。在3D视觉产品中,红外摄像头为了减少环境可见光线的干扰,普遍采用窄带干涉滤色片,只允许特定波段的近红外光(如发射端光源波段相对应)通过。


近红外窄带滤色片主要采用干涉原理,需要几十层光学镀膜构成,具有较高的技术难度,因而比传统截止型滤色片的价值高。


目前国际上除了VIAVI之外,近红外窄带干涉滤色片的供应商还有布勒莱宝光学(Buhler)、美题隆精密光学(Materion)、波长科技(Wavelength)等公司。国内方面,水晶光电在滤色片领域技术实力强,具有国际竞争力,是全球范围内滤色片的重要供应商之一。目前行业内主要供应商为VIAVI和国内的水晶光电,这两家也是苹果iPhoneX的窄带滤光片供应商。


  • 红外摄像头对光学镜头的要求不高


红外摄像头对光学镜头的要求不如可见光摄像头的要求高,对光线的通光量、畸变矫正等指标容忍度高,目前3D视觉产品多采用成熟的普通镜头,国外光学镜头供应商包括大立光、玉晶光电、关东辰美等,国内方面舜宇光学、联创电子、旭业、川禾田等公司均可提供。


3. RGB可见光图像传感器(Vis CIS)


在3D视觉体系中,无论是结构光方案,还是TOF方案,红外光线的作用都是采集深度Z轴信息,从而确定物体的景深信息,而物体的平面XY轴信息需要借助普通可见光摄像头进行采集,因此可见光摄像头对于3D视觉而言不可或缺。


但是,目前智能手机普遍至少配有两颗可见光摄像头(一颗前置、一颗后置),所以智能手机搭载3D视觉之后,并不需要额外增加可见光摄像头,直接利用手机上已有的摄像头即可,因此,3D视觉并未给可见光摄像头带来新的增量。


4. 专用图像处理芯片(Processor Chip)


图像处理芯片需要将红外光CIS采集的位置信息与可见光CIS采集的物体平面信息处理成单像素含有深度信息的三维图像,完成3D建模,其数据处理和计算复杂度高于一般传统ISP图像处理芯片。因此,多为3D视觉方案厂商根据自家方案自行设计或与传统ISP巨头合作研发。


该芯片具有较高的技术壁垒,尤其是算法层面的要求较高,需要根据3D视觉方案处理深度信息,目前全球范围内可以提供该类产品的公司为少数几家芯片巨头,包括意法半导体、德州仪器、英飞凌等。


除了核心图像处理芯片之外,整个3D视觉方案还需要众多辅助性芯片,如音频处理、视频处理、存储、模拟、普通相机控制等,这些芯片已经非常成熟,在消费电子产品中大量应用。同时智能手机上已经搭载众多辅助性芯片,因此3D视觉可直接使用已有的芯片。


5.系统模组制造与组装——难度大、价值高


由于3D视觉方案涉及较多的硬件部分,需要红外发射激光器、红外接收摄像头、可见光摄像头、图像处理芯片四大部分的协同合作。特别是红外光的发射与接收之间的匹配对整个3D视觉方案的识别效果和准确度至关重要,因此整个系统模组的封装和集成是非常关键的。


移动端3D视觉模组制造难度大,主要体现在:


① TX发射端含有的DOE和WLO等精密光学元件,在组装时需要非常高的精确度,采用高难度的同轴度调整;


② 发射端含有的VCSEL激光器,需要进行光谱检测和校准;


③ TX发射端、RX接收端和可见摄像头是彼此独立的,三者在空间位置上的准确度和稳定性对于最终3D成像效果而言非常关键,需要高难度的匹配和校准。


苹果3D视觉模组的组装(包括TX发射端组装、RX接收端组装、系统组装)将由富士康(系统组装与RX接收端组装)、LG Innotek(TX发射端组装)、Sharp(RX接收端组装)等几家公司负责。国内方面,除了舜宇光学之外,欧菲光、丘钛科技等摄像头模组公司也具有较强的技术实力。


(三)TOF技术原理


3D TOF(Time of Flight,飞行时间)技术就是计算光线飞行的时间,首先让装置发出脉冲光,并且在发射处接收目标物的反射光,藉由测量时间差算出目标物的距离,从而创建物体或场景的3D深度图。TOF系统是一种光雷达(LIDAR)系统,可从发射极向对象发射光脉冲,接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。


TOF系统可同时获得整个场景,确定3D范围影像。利用测量得到的对象坐标可创建3D影像,并可用于机器人、制造、医疗技术以及数码摄影等领域的设备控制。

 


整个三维视觉系统的工作原理为:首先红外激光发射器(IR LD)发射出近红外光(IR Light),经过人手或人脸的反射之后,被红外图像传感器(IR CIS)所接收,这个图像信息用来计算人手所处的位置(Z轴);同时,可见光图像传感器采集二维平面(X与Y轴)的人手信息(Vis Light);两颗图像传感器的信息汇总至专用的图像处理芯片,从而得到人手或人脸的三维数据,实现空间定位。

 


TOF与结构光的区别在于对红外光的使用方式不同,TOF通过计算红外光发出光线与返回光线之间的向位移变化换算为位置信息,而结构光依靠向物体投射一系列光线图案组合,然后通过检测光线的边缘来测量距离,二者的硬件结构是类似的。


TOF技术具备抗干扰性强、FPS刷新率更高的特性,因此在动态场景中能有较好表现。另外TOF技术深度信息计算量小,对应的CPU/ASIC计算量也低,因此对算法的要求更低。但相对于结构光技术,TOF技术的缺点在于其3D成像精度和深度图分辨率相对较低,功耗较高。


  • 3D视觉TOF方案产品整体结构分析


通过详细分析微软Kinect二代(TOF原理),可以看到TOF方案的主要硬件结构为:红外光发射器(IR LD)、红外光图像传感器(IR CIS)、可见光图像传感器(Vis CIS)、图像处理芯片。


TOF与结构光的硬件结构是类似的,比较明显的区别在于,在红外光发射端,结构光由于需要形成特定光学图案,所以需要添加特制DOE(衍射光栅)和Lens(光学棱镜)。


(四)主动双目技术原理


深度传感器(Depth sensors)为许多难题提供了额外的3D信息,如非刚性重构(non-rigid reconstruction)、动作识别和参数跟踪,从而给计算机视觉带来了革新。虽然深度传感器技术有许多类型,但它们都有明显的局限性。其中,飞行时间系统(Time of flight systems)容易遭受运动伪影和多路径的干扰,结构光(structured light)容易受到环境光照和多设备干扰。在没有纹理的区域,需要昂贵的全局优化技术,特别是在传统的非学习方法中,passive stereo很难实现。


主动双目立体视觉(Active stereo)提供了一种潜在的解决方案:使用一对红外立体相机,使用一个伪随机模式,通过图案化的红外光源对场景进行纹理化。通过合理选择传感波长,相机对捕获主动照明和被动光线的组合,提高了结构光的质量,同时在室内和室外场景中提供了强大的解决方案。

 


虽然这项技术几十年前就提出了,但直到最近才出现在商业产品中。因此,从主动双目立体图像中推断深度的先前工作相对较少,且尚未获得大规模的ground truth训练数据。


英特尔RealSense远距离的3D摄像头,英特尔使用“双目主动立体成像原理”,需要两颗红外传感器。它模仿了人眼的“视差”原理,通过打出一束红外光,以左红外传感器和右红外传感器追踪这束光的位置,然后用三角定位原理来计算出3D图像中的“深度”信息。

 


优势:双目视觉的方案不容易受到环境光线的干扰,适合室外环境,满足7*24小时的长时间工作要求,不易损坏。而且,由于不涉及光学系统,因此双目视觉的成本是三种深度感知方案中最低的。


缺点:这种技术需要庞大的程序计算量,对硬件设备有一定配置要求,同时受外界环境影响大,比如环境光线昏暗、背景杂乱、有遮挡物等情况下不适用。


应用:目前应用在智能安防监控、机器人视觉、物流检测等领域。市场上的典型的产品有LeapMotion,大疆无人机等。

 

三种技术方案对比


TOF(Time of Flight飞行时间)技术

 结构光技术

 双目视觉技术

原理

计算光线飞行的时间,首先让装置发出脉冲光,并且在发射处接收目标物的反射光,藉由测量时间差算出目标物的距离,从而创建物体或场景的3D深度图。

一种主动式光学测量技术,其基本原理是由结构光(有特殊模式的光,比如离散光斑,条纹光,编码结构光等等投射器向被测物体表面投射可控制的光点、光条或光面结构,并由图像传感器(如摄像)获得图像,通过系统几何关系。利用三角原理计算得到物体的三维坐标。

双目方案,即采用两个摄像头来检测深度信息。原理就像我们人的两只眼睛用两个视点观察同一景物,以获取在不同视角下的感知图像,然后通过三角测量原理计算图像的视差来获取景物的三维信息。

硬件组成

红外光发射器(IR LD)、红外光摄像头(IR CIS)、可见光摄像头(Vis CIS)、图像处理芯片,红外摄像头需要特制的窄带滤色片,另外结构光方案还需要在发射端添加光学棱镜与光栅,双目立体像多一颗IR CIS

分辨率

高    

取决于投影图形

取决于COMS分辨率

深度精度

mm~cm

mm~cm

mm~cm

延迟

主动照明

低光性能

高光性能

模块大小

成本

算法难度

对比

TOF方案抗干扰性能好,视角更宽,深度精度与扫描速度更好,但是由于传感器芯片并不成熟,集成难度高,成本较难降低

结构光方案深度图像分辨率可以做得比较高,不需要特制的感光芯片,只需要普通的CMOS感光芯片,这类方案的成本大大降低容易受光照影响,室外环境干扰较大。

由于双目技术原理简单不需要使用特殊的发射器和接收器,只需要在自然光照下就能获得三维信息,所以双目技术具有系统结构简单、实现灵活和成本低的优点。适合于制造现场的在线、产品检测和质量控制不过双目技术的劣势是要求两个摄像头之间的距离尽可能远,同时算法复杂,计算量大而且光照较暗或者过度曝光的情况下效果差。


目前,3D传感主流应用技术为结构光与TOF。两种传感技术从原理上决定了其应用领域的不同。深度信息精准度方面,散斑结构光发射光源具有一定随机性,安全性最高,深度信息最为精准;而TOF深度信息精准度与发射光强度和图像传感器精度有关,精准度通常低于结构光方案。结构光目前可达1280*800,而TOF最高精度约为640*480。



测量距离方面,结构光需投射散斑或编码等结构性图案,远距离光强衰减过快,方案易失效;而TOF采用面光源,抗衰减好,适用测量距离更远。结构光测量距离在1.2m以内,TOF最高测量距离在5m至10m。而在算法复杂度、扫描响应速度、弱光与强光适应性以及硬件成本等方面上,TOF方案均优于结构光。


因此,结构光3D方案适用于对安全性要求高而测量距离较低的场景,例如人脸识别、AOI检测等。而TOF方案应用更加宽广,例如3D建模、游戏、导航、汽车避障、自动驾驶、手势捕捉、导航、AR等各个方面。

 

|行业应用—消费与汽车为3D传感市场的最大增长引擎

3D传感未来的主要增长引擎在手机与汽车领域。手机端以结构光(FaceID)和TOF(3D建模功能开发)方案为主,汽车端以TOF摄像头为主进行测距、避障、自动驾驶以及车主识别等功能开发。


长城证券研究所预测:根据手机和汽车摄像头出货量以及渗透率对2019~2021年的3D感测模组市场空间进行判断,预计2020年3D感测模组出货量合计3.55亿颗,对应市场规模约55.5亿美元。其中,iPhone手机将成为2020年3D传感出货主要拉动力,预计iPhone12Pro/Max将采用前置结构光+后置TOF结构,iPhoneSE2不采用3D传感器,对应前置结构光出货量合计约为1.7亿颗,后置TOF出货量合计约为0.4亿颗。2020年预计iPhone合计3D传感模组约2.1亿颗,占比约59。


消费与汽车将成为3D传感市场的最大增长引擎,其中消费端以手机为主要市场将占据,3D传感的绝大部分份额:


全面屏成为高端手机趋势的情况下,正面的指纹识别方案或变成屏下指纹方案(光学或者超声波),或变成“额头”上的识别方案(人脸识别或者虹膜识别),而在屏下指纹方案并不非常成熟(全屏幕指纹扫描的成本高以及解锁速度较慢),虹膜识别并未得到广泛认可的情况下,3D成像将成为首选方案。


在AR手机必将成为大趋势的背景下,3D成像及深度感知功能是实现AR功能的前提。从苹果的布局看AR手机的大趋势:从2010年收购PolarRose起,苹果已先后收购近十家涉及机器视觉、增强现实技术的公司。ARKit和ARcore的相继推出,进一步验证了这种趋势。借助iOS和安卓两大平台,将直接累积数亿的AR用户,并带来海量的AR应用。

 

  • 双目方案要求两个摄像头之间的距离尽可能远,同时对运算算法的要求非常苛刻,因此智能手机采用双目方案的3D视觉效果不及预期。


  • 3D结构光虽然识别距离相对较短(作用距离大约0.2米到1.2米,甚至更远一点),模组结构也比较复杂,成像容易受强光干扰,成本也相对较高,但是其通过一次成像就可以得到深度信息,能耗低、成像分辨率高,非常适合对安全级别要求较高的3D人脸识别、3D人脸支付等方面的应用。而且由于苹果iPhoneX的率先应用3D结构光技术的带动,该技术目前已经非常成熟。


  • TOF技术虽然3D成像精度和深度图分辨率相比结构光要低一些,功耗较高,但是其优势在于识别距离更远,可以做到0.4米到5米左右的中远距离识别,抗干扰性强,而且FPS刷新率更高,这也使得TOF技术不仅可以应用于3D人脸识别、3D建模等方面,还可适用于环境重构、手势识别、体感游戏、AR/VR等多方面的应用,相比结构光技术应用面更广。得益于作用距离更远、应用面更广,可以为智能手机带来更多更好玩的应用体验,TOF大有后来居上之势。


  • 自2017年9月苹果iPhoneX发布搭载结构光3D感测功能后,安卓阵营逐步推广3D感测功能。至今,全球已发布结构光手机型号7款,TOF手机型号13款,其中2款手机前后各搭载一颗TOF摄像头。从已上市的手机来看,苹果手机前置采用散斑结构光实现面部解锁功能;安卓手机2018年有4台手机跟进结构光技术,小米采用编码结构光简化算法难度。结构光技术由于成本高、量产难度大以及算法复杂,目前在安卓阵营推广较慢。


  • 2019年,安卓手机大量推广使用TOF摄像头,总计13款机型。荣耀V20与华为nova5Pro机型价位仅为2999元,3D感测功能正式走向中低端机型。华为Mate30Pro与三星S105G前后各搭载一颗TOF摄像头,有望引领2020年新机潮流。2019年可谓手机端TOF摄像头元年,预计2020年TOF摄像头渗透率仍将进一步提升。

 

|产业链


分析整个产业链的结构,无论是结构光方案、TOF方案,还是双目立体成像方案,主要可以划分为:综合技术方案提供商、算法与软件商、硬件供应商三部分。


3D传感模组硬件又可以划分为四大元器件(红外发射器、红外CIS摄像头、可见光CIS摄像头、图像处理芯片,另外红外摄像头需要特制的窄带滤色片,结构光方案需要发射端光学棱镜与DOE光栅,双目立体成像方案多一颗红外CIS摄像头)。


3D传感模组通常由红外发射端、接收端以及图像处理芯片组成。结构光与TOF方案解码原理不同,但所需核心部件基本相同。发射端主要包括红外光源、准直镜头、DOE、模组组装等;接收端主要包括透镜、窄带滤光片、红外CIS等组件。


此外,3D传感器通常配合普通2D彩色镜头模组使用,彩色镜头即为原手机摄像头,非增量组件。3D传感图像处理芯片需将普通镜头模组拍摄的2D彩色图片和IR接收模组获取的3D信息集合,经算法处理得到具备3D信息的彩色图片;图像处理芯片包含核心算法,价值量较高。


(一) 硬件成本占比


3D传感器模组中各组件成本占比分别为:发射端占比约53.6、接收端占比19.1、图像处理芯片占比约3D传感器模组中各组件成本占比分别为:发射端占比约53.6%、接收端占比19.1%、图像处理芯片占比约27.3%。发射端中,VCSEL单颗价值量约2~2.5美金,占比约12.6%;准直镜头(由WLO技术生产)单模组价值量约3.5美金,占比约19.1%;衍射光学元件(DOE)单颗价值量约为2~3美金,占比约10.9%;模组组装单颗价值量约2美金,占比约10.9%。3D传感单颗模组成本约10~20美金,其中结构光模组精度要求更高,单颗成本约20美金;TOF成本相对较低,约10~15美金。

 

(二)3D传感模组产业链


在3D传感全球供应体系中,苹果率先抢占全球成熟资源,进入苹果产业链的供应商均为各细分领域领军企业。目前,苹果结构光Face ID方案应用成熟,客户认可度高,出货量远超非苹体系;而随着苹果手机新机型逐渐发布,据传iPhone12将加入后置TOF摄像头,届时将对苹果供应链各环节生产能力带来挑战,有望新增供应商。目前,国内厂商在窄带滤光片(水晶光电)和接收端模组组装(欧菲光)已进入苹果3D传感产业链。


3D传感模组苹果产业链梳理:

 

非苹产业链紧跟苹果产业链,多家厂商在原有业务上进行拓展,或者同时供应苹果与非苹果产业链。在非苹果产业链中,IR接收端与2D彩色镜头中大部分元器件主要是对存量产品应用领域的进一步扩大,除IRCIS与窄带滤光片外,其余元器件供应商主要为传统摄像头供应体系的拓宽与延续,价值量相对发射端要小。


3D传感模组非苹果产业链:

3D传感供应体系中,发射端VCSEL、DOE、WLO、组装以及接收端IR CIS、Filter 为全新增量市场,相较于传统彩色摄像头而言创造了新的产业,价值量更大。


(三)发射端VCSEL——前景乐观,众厂商纷纷扩大产能


17年发布的iPhoneX,“点燃”了VCSEL行业的导火索,iPhoneX前置3D结构光人脸识别在业界引起了轩然大波,作为这项技术的基础,VCSEL则受到了市场史无前例的关注。半导体行业著名产业研究机构Yole曾在报告中指出,2018年,VCSEL整体市场规模达到了7.38亿美元,其中移动和消费类VCSEL应用创造了5.53亿美元的市场营收,预计到2024年将达33.82亿美元,复合年增长率达35%,无疑是3D传感市场中增长最迅猛的应用领域。


据麦姆斯咨询报道,良好的iPhoneX销量引发其它安卓(Android)智能手机品牌厂商对3D传感功能的强烈兴趣。在iPhoneX发布不到一年的时间里,安卓竞争对手们也开始采用类似的策略,集成各种3D传感技术和人脸识别功能,VCSEL“杀手级”应用获得了市场认可!小米和OPPO的速度是最快的,2018年第二季度分别推出了小米8探索版和OPPO Find X两款集成3D传感技术的智能手机。其它Android智能手机厂商,如华为、vivo和三星,也陆续把VCSEL用于旗舰手机。预计VCSEL出货量将从2017年的6.52亿颗增长至2023年的33亿多颗,2017~2023年的复合年增长率高达31%。相比Finisar的3亿颗VCSEL出货量,Philips Photonics的出货量已经超过10亿颗。2018年,Philips Photonics投资了2300万欧元,使其位于德国乌尔姆的VCSEL工厂产能翻了一番。而总部位于奥地利的艾迈斯半导体(AMS),则宣布将斥资2亿美元在新加坡扩建VCSEL制造厂。国内VCSEL行业的起步较晚,此前能够大规模生产VCSEL的厂家大部分集中于欧美日。近年来,面对巨大的市场,加之国家扶持半导体产业发展政策的推动,在国内一些老牌厂商纷纷开始进军VCSEL芯片市场的同时,还催生了一大批初创企业。


粗略统计,截止目前,国内布局该领域的厂商超过10家。其中最关注的莫过于武汉光迅科技(002281.SZ)、江苏华芯、山东太平洋、深圳源国、国星光电(002449.SZ)、华工科技(000988.SZ)、三安光电(600703.SZ)以及台湾厂商全新光电(2455.TW)、晶元光电(2448.TW)、环宇(4991.TW)及给苹果供应商VCSEL芯片的穩懋(3105.TW)。


在VCSEL代工领域,我国台湾厂商稳懋占据全球主要份额,其与Lumentum紧密合作而成为苹果核心供应商。而宏捷科则拥有AMS入股,未来有望随着AMS而切入3D传感领域。VCSEL代工涉及化合物半导体晶圆加工,具有较高难度。而大陆地区化合物半导体厂商近年加大资金与研发投入,有望实现弯道超车。


(四)准直镜头(WLO技术)


目前,WLO技术主要掌握在Heptagon(被AMS收购)、Himax奇景光电、VisEra采钰、Anteryon(被晶方科技收购)等厂商手中,其中Heptagon拥有大部分专利。WLO技术具有很高技术壁垒,全球具备规模量产能力的厂商极少。国内水晶光电参与一部分Filter镀膜工艺。福晶科技曾为JDSU、Finisar等光通信企业供给通信级准直镜头,有望拓展进军消费级准直镜头领域。华天科技和晶方科技在WLO方面布局较早,主要提供WLO加工技术。


(五)衍射光学元件DOE


光学衍射元件DOE的制造门槛较高,苹果手机DOE组件由台积电采购玻璃后进行pattern,精材科技将台积电pattern后的玻璃进行堆叠、封装和研磨,然后交采钰进行ITO工序,最后由精材科技进行切割。台积电、精材与采钰均为台系厂商;其中,台积电持有精材40.94股份,采钰为台积电与豪威合资设立的子公司。


此外,台湾地区的奇景光电也具有生产DOE的能力,目前正与高通合作。福晶科技为微软AR眼镜HoloLens联合研发DOE等相关元件,福晶科技主要从事各类功能晶体元器件、精密光学元器件和激光器件的研发、生产和销售。大陆初创公司驭光科技成立于2016年,主要从事设计与生产DOE产品;目前已进入安卓手机3D传感核心器件供应商,全资子公司嘉兴驭光光电可规模量产DOE器件。


(六)窄带滤光片


目前国际上除了VIAVI之外,近红外窄带干涉滤色片的供应商还有布勒莱宝光学(Buhler)、美题隆精密光学(Materion)、波长科技(Wavelength)等公司。国内方面,水晶光电在滤色片领域技术实力强,具有国际竞争力,是全球范围内滤色片的重要供应商之一。目前行业内主要供应商为VIAVI和国内的水晶光电,这两家也是苹果iPhoneX的窄带滤光片供应商。


(七)综合技术方案提供商


国内从事深度摄像头综合技术方案的主要公司包括:TOF方案——舜宇光学、深圳乐行天下,结构光方案——深圳奥比中光、南京华捷艾米,双目立体成像方案——上海图漾科技。


值得一提的是,2018年6月,搭载奥比中光3D摄像头的OPPO FindX发布,使其成为第一款搭载3D摄像头的安卓手机,累计超过200万套的出货量,在低功耗、高准确率、高级程度等方面表现良好。


奥比中光企业历程:


(八)系统模组封装与集成供应商


在联想Phab2 Pro手机中,3D深度相机的模组封装与集成由舜宇光学完成。欧菲光、丘钛科技等相机模组制造商,由于在相机模组制造方面积累了丰富的经验,具备发展相应技术的潜力。


/总结/


机器视觉为工业赋予慧眼,在现代制造业占据重要地位。我国机器视觉经历了启蒙期--探索期--高速成长期。伴随着3D传感行业的迅猛发展,机器视觉迎来轰轰烈烈的第四次视觉革命。从之前的2D平面“视界”进化到3D立体“视界”,刷脸支付、Face ID、VR、无人便利店、智能机器人等人工智能产品从实验室走向普罗大众身边。


目前,3D传感的主流技术包括:双目视觉、结构光与TOF(Time of Flight)。三种技术各有千秋,双目视觉与结构光主要基于三角定位原理测距。3D TOF技术主要是计算光线飞行的时间,让装置发出脉冲光,并且在发射处接收目标物的反射光,藉由测量时间差算出目标物的距离,从而创建物体或场景的3D深度图。


在行业应用中,消费与汽车将成为3D传感市场的最大增长引擎,其中消费端以手机为主要市场将占据,3D传感的绝大部分份额。


3D传感供应体系中,发射端VCSEL、DOE、WLO、组装以及接收端IR CIS、Filter为全新增量市场,相较于传统彩色摄像头而言创造了新的产业,价值量更大。