我院赵勇老师团队的双目视觉立体匹配算法登顶国际最权威排名,双目视觉算法是自动驾驶、无人机导航、以及智慧机器人自主行走的关键算法,对计算机视觉领域、对于三维立体感知等AI技术,是非常重要的。
2022年6月13号,该团队开发的双目视觉立体匹配算法EAIStereo,在双目视觉算法最权威、最专业的Middlebury Evaluation V3(明德学院https://vision.middlebury.edu/stereo/eval3/)排名评估中名列国际同行第一,其中对于非遮挡像素检测的平均准确率比排名第二的算法提升了5.3%(平均错误率从1.152降至1.091),对于所有像素的平均准确率提升8.6%(平均错误率从2.102降至1.921),相对第二名的算法具有显著性的提升,而且在几乎所有分项指标中均显著高于第二名。该算法性能超过了包括普林斯顿RAFTstereo、谷歌HITNet、牛津大学的GANet、东京大学LocalExp等算法。该项成果的论文也即将在今年的亚洲计算机视觉大会ACCA上发表( Haoliang Zhao, Huizhou Zhou, Yongjun Zhang, Yong Zhao, Yitong Yang, Ting Guiyang,EAI-Stereo: Error aware iterative network for stereo matching,to be presented at 16th Asian Conference on Computer Vision),论文主要工作是在赵勇老师课题组完成,论文工作过程中,还得到了陈杰老师非常具有建设性的指导建议。
该论文引入了错误感知的动态循环更新的方法,从而具有较高的精度、并且具有较好的泛化性,该项工作仍在继续进行当中。
部分双目视觉立体匹配的效果见下图:
虽然计算机视觉的能力在新一代人工智能技术-深度学习的驱动下得到大幅提升,但大多数都是在两维图像上,其最大的局限是缺乏立体信息和深度信息。因此,近年来,计算机视觉不断向3D图像发展,在最近重要的计算机视觉的相关会议如CVPR,ICCV, ECCV等会议上,有关3D视觉的研究占约三分之一到二分之一的分量。目前3D感知与建模主要依赖于激光雷达LIDAR,飞行时间TOF光栅以及结构光的方法,对于不连续的物体表面,遮挡等复杂情况,这些方法的3D重建会出现病态而且缺乏颜色及纹理信息从而限制了其广泛应用。
双目视觉是3D感知中一个最有潜力的、最拟人化的,能同时提供颜色和深度信息(完备的RGBD感知)的一种方法。在3D网格重建、SLAM(定位与建图)能力、场景认知能力和3D目标检测、3D目标识别、6D姿态检测、自动驾驶、室内导航、机器的定位与测量等方面有非常广泛的应用。
该团队近年来一直致力于双目视觉的立体匹配算法与网络的研究,已获双目视觉发明专利十多项,发表双目视觉期刊和会议论文50多篇,该团队正在将该实验室的双目视觉的研究成果应用于自动驾驶、无人机避障、机器人感知等领域,探索低成本、低功耗、高鲁棒性的双目视觉算法模组、产品或系统,促进双目视觉算法的产业化应用。
供稿人:曾鹏程