新闻中心

 

近日,张健老师课题组的一篇关于压缩学习的研究成果“TransCL: Transformer Makes Strong and Flexible Compressive Learning”被国际顶级期刊TPAMI录用(论文地址:https://ieeexplore.ieee.org/abstract/document/9841016)。张健老师课题组主页:https://villa.jianzhang.tech/

TPAMI的全称是IEEE Transactions on Pattern Analysis and Machine IntelligenceTPAMI IEEE 计算机协会主办的顶级期刊之一,主要收录计算机视觉、图像理解、模式分析和识别、机器学习等领域的优秀研究成果。根据最新的JCR期刊影响因子排名, TPAMI24.314的高影响因子, 位列计算机领域所有IEEE旗下期刊的首位,同时也是全球AI领域的顶级期刊。

当下随着图像采集技术的不断发展,我们可获得的图像尺寸变得越来越大,这给数据的存储和传输带来了巨大的压力。但在很多情况下,我们并不关心图像的具体内容,只关注一些高层视觉任务的推理结果,例如图像分类和分割。本篇论文所研究的压缩学习就是,如何利用低功耗的图像采集设备,在采样少量图像内容的情况下,依然可以很好地完成高层视觉任务。这可以很好地降低高分辨率图像的存储和传输压力。然而,现有的压缩学习方法很难被应用到高分辨率图像和复杂图像推理任务上。本篇论文首次提出将基于块的压缩感知方法和Transformer结合,来处理高分辨率图像和复杂图像推理任务。

本文提出的压缩学习框架如图1所示,由一个压缩感知模块、一个骨干网络,和一个任务头构成。其中,压缩感知模块首先对场景图像进行块划分,然后对每个图像块进行压缩感知采样,输出一串感知序列。骨干网络采用了序列友好的Transformer结构,来进行特征提取。最后,由一个特定的任务头来执行图像推理任务。对应的网络结构如图2所示。

1. 压缩学习框架

2. 算法网络结构

本篇论文在图像分类和语义分割任务上进行了性能验证,分别如表1和表2所示。可以看到,相比与不进行数据采样压缩的方法,提出的压缩学习方法可以取得相近的性能。甚至在只采样1%数据量的情况下,依然可以取得很好的分类和分割性能。

1. 图像分类性能对比

2. 图像分割性能对比

本篇论文还对压缩学习进行了更深入的研究:(1)数据隐私保护。提出的方法的整个处理流程不会泄露图像内容信息。(2)单一模型支持任意采样率的输入。提出的方法只需要使用单一模型进行一次训练就可以处理任意采样率的压缩图像数据。(3)支持硬件友好的二值化采样矩阵。提出的方法可以以较高的推理性能,处理功耗更低的二值化采样矩阵得到的采样数据。(4)面对干扰的强鲁棒性。提出的方法相比与现有方法具有更高的抗干扰能力。

本篇论文的第一作者为bwin必赢张健老师课题组的硕士二年级学生牟冲同学,通讯作者为张健助理教授。以上研究工作得到了国家自然科学基金项目的支持。在算力方面得到了深圳鹏城实验室的“鹏城云脑”支持。

 

—— 分享 ——

上一篇:深视新闻对话王荣刚教授,超高清视频显示标准如何定义?

下一篇:田永鸿教授及其牵头的标准团队荣获IEEE SA两项年度奖项