光学预处理与CV结合，UCR学者用漩涡实现混合计算机视觉系统

首页 > AI资讯 > 最新资讯 > 光学预处理与CV结合，UCR学者用漩涡实现混合计算机视觉系统

光学预处理与CV结合，UCR学者用漩涡实现混合计算机视觉系统

新火种 2023-09-07

机器之心报道

作者：杜伟、小舟

在本文中，来自加州大学河滨分校机械工程系的研究者通过应用光学漩涡证明了混合计算机视觉系统的可行性。该研究为光子学在构建通用的小脑混合神经网络和开发用于大数据分析的实时硬件方面的作用提供了新见解。

从医学诊断到自动驾驶再到人脸识别，图像分析在现代技术中无处不在。使用深度学习卷积神经网络的计算机彻底改变了计算机视觉。但卷积神经网络（convolutional neural network，CNN）通过从预训练数据中学习来对图像进行分类，然而这些数据通常会记住或发展某些偏见。此外，数据还易于受到对抗性攻击（以极细微且几乎察觉不到的图像扭曲出现）的干扰，从而导致做出错误的决策。这些缺点限制了卷积神经网络的用途。

提升图像处理算法能效和可靠性的一种方法是将常规计算机视觉与光学预处理器结合起来。这种混合系统可以用最少的电子硬件工作。由于光在预处理阶段即可完成数学函数而不会耗散能量，因此使用混合计算机视觉系统可以节省大量时间和能源。这种新方法能够克服深度学习的缺点，并充分利用光学和电子学的优势。

今年 8 月份，在一篇发表于 Optica 的论文中，加州大学河滨分校机械工程系助理教授 Luat Vuong 和博士生 Baurzhan Muminov 通过应用光学漩涡（具有深色中心点的旋绕光波），证明了混合计算机视觉系统的可行性。光学漩涡可以比喻为光绕着边缘和角落传播时产生的流体动力漩涡。

研究表明，光学预处理可以降低图像计算的功耗，而电子设备中的数字信号识别相关性，提供优化并快速计算可靠的决策阈值。借助混合计算机视觉，光学器件具有速度和低功耗计算的优势，并且比 CNN 的时间成本降低了 2 个数量级。通过图像压缩，则有可能从存储和计算复杂性两方面大幅减少电子后端硬件。

Luat Vuong 表示：「本研究中的漩涡编码器表明，光学预处理可以消除对 CNN 的需求，比 CNN 更具鲁棒性，并且能够泛化逆问题的解决方法。例如当混合神经网络学习手写数字的形状时，它可以重建以前从未见过的阿拉伯或日语字符。」

该论文还表明，将图像缩小为更少的高强度像素能够实现极弱光线条件下的图像处理。该研究为光子学在构建通用的小脑混合神经网络和开发用于大数据分析的实时硬件方面的作用提供了新见解。

论文内容简述

深度学习卷积神经网络通常涉及具有较高计算成本的多层、前向 - 后向传播机器学习算法。所以，在本文中，研究者展示了卷积神经网络的替代方案，该方案从其光学预处理、傅里叶编码模式中重建原始图像。该方案对计算的需求少得多，并且具有更高的噪声鲁棒性，因此适用于高速和弱光照条件下的成像。

具体而言，该研究引入带有微透镜阵列的漩涡相位变换，以及浅层密集的「小脑」神经网络结合。单次编码孔径方法利用了傅里叶变换螺旋相位梯度的相干衍射、紧凑表征和边缘增强。使用漩涡编码可以训练小脑对图像进行去卷积操作，其速度比使用随机编码方案快 5 至 20 倍，且在存在噪声的情况下获得了更大的优势。

一旦训练完成，小脑就可以从 intensity-only 的数据中重建对象，从而解决了逆映射问题，而无需在每个图像上执行迭代，也无需深度学习方案。通过漩涡傅立叶编码，研究者在 15W CPU 上以每秒几千帧的速度重建以低光通量（5nJ / cm^2）照明的 MNIST Fashion 对象。最终，研究者证明了使用漩涡编码器进行傅立叶光学预处理在达到相似准确率的情况下，速度比卷积神经网络快 2 个数量级。

漩涡的知识可以扩展为理解任意波型。当带有漩涡时，光学图像数据会以突出显示并混合光学图像不同部分的方式实现传播。研究者指出，使用浅层「小脑」神经网络进行的漩涡图像预处理（仅需运行几层算法）就可以代替 CNN 发挥作用。

Vuong 还表示：「光学漩涡的独特优势在于其数学和边缘增强功能。在本文中，我们证明了，光学漩涡编码器能够以类似于一种小脑神经网络从其光学预处理模式快速重建原始图像的方式生成目标强度数据。」

方法

图 1 描述了该研究的成像方案，其中对象 F(r,Φ) 的多个图像被收集到傅立叶域中：透过每个微透镜的光由不同的漩涡和透镜 mask 模式 M_m(r,Φ) 调制；摄像机检测到菲涅耳（Fresnel）传播、漩涡傅里叶变换（vortex-Fourier-transformed）强度模式的缩放模平方图像。

其中，m 是漩涡拓扑电荷，r 和Φ是实域柱面坐标，而 u 和 v 是傅里叶平面笛卡尔坐标。漩涡傅里叶强度模式 F^~ 集中在相对较小的区域中，但随着 m 的增加，通常会呈越来越宽的甜甜圈形（图 1(b)）。对象「实域」中的漩涡相位在空间上编码并破坏了傅立叶变换强度模式的平移不变性，如图 1(c) 所示。

此外，该研究将一些小图像数据集视为对象输入，并比较 F(r,Φ) 中的不同表征。对于每个正实值数据集图像 X，相位变化的映射如下公式所示：

其中，α_0 是对象相位移动的动态范围。这种映射很方便，因为信号功率不随选择的 X 改变。研究者还考虑了 X 闭塞或吸收信号时不透明对象，即，这会产生相似的趋势。

归根结底，该研究有三项主要创新：（1）用漩涡透镜进行光谱特征的边缘增强；（2）在没有相似学得数据集的情况下对图像进行快速逆重建；（3）取决于层激活的抗噪声能力。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

Tags:

计算机视觉漩涡光学

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

光学预处理与CV结合，UCR学者用漩涡实现混合计算机视觉系统

台积电取得光学神经网络的半导体器件及设备专利，实现光学信号与电信号之间的高速转换

360亮相QCon全球软件开发大会，360智脑大模型备受关注

让大模型赋能数字重庆建设重庆市大模型联盟持续开展企业走访交流

吉大正元：公司将大模型技术与自身数字安全能力融合打造了正元昆仑大模型

大湾区元宇宙国际传播实验室与广东省艺术品行业协会签订战略合作框架协议

热门文章

全球首次！人形机器人将与人类一起跑“半马”

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

我国首个林草行业大模型研发成功

工学博士娄勤俭：我对人工智能有偏爱

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

人工智能概念股午后拉升，科创人工智能相关ETF涨近4%