首页 > 全部资讯 > 行业新闻 > 脑科学启发 AI 突破:让计算机拥有类人视觉感知能力
芯达茂广告F 芯达茂广告F

脑科学启发 AI 突破:让计算机拥有类人视觉感知能力

近日,来自韩国基础科学研究院(IBS)、延世大学与德国马克斯・普朗克研究所的研究团队,公布了一项突破性人工智能技术 ——Lp-Convolution。这项受大脑视觉皮层工作机制启发的创新方法,首次实现了机器视觉在准确性、效率与生物逼真性上的三重提升,为计算机 “看懂” 世界开辟了全新路径。

一、传统 AI 视觉的瓶颈:从 CNN 到 Transformer 的困境

在计算机视觉领域,卷积神经网络(CNNs)作为主流模型,长期依赖固定尺寸的方形滤波器(如 3×3、5×5 卷积核)提取图像特征。这种 “机械扫描” 模式虽能识别局部细节,却难以捕捉碎片化数据中的整体关联,例如在复杂场景中精准定位关键目标。

近年来兴起的视觉 Transformer(ViTs)虽能通过全局注意力机制分析完整图像,但其对大规模算力和数据集的依赖,导致在自动驾驶、医疗影像等实时性要求高的场景中难以落地。如何平衡 “局部细节捕捉” 与 “全局语义理解”,成为困扰学界的核心难题。

二、Lp-Convolution:模拟大脑的动态特征提取器

研究团队从大脑视觉皮层的工作机制中获得灵感:人类视觉系统通过圆形稀疏连接选择性地聚焦关键信息(如视网膜神经节细胞的感受野结构)。受此启发,Lp-Convolution 引入多元 p 广义正态分布(MPND),使 AI 模型能够根据输入图像动态调整卷积核形状 —— 在需要时横向 “拉伸” 捕捉宽幅特征(如道路轮廓),或纵向 “压缩” 聚焦细节(如车牌字符)。

这一设计突破了传统 CNN 的 “固定核尺寸” 限制,有效解决了困扰学界多年的大核卷积难题:以往单纯增大卷积核尺寸(如 7×7)会导致参数爆炸却无法提升性能,而 Lp-Convolution 通过生物启发的动态连接模式,在保持计算效率的同时增强特征表达能力。

图:脑科学启发 AI 突破:让计算机拥有类人视觉感知能力

图:脑科学启发 AI 突破:让计算机拥有类人视觉感知能力

三、性能验证:更高精度、更强鲁棒性的视觉革命

在 CIFAR-100、TinyImageNet 等标准图像分类数据集测试中,Lp-Convolution 使经典 AlexNet 模型准确率提升 8.2%,现代 RepLKNet 模型提升 5.6%。更重要的是,当输入数据混入噪声或局部遮挡时,该方法的抗干扰能力比传统 CNN 高出 15-20%,显著提升了 AI 在真实场景中的可靠性。

神经科学层面的验证更揭示了其突破性:当 Lp-Convolution 的掩码模式接近高斯分布时,AI 模型的内部神经元激活模式与小鼠视觉皮层的神经活动呈现高度相关性。这表明,该技术不仅提升了算法性能,更在神经机制层面逼近人类大脑的工作原理。

四、应用场景:从实验室到真实世界的跨越

Lp-Convolution 的轻量化与高效性,使其在多个关键领域展现出变革潜力:

自动驾驶:动态调整感知焦点,快速识别突发障碍物(如道路上的行人与散落物体),缩短决策延迟;

医疗影像:精准捕捉 X 光片、CT 扫描中的细微病变(如早期肺癌结节),减少漏诊率;

服务机器人:在复杂家居环境中灵活识别目标物体(如区分相似餐具),提升操作适应性。

“人类能在拥挤场景中瞬间锁定关键信息,Lp-Convolution 正是模拟了这种能力。” 研究负责人、IBS 认知与社会性中心主任 C. Justin Lee 博士指出,“我们让 AI 像大脑一样‘思考’视觉问题,这为卷积神经网络注入了新的生命力。”

五、未来展望:通向通用人工智能的关键一步

目前,研究团队已将代码与模型开源,并计划在 ICLR 2025 国际会议上发表完整成果。下一步,他们将探索该技术在复杂推理任务(如实时图像语义分割、逻辑谜题求解)中的应用,推动 AI 从 “感知智能” 向 “认知智能” 迈进。

这项突破不仅是计算机视觉领域的里程碑,更揭示了一个重要趋势:向大脑学习正成为破解 AI 核心难题的关键钥匙。随着神经科学与机器学习的深度交叉,未来的智能系统或将真正具备人类般的灵活感知与决策能力,开启通用人工智能的新纪元。

相关新闻推荐

登录

注册

登录
{{codeText}}
登录
{{codeText}}
提交
关 闭
订阅
对比栏
对比 清空对比栏