自动驾驶摄像头像素如何影响算力?

[首发于智驾最前沿微信公众号]之前和大家聊过一个话题,那就是激光雷达线束对算力的影响。摄像头作为自动驾驶非常关键的另一个感知硬件,其像素大小是否会影响算力消耗?

其实从早期的1.2兆像素(1.2MP)到如今主流的8兆像素(8MP),甚至更高分辨率,像素的提升直接决定了车辆能够“看多远”和“看多清”。不同于激光雷达,摄像头像素的增加会对整车算力平台提出更为严苛的要求。这种要求不仅体现在原始数据的吞吐量上,更体现在后端神经网络推理的复杂度、图像信号处理器(ISP)的处理压力以及内存带宽的占用上。

图像信号处理与物理吞吐的连锁反应

摄像头之所以在自动驾驶中非常重要,主要是因为其对纹理、色彩及交通标志等语义信息的捕捉能力非常优异,这是激光雷达和毫米波雷达难以企及的。随着自动驾驶等级从L2向L4/L5迈进,系统需要识别更远距离的小物体,这便驱动了摄像头从低分辨率向高分辨率的进化。

高像素摄像头带来的直接优势是更高的像素密度,这意味着在相同的视野范围内,远端物体能分得更多的像素点,从而提高深度学习模型对该物体分类和检测的准确率。

像素的增加除了带来性能上的提升,更带来了巨大的数据吞吐压力。图像传感器捕获的每一帧画面,本质上都是海量电信号的集合。以一个8MP的摄像头为例,在60帧每秒(fps)的运行频率下,每秒产生的数据点高达4.8亿个。在自动驾驶感知方案中,全车可能配备11个甚至更多的摄像头,这意味着每秒钟会有数千兆字节(GB)的原始图像信号涌入计算平台。

图片源自:网络

这种量级的数据流首先冲击的就是图像信号处理器(ISP)。ISP负责将传感器捕获的“裸数据”转化为机器可理解的格式,这中间涉及去噪、色彩校正、动态范围压缩等一系列复杂的数学运算。

像素越高,ISP在单位时间内需要处理的像素点就越多。ISP虽然是高度集成的硬件模块,但其功耗和发热量仍会随处理负荷线性增长。为了应对这一挑战,汽车芯片架构正经历从分立ISP向集成SoC(系统级芯片)转变。将ISP功能整合进主算力芯片,可以显著减少图像数据在不同板载组件之间传输时的延迟和功耗。

即便如此,高分辨率带来的“数据搬运费”依然昂贵。在自动驾驶计算单元内部,数据从接口到内存、再到处理器核心的每一次迁移,都需要消耗微焦耳级别的能量。在数亿像素的规模下,这种细微的能耗累积起来,便会构成大量的系统辅助功耗。

内存带宽是另一个与像素息息相关的关键指标。当高像素图像数据被缓存进内存以供AI引擎读取时,它会占用大量的LPDDR5等高速内存资源。如果带宽不足,图像处理就会出现掉帧或延迟,这在高速行驶的场景下是极其危险的。

从局部特征到全局注意力的计算

真正让高像素摄像头成为算力消耗大户的,是后端的深度学习推理过程。目前主流的自动驾驶感知算法大多基于卷积神经网络(CNN)或视觉变换器(Transformer)。在这些模型中,计算复杂度与输入图像的分辨率呈正相关,而在一些先进的注意力机制架构中,计算量的增长甚至是像素数量的平方关系。

图片源自:网络

在CNN架构下,神经网络通过一个个“卷积核”在图像上滑动来提取特征。当图像分辨率从2MP增加到8MP时,特征图的大小也同步扩张,这意味着卷积操作的次数增加了四倍。

虽然可以通过步长跳跃或池化技术来压缩特征图,但这样做会牺牲高像素带来的细小物体检测能力,从而抵消了升级传感器的初衷。

而对于更先进的Transformer架构,它需要计算图像中不同区域之间的关联性。这种“全局注意力机制”在处理百万级像素的图像时,会产生极其庞大的相关性矩阵,对算力芯片的算术逻辑单元(ALU)造成巨大的并发压力。

下表对比了典型视觉感知模型在不同输入分辨率下的计算需求(以FLOPs衡量):

模型类型

输入分辨率

像素规模(MP)

典型计算量(FLOPs)

算力占用比(相对1MP)

轻量级CNN(YOLO-n)

640×640

0.4

~8GFLOPs

0.4x

主流CNN(YOLO-m)

1280×1280

1.6

~50GFLOPs

1.6x

高端视觉Transformer

1024×1024

1.0

~150GFLOPs

1.0x

高端视觉Transformer

2048×2048

4.0

~600+GFLOPs

4.0x+

可以看到,随着分辨率的提升,AI芯片每秒需要执行的浮点运算次数迅速攀升。为了在有限的芯片面积内实现这种高性能,像英伟达Orin或特斯拉FSD的芯片必须集成数以千计的核心,这直接导致了SoC功耗的上升。

此外,为了训练能处理高像素的模型,云端训练的算力需求也呈指数级增长。如果希望在不增加延迟的前提下提升分辨率,就必须寻找更高效的算子或采用模型量化技术,但这本质上是在利用算法的精细化去对冲像素增长带来的资源赤字。

自动驾驶感知不仅是检测障碍物,还包括语义分割,即给图像中的每一个像素点贴上“属性标签”(路面、人行道、树木、天空)。在高像素模式下,这种全像素级别的分类任务会让算力平台陷入无休止的计算中。

目前行业内的应对策略是采用“非均匀采样”或“多尺度融合”,即在视野中心使用高分辨率进行精细识别,而在视野边缘或不重要的天空区域使用低分辨率,以此来平衡精度与算力。

为什么激光雷达能减负而摄像头只能增重?

激光雷达通过发射激光束并测量回波时间来直接获取三维空间坐标。激光雷达的线束越多,点云就会越密集。对于后端算法来说,点云越密集,物体的轮廓就越清晰,算法不再需要耗费大量的算力去猜测物体的距离或尺寸,只需要简单的聚类和几何分割就能完成感知任务。因此,在某种程度上,激光雷达是用硬件的昂贵和数据的稠密,换取了感知逻辑的简化。

摄像头的情况则恰恰相反。作为一种被动传感器,摄像头捕获的是三维世界在二维平面上的投影。即使像素达到了8MP甚至更高,它依然缺乏直接的深度信息。感知系统必须通过复杂的神经网络,根据物体的纹理、阴影、重叠关系或双目视差来反推三维信息。

这意味着,摄像头像素的增加,只是提供了更丰富的“猜测素材”,而不是“现成的答案”。算法为了处理这些更丰富的细节,就需要更深的网络层数和更复杂的逻辑,从而推高了整体算力消耗。

图片源自:网络

这种差异决定了两种传感器的算力边际效益,激光雷达线束的提升在跨过某个阈值后,能够有效降低算法补盲和纠错的难度,甚至可能减少后端融合算法的复杂性。

而摄像头像素的提升,则更像是一场无止境的“计算竞赛”,因为像素越多,潜在的可解析信息量就越大,系统为了不浪费这些信息,不得不持续投入更多的算力进行深挖。

这种也解释了为null

您可以还会对下面的文章感兴趣:

暂无相关文章

使用微信扫描二维码后

点击右上角发送给好友