卷积神经网络（CNN）

什么是CNN？

卷积神经网络（Convolutional Neural Network，CNN） 是一类专门处理具有网格结构数据（如图像）的深度学习模型。它通过卷积运算自动提取图像特征，是计算机视觉领域最重要的模型架构。

用一个小的矩阵（卷积核/滤波器）在图像上滑动，对覆盖区域做内积运算，提取局部特征。

卷积运算：将卷积核与图像对应区域的元素逐个相乘，再求和。

不同的卷积核可以提取不同的特征：

关键参数：

输出尺寸公式：output = (input - kernel + 2×padding) / stride + 1

通常在卷积层后接 ReLU 激活函数，引入非线性。

对特征图进行下采样（降维），减少参数量和计算量。

最大池化（Max Pooling）：取区域内的最大值

平均池化（Average Pooling）：取区域内的平均值

将卷积和池化提取的特征展平，送入传统神经网络进行分类。

需要先做维度转换：x = x.view(x.size(0), -1)，将四维张量展平为二维。

卷积层 → 激活(ReLU) → 池化层 → ... → 全连接层 → 输出层

可以有多个"卷积+激活+池化"块堆叠，逐步提取更高级的特征。

LeNet-5 是最早的CNN之一，用于手写数字识别：

两个矩阵对应元素相乘后全部求和，结果是一个标量。

A=[[1,1],[1,-1]], B=[[1,2],[3,4]]

内积 = 1×1 + 1×2 + 1×3 + (-1)×4 = 2

卷积核在大矩阵上滑动，每个位置做一次内积运算，结果是一个矩阵。