本文核心观点

NOAI 2025 复赛第 4 题知识拆解：当训练标签是无效信号时，监督学习就行不通了——本文讲清无监督学习/聚类/边缘检测的应用。

NOAI 2025 复赛第4题 | 标签是假的：当监督学习行不通时

无监督学习聚类

用NOAI复赛真题，构建孩子的AI知识图谱

每个知识点后续都会单独展开讲解，欢迎先关注收藏

这道题在做什么

1,000张电商图片，判断哪些是"宫格图"（把多张图拼成格子形式的展示图）。训练集给了标签——但标签标的是"女装/美妆"，不是"宫格图/非宫格图"。

标签和任务不匹配。如果你直接拿这个标签训练，方向完全错误。

这道题的第一道关卡不是技术，是审题。

知识全景

前面7道题都是监督学习——有标签，训模型。这道题打破了这个前提，引入了无监督学习和传统计算机视觉的知识。

阶段	知识点
发现问题	① 标签审查与数据质量
无标签怎么办	② 无监督学习 ③ 聚类 ④ 降维
另辟蹊径	⑤ 传统计算机视觉（边缘检测）
综合决策	⑥ 半监督策略

① 标签审查与数据质量

前7道题，标签都是对的。你拿到数据，直接训练就行。但现实世界不是这样的。

在实际的AI项目中，数据质量是最大的挑战之一：

• 标签可能是错的（标注员犯了错）

• 标签可能是不一致的（不同标注员对同一张图给了不同的标签）

• 标签可能和任务不匹配（就像这道题——给你的标签是另一个任务的）

拿到数据的第一件事，不是急着训模型，而是看数据、看标签、确认它们和你的任务一致。

这道题把这个教训以最直接的方式摆出来：如果你不仔细读题，不检查标签，那你花在训练模型上的所有时间都是浪费的。

② 无监督学习

2024年第1题解释过：监督学习需要"输入+标签"的配对。这道题没有有效标签，属于无监督学习的范畴。

无监督学习不需要标签，它的目标是从数据本身发现结构和模式。常见的无监督学习任务包括：

• 聚类：把相似的样本归为一组（不告诉模型分几组、每组长什么样，让它自己发现）

• 降维：把高维数据压缩到低维，保留最重要的信息

• 异常检测：找出和大多数样本不一样的"异类"

• 生成模型：学习数据的分布，生成新的相似数据（2024年第2题的扩散模型也是一种）

无监督学习比监督学习难得多——没有标签做"参考答案"，模型缺少明确的优化方向。但在很多现实场景中（标注成本太高、根本不知道该标什么），无监督学习是唯一的选择。

③ 聚类

聚类是最常见的无监督学习方法。它的目标是把数据分成若干组，让同组内的样本尽量相似，不同组的样本尽量不同。

最经典的聚类算法是K-Means：

• 随机选K个点作为初始"中心"

• 把每个样本分配到离它最近的中心

• 重新计算每组的中心（取平均）

• 重复上面两步，直到中心不再变化

K-Means需要你预先指定K（分几组）。这道题的K=2（宫格图和非宫格图）。

但聚类的效果取决于你用什么特征来衡量"相似"。直接用像素值聚类效果很差——两张内容完全不同的非宫格图，像素差异可能比一张宫格图和一张非宫格图更大。

更好的做法是：先用预训练的CNN提取每张图的特征向量（比如512维），再对这些特征向量做聚类。CNN提取的特征比原始像素更能反映图像的语义内容。

④ 降维

用CNN提取的特征向量通常有几百维（比如ResNet18输出512维）。直接在高维空间做聚类效果不好——高维空间有一个反直觉的性质：所有点之间的距离趋于相等，"远近"的概念变得模糊。这叫维度灾难。

降维把高维数据投影到低维空间，同时尽量保留数据的结构。

最常用的降维方法是PCA（主成分分析）：找到数据变化最大的方向（主成分），只保留前几个主成分。比如把512维降到50维或2维。

降到2维时可以直接画散点图，肉眼观察数据有没有自然的分群——这对判断"聚类是否合理"非常有帮助。

另一种常用的降维方法是t-SNE，它更擅长保留数据的局部结构，画出来的散点图通常比PCA更直观。

⑤ 传统计算机视觉（边缘检测）

前面所有和图像相关的题目都用深度学习（CNN）来处理。但这道题有一个特点：宫格图有一个非常明显的视觉特征——规则的横线和竖线把图片分成几个区块。

这种特征不需要深度学习也能检测。传统计算机视觉中有成熟的工具：

边缘检测

• Canny边缘检测是最常用的算法。它能找出图像中亮度急剧变化的位置——也就是物体的轮廓、纹理的边界、颜色的分界线。

• 宫格图的分隔线在Canny检测中会表现为长直线。

直线检测

• 霍夫变换能从边缘图中找出直线。如果一张图中有多条长的横线和竖线，大概率是宫格图。

这些方法不需要训练数据，不需要GPU，运行极快。虽然精度不如深度学习，但在这道题中可以作为快速的初步方案。

传统CV的存在提醒我们：深度学习不是唯一的工具。对于有明确规则的简单任务，传统方法可能更快、更可靠、更可解释。

⑥ 半监督策略

这道题的最佳实践往往不是纯监督或纯无监督，而是半监督——把多种方法结合起来。

一种有效的流程：

• 用边缘检测做快速初筛，给1,000张图打上初步标签

• 人工核查一部分（比如200张），纠正明显的错误

• 用这些"半自动"标签训练一个CNN

• 用CNN预测剩下的图片，再抽查纠正

这种"机器初筛+人工纠正"的模式在实际AI项目中非常常见。完全手动标注太慢，完全自动又不够准，两者结合是效率和质量的最优平衡。

半监督学习是监督学习和无监督学习之间的过渡地带——它利用少量标注数据和大量未标注数据一起训练。在标注成本高的领域（医学影像、卫星图像等），半监督方法的价值尤其大。

这道题的价值不在于技术难度，在于它教了一件最基本但最容易被忽视的事：在动手训练模型之前，先确认你的数据和标签是对的。方向错了，跑得越快离目标越远。

NOAI 2025 复赛第4题 | 标签是假的：当监督学习行不通时

NOAI 2025 复赛第4题 | 标签是假的：当监督学习行不通时

获取 NOAI 真题包