NOAI 2025 复赛第4题 | 标签是假的:当监督学习行不通时
无监督学习 聚类
用NOAI复赛真题,构建孩子的AI知识图谱
每个知识点后续都会单独展开讲解,欢迎先关注收藏
这道题在做什么
1,000张电商图片,判断哪些是"宫格图"(把多张图拼成格子形式的展示图)。训练集给了标签——但标签标的是"女装/美妆",不是"宫格图/非宫格图"。
标签和任务不匹配。如果你直接拿这个标签训练,方向完全错误。
这道题的第一道关卡不是技术,是审题。
知识全景
前面7道题都是监督学习——有标签,训模型。这道题打破了这个前提,引入了无监督学习和传统计算机视觉的知识。
| 阶段 | 知识点 |
| 发现问题 | ① 标签审查与数据质量 |
| 无标签怎么办 | ② 无监督学习 ③ 聚类 ④ 降维 |
| 另辟蹊径 | ⑤ 传统计算机视觉(边缘检测) |
| 综合决策 | ⑥ 半监督策略 |
① 标签审查与数据质量
前7道题,标签都是对的。你拿到数据,直接训练就行。但现实世界不是这样的。
在实际的AI项目中,数据质量是最大的挑战之一:
• 标签可能是错的(标注员犯了错)
• 标签可能是不一致的(不同标注员对同一张图给了不同的标签)
• 标签可能和任务不匹配(就像这道题——给你的标签是另一个任务的)
拿到数据的第一件事,不是急着训模型,而是看数据、看标签、确认它们和你的任务一致。
这道题把这个教训以最直接的方式摆出来:如果你不仔细读题,不检查标签,那你花在训练模型上的所有时间都是浪费的。
② 无监督学习
2024年第1题解释过:监督学习需要"输入+标签"的配对。这道题没有有效标签,属于无监督学习的范畴。
无监督学习不需要标签,它的目标是从数据本身发现结构和模式。常见的无监督学习任务包括:
• 聚类:把相似的样本归为一组(不告诉模型分几组、每组长什么样,让它自己发现)
• 降维:把高维数据压缩到低维,保留最重要的信息
• 异常检测:找出和大多数样本不一样的"异类"
• 生成模型:学习数据的分布,生成新的相似数据(2024年第2题的扩散模型也是一种)
无监督学习比监督学习难得多——没有标签做"参考答案",模型缺少明确的优化方向。但在很多现实场景中(标注成本太高、根本不知道该标什么),无监督学习是唯一的选择。
③ 聚类
聚类是最常见的无监督学习方法。它的目标是把数据分成若干组,让同组内的样本尽量相似,不同组的样本尽量不同。
最经典的聚类算法是K-Means:
• 随机选K个点作为初始"中心"
• 把每个样本分配到离它最近的中心
• 重新计算每组的中心(取平均)
• 重复上面两步,直到中心不再变化
K-Means需要你预先指定K(分几组)。这道题的K=2(宫格图和非宫格图)。
但聚类的效果取决于你用什么特征来衡量"相似"。直接用像素值聚类效果很差——两张内容完全不同的非宫格图,像素差异可能比一张宫格图和一张非宫格图更大。
更好的做法是:先用预训练的CNN提取每张图的特征向量(比如512维),再对这些特征向量做聚类。CNN提取的特征比原始像素更能反映图像的语义内容。
④ 降维
用CNN提取的特征向量通常有几百维(比如ResNet18输出512维)。直接在高维空间做聚类效果不好——高维空间有一个反直觉的性质:所有点之间的距离趋于相等,"远近"的概念变得模糊。这叫维度灾难。
降维把高维数据投影到低维空间,同时尽量保留数据的结构。
最常用的降维方法是PCA(主成分分析):找到数据变化最大的方向(主成分),只保留前几个主成分。比如把512维降到50维或2维。
降到2维时可以直接画散点图,肉眼观察数据有没有自然的分群——这对判断"聚类是否合理"非常有帮助。
另一种常用的降维方法是t-SNE,它更擅长保留数据的局部结构,画出来的散点图通常比PCA更直观。
⑤ 传统计算机视觉(边缘检测)
前面所有和图像相关的题目都用深度学习(CNN)来处理。但这道题有一个特点:宫格图有一个非常明显的视觉特征——规则的横线和竖线把图片分成几个区块。
这种特征不需要深度学习也能检测。传统计算机视觉中有成熟的工具:
边缘检测
• Canny边缘检测是最常用的算法。它能找出图像中亮度急剧变化的位置——也就是物体的轮廓、纹理的边界、颜色的分界线。
• 宫格图的分隔线在Canny检测中会表现为长直线。
直线检测
• 霍夫变换能从边缘图中找出直线。如果一张图中有多条长的横线和竖线,大概率是宫格图。
这些方法不需要训练数据,不需要GPU,运行极快。虽然精度不如深度学习,但在这道题中可以作为快速的初步方案。
传统CV的存在提醒我们:深度学习不是唯一的工具。对于有明确规则的简单任务,传统方法可能更快、更可靠、更可解释。
⑥ 半监督策略
这道题的最佳实践往往不是纯监督或纯无监督,而是半监督——把多种方法结合起来。
一种有效的流程:
• 用边缘检测做快速初筛,给1,000张图打上初步标签
• 人工核查一部分(比如200张),纠正明显的错误
• 用这些"半自动"标签训练一个CNN
• 用CNN预测剩下的图片,再抽查纠正
这种"机器初筛+人工纠正"的模式在实际AI项目中非常常见。完全手动标注太慢,完全自动又不够准,两者结合是效率和质量的最优平衡。
半监督学习是监督学习和无监督学习之间的过渡地带——它利用少量标注数据和大量未标注数据一起训练。在标注成本高的领域(医学影像、卫星图像等),半监督方法的价值尤其大。
这道题的价值不在于技术难度,在于它教了一件最基本但最容易被忽视的事:在动手训练模型之前,先确认你的数据和标签是对的。方向错了,跑得越快离目标越远。