什么是自然语言处理?
自然语言处理(Natural Language Processing,NLP) 是AI的一个重要分支,研究如何让计算机理解、处理和生成人类语言。
NLP的核心任务
- 语义分析:理解语句含义
- 信息提取:从文本中提取关键信息(时间、地点、人物等)
- 文本分类:垃圾邮件检测、情感分析
- 机器翻译:中英互译
- 问答系统:智能客服、AI助手
生活中的NLP
当你对AI助手说"请提醒我下午三点开会",AI需要:
- 理解语句含义(语义分析)
- 提取关键信息:时间(下午三点)、事件(开会)
这就是NLP的典型应用。
什么是词嵌入?
词嵌入(Word Embedding) 是将词语转化为固定维度的数值向量的技术。
为什么需要?计算机不能直接理解文字,但可以处理数字。把词语变成向量后,就可以用数学方法计算词语之间的关系。
关键特性
语义相近的词,向量也相近。例如:
- "猫"和"狗"的向量距离近(都是动物)
- "猫"和"游泳"的向量距离远(语义不相关)
余弦相似度
余弦相似度(Cosine Similarity) 用于衡量两个向量方向的一致性。
公式:cos(A, B) = (A·B) / (|A| × |B|)
- 值越接近1 → 越相似
- 值越接近0 → 越不相关
- 值越接近-1 → 越相反
计算示例
a = (2,1), b = (1,2), c = (2,7)
- cos(a,b) = (2×1+1×2) / (√5×√5) = 4/5 = 0.8
- cos(b,c) = (1×2+2×7) / (√5×√53) ≈ 0.982
- cos(a,c) = (2×2+1×7) / (√5×√53) ≈ 0.675
b和c最相似(0.982),如果b=狗、c=猫(都是动物),a=游泳(不相关),这很合理。
考试要点
- AI助手理解自然语言指令属于NLP领域
- 词嵌入将词语转化为向量
- 余弦相似度衡量向量(词语)相似性
- 语义相近的词,余弦相似度高