自然语言处理

自然语言处理与词嵌入

NLP词嵌入余弦相似度Word2Vec语义
一句话摘要

让计算机理解人类语言的AI领域,词嵌入技术将文字转化为向量,用数学方法衡量语义相似度。

什么是自然语言处理?

自然语言处理(Natural Language Processing,NLP) 是AI的一个重要分支,研究如何让计算机理解、处理和生成人类语言。

NLP的核心任务

  • 语义分析:理解语句含义
  • 信息提取:从文本中提取关键信息(时间、地点、人物等)
  • 文本分类:垃圾邮件检测、情感分析
  • 机器翻译:中英互译
  • 问答系统:智能客服、AI助手

生活中的NLP

当你对AI助手说"请提醒我下午三点开会",AI需要:

  1. 理解语句含义(语义分析)
  2. 提取关键信息:时间(下午三点)、事件(开会)

这就是NLP的典型应用。

什么是词嵌入?

词嵌入(Word Embedding) 是将词语转化为固定维度的数值向量的技术。

为什么需要?计算机不能直接理解文字,但可以处理数字。把词语变成向量后,就可以用数学方法计算词语之间的关系。

关键特性

语义相近的词,向量也相近。例如:

  • "猫"和"狗"的向量距离近(都是动物)
  • "猫"和"游泳"的向量距离远(语义不相关)

余弦相似度

余弦相似度(Cosine Similarity) 用于衡量两个向量方向的一致性。

公式:cos(A, B) = (A·B) / (|A| × |B|)

  • 值越接近1 → 越相似
  • 值越接近0 → 越不相关
  • 值越接近-1 → 越相反

计算示例

a = (2,1), b = (1,2), c = (2,7)

  • cos(a,b) = (2×1+1×2) / (√5×√5) = 4/5 = 0.8
  • cos(b,c) = (1×2+2×7) / (√5×√53) ≈ 0.982
  • cos(a,c) = (2×2+1×7) / (√5×√53) ≈ 0.675

b和c最相似(0.982),如果b=狗、c=猫(都是动物),a=游泳(不相关),这很合理。

考试要点

  • AI助手理解自然语言指令属于NLP领域
  • 词嵌入将词语转化为向量
  • 余弦相似度衡量向量(词语)相似性
  • 语义相近的词,余弦相似度高
微信二维码

扫码备注【NOAI】加交流群