语音识别(Automatic Speech Recognition, ASR)属于计算机科学、信号处理与人工智能交叉领域,指通过算法将人类语音信号转化为对应文本或指令的技术。其核心基于声学模型(捕捉语音特征)与语言模型(解析语义关联)的协同,结合声学特征提取与模式匹配实现音素到词汇的映射,需解决噪声干扰、口音差异及连续语音切分等难题。典型特征包括时序信号处理能力、端到端深度学习架构(如RNN、CTC、Transformer)及多语种适应性,广泛应用于智能助手、语音输入、电话客服及医疗听录等场景,显著提升人机交互自然度与效率,是构建语音交互系统与无障碍通信的核心技术支撑。
» 人工智能术语词典