完成条件
1. 感知(中学指南)
侦测:生物(1-A-1)
不适用 —— 就人工智能而言,这个主题在较低年级段已经得到了充分的阐述。其他课程,比如生物学或感官心理学选修课,可以更深入地探讨诸如味觉、嗅觉、本体感觉和前庭器官等话题。
可能的拓展材料:研究一下视错觉现象(缪勒 - 莱尔错觉、卡尼萨三角),并思考哪些视错觉也是计算机视觉系统会受到影响的情况。
侦测:计算机传感器(1-A-2)
- 学习目标: 描述各类计算机传感器的局限性和优势。
- 基本理解:传感器是用于测量诸如光、声音、温度或压力等物理现象的设备。
- 详细说明:摄像头的分辨率、动态范围和光谱灵敏度都存在一定的局限性。麦克风的灵敏度和频率响应范围也有限。信号可能会受到噪声的干扰而减弱,比如处于嘈杂环境中的麦克风。一些传感器能够检测到人类无法察觉的事物,例如红外或紫外图像,或是超声波。
侦测:数字编码(1-A-3)
- 学习目标:解释雷达、激光雷达、全球定位系统(GPS)以及加速度计的数据是如何表示的。
- 基本理解:雷达和激光雷达进行深度成像:每个像素都是一个深度值。全球定位系统(GPS)利用卫星信号进行三角测量来确定位置,并以经度和纬度的形式给出具体地点信息。加速度计则在三个相互正交的维度上测量加速度。
- 详细说明:雷达和激光雷达通过测量反射信号返回至收发器所需的时间来测定距离。全球定位系统(GPS)通过对来自三颗或更多卫星的精确定时信号进行三角测量来确定位置。加速度计使用相互正交排列的应变片来测量三个维度上的加速度。
加工:侦测与感知(1-B-1)
- 学习目标:解释感知算法以及它们在现实世界应用中是如何被使用的。
- 基本理解:许多设备和服务都依赖于专门的感知算法,例如,车牌识别器、邮政编码识别器、基于面部识别的手机解锁功能、在脸书帖子中标记人物、物体识别(如谷歌镜头),或者基于语音的客服服务。
加工:特征提取(1-B-2)
- 学习目标:解释如何从波形和图像中提取特征。
- 基本理解:语音频谱图展示了一个波形在不同频段中存在的能量情况。共振峰是一种听觉特征,被定义为频谱图中能量集中的区域。从图像中提取特征的过程,起始于检测图像中的边缘,或者是多个尺度下的强度梯度。
- 详细说明:不同的共振峰模式与不同的语音发音相关联,也就是说,与不同的元音和辅音相关。
加工:抽象流水线-语言(1-B-3)
- 学习目标:举例说明从波形到句子的语音理解的抽象层次结构,展示每个层次的知识是如何用于解决较低层次中的歧义问题的。
- 基本理解:口语语言的层次结构为:波形→发音动作→声音→词素→单词→短语→句子。
- 详细说明:要从嘈杂、有歧义的信号得出其含义,需要识别结构,并在多个抽象层次上应用领域知识。一个经典的例子:“How to recognize speech(如何识别语音)” 和 “How to wreck a nice beach(如何破坏一个不错的海滩)” 这两个句子在波形层面上几乎是完全一样的。
加工:抽象流水线-视觉(1-B-4)
- 学习目标:演示在更高抽象层次上的感知推理是如何利用早期较低抽象层次的信息的。
- 基本理解:场景由物体构成,而物体由表面和边界组成。边界由轮廓来标识,轮廓由边缘构成,而边缘又是由像素组成的。场景中物体之间的关系,比如一个物体遮挡了另一个物体,是通过它们表面和边界的排列情况推断出来的。
领域知识:领域知识的类型(1-C-1)
- 学习目标:分析一个或多个在线图像数据集,并描述这些数据集所提供的信息,以及如何利用这些信息为计算机视觉系统提取领域知识。
- 基本理解:人工智能系统中的领域知识通常源自从数百万个句子或图像中收集到的统计数据。
- 详细说明:图像数据库示例:
- ImageNet:https://image-net.org/
- Coco:http://cocodataset.org/#explore
在输入文本或电子邮件时的单词预测功能,就是一个类似于在高级感知系统中使用统计预测的例子。分析大量的图像集合可以得出关于哪些类型的物体可能会在一个场景中同时出现的统计数据。
领域知识:包容性(1-C-2)
- 学习目标:描述在使计算机感知系统能够良好地服务于不同群体时所面临的一些技术难题。
- 基本理解:相较于明亮且高对比度的面部特征,暗沉或低对比度的面部特征更难以识别。儿童的语音音调比成年人更高,而且发音也不如成年人清晰。