完成条件
4. 机器学习(小学指南)
核心观点
- 机器学习使计算机能够在无需人们对特定行为进行显式编程的情况下掌握这些行为。(“机器学习” 的定义)
- 学习新行为源于学习算法对推理模型(如决策树或神经网络)的内部表示所做出的改变。(机器学习算法的工作原理)
- 当推理模型能够产生多种行为时,需要大量的训练数据来缩小学习算法的选择范围。(训练数据的作用)
- 由机器学习算法构建的推理模型可应用于新数据,以解决问题或做出决策。(学习阶段与应用阶段)
学习的本质:人类学习与机器学习对比(3-A-1)
- 学习目标:区分人类的学习方式与计算机的学习方式。
- 基本理解:人类和计算机都能够通过在数据中寻找模式,或者通过反复试验来进行学习。然而,人类是灵活的学习者,能够适应不熟悉的情况,并以其他方式学习,比如通过观察他人、提出问题,或者将新知识与先前的学习建立联系。
- 详细说明:人类是天生的学习者,而计算机必须通过编程才能学习。目前,对计算机进行编程使其学习有两种方式:它们可以通过在人类提供的示例中寻找模式来学习,或者可以通过反复试验来学习。
学习的本质:在数据中发现模式(3-A-2)
- 学习目标:建立模型以展示监督学习如何识别带标签数据中的模式。
- 基本理解:在学习对带标签的数据进行分类时,所发现的模式(或规则)可以表示为神经网络中的权重,或者决策树中的节点。
- 详细说明:这是对幼儿园到二年级(K-2)版本内容的拓展,要求学生绘制一棵决策树,而不仅仅是口头表述他们提出的规则。此外,在三到五年级(3-5)阶段,可以通过增加类别数量或使类别定义更加复杂来丰富任务内容。例如,如果一条鱼满足以下条件中的任意一个,那它就是有毒的:头部为方形且颜色为红色;头部为圆形且颜色为蓝色;长有尖刺、头部为任意形状且颜色为紫色。决策树的每个节点可以测试一个特征值,比如颜色,所以复杂的特征需要更深层次的决策树。
学习的本质:训练模型(3-A-3)
- 学习目标:使用机器学习训练一个分类模型,然后检验该模型在处理新输入数据时的准确性。
- 基本理解:计算机能够通过展示带标签的示例来学习对实例进行分类或预测数值。如果在新输入数据上的结果不尽如人意,可能就需要进行额外的训练以提高准确性。
- 详细说明:使用 “可教机器(Teachable Machine)” 或 “儿童机器学习(Machine Learning for Kids)”,训练示例可以通过网络摄像头输入来提供,也可以从网络上的图像搜索中收集,并且可以针对诸如识别猫的图片这类任务来训练模型。
学习的本质:构建推理器与使用推理器(3-A-4)
- 学习目标:演示在使用机器学习工具时,如何对训练数据进行标注。
- 基本理解:在为训练模型做准备时,首先要定义类别(即标签),然后分别为每个类别添加示例,以此来对训练数据进行标注。训练完成后,可以向模型输入新的数据,模型会预测数据所属的类别,但这些数据是未标注的,所以模型不会收到关于其类别预测是否正确的反馈。
- 详细说明:“可教机器(Teachable Machine)” 默认提供三个类别,并且每个类别都有一个单独的 “按住录制” 按钮,所以训练示例会根据它们所录制归属的类别被隐式地标注。训练完成后,该模型会对网络摄像头的输入进行实时分类,但不会收到任何反馈。
学习的本质:调整内部表征(3-A-5)
- 学习目标:分析一个构建决策树的游戏,描述该决策树的结构以及用于添加节点的学习算法。
- 基本理解:在决策树学习游戏中,树的分支节点是问题,而叶节点是类别。学习算法通过在分支节点处提出问题(测试输入的特征)来遍历整棵树,直到到达一个叶节点。如果该叶节点的类别不正确,这个节点就会被一个带有新问题的分支节点所取代,并且原来的叶节点会重新连接到这个分支上。
- 详细说明:“猜动物” 游戏、故障排查问题以及 “意大利面乐园(Pasta Land)” 活动都是用于演示决策树学习的不错选择。
学习的本质:从经验中学习(3-A-6)
- 学习目标:解释强化学习是如何让计算机从经验(即试错过程)中学习的。
- 基本理解:如果存在一个 “强化” 信号,用于指示计算机的行为是导致了好的结果还是坏的结果,那么计算机就能够从经验中学习。
- 详细说明:计算机可以利用一个强化信号来学习玩游戏,该信号表明计算机在最近的一局游戏中是赢了还是输了,或者它得了多少分。计算机可能需要玩数十万局游戏才能成为一名游戏高手。
- 演示:强化学习可以通过一个智能体在存在障碍物和危险的网格世界中导航来进行说明;其任务是学习到达目标位置的最佳路径。在每个网格方格处,允许的动作是向北(N)、向南(S)、向东(E)或向西(W)移动。在反复的尝试过程中,智能体学会在每个方格中做出最佳的移动动作。
神经网络:神经网络的结构(3-B-1)
- 学习目标:举例说明由 1 到 3 个神经元构成的神经网络是如何作为一个计算输出的函数的。
- 基本理解:一个神经网络利用一个或多个协同工作的神经元来形成一个函数。每个神经元将一组数值作为输入,并产生一个单一数值作为其输出。
- 详细说明:神经网络是相互连接的神经元的集合。每个神经元都有一组输入连接,每条连接都附有一个权重。每条输入连接都携带一个值。神经元将每个输入值与连接权重相乘,以产生一个加权输入。所有加权输入的总和将与该神经元的阈值进行比较。如果总和高于阈值,神经元就输出 1;否则,它就输出 0。输出值可以作为其他神经元的输入。
- 活动:计算具有多个输入的单个神经元的输出,或者计算由两个多输入的 “隐藏” 神经元为单个输出神经元提供输入的网络的输出。这样的网络可以计算诸如 “与”“或” 或者 “三选二(至少两个)” 等简单函数。如需针对三至五年级学生的神经网络快速教程,请访问Google文档
神经网络:权重调整(3-B-2)
数据集:特征集(3-C-1)
- 学习目标:创建一个带有多种明确特征类型的标记数据集,并使用一个机器学习工具对该数据进行训练,以得到一个分类器。
- 基本理解:特征类型包括离散值(例如,“纽约”“宾夕法尼亚”“爱荷华”)、二进制值(是 / 否)以及连续值(年龄、身高)。
- 详细说明:诸如 “面向儿童的机器学习(MachineLearningForKids)” 这样的网站,将会基于此类数据训练决策树分类器。
数据集:大型数据集(3-C-2)
- 学习目标:举例说明为诸如 “狗” 这样宽泛的概念训练分类器时,为何需要大量的数据来涵盖该领域的多样性。
- 基本理解:机器学习要达到良好效果需要大量的数据。为了识别图像中的狗,人们不仅需要有多种不同品种的狗的图像,还需要包含许多不同的拍摄视角和场景环境下的图像。
- 详细说明:帮助学生直观理解所需数据多样性的一种方法是浏览一些用于目标识别的标准数据集,比如 ImageNet(图像数据库)或 Coco(微软的一个大规模视觉识别数据集)。
数据集:偏差(3-C-3)
- 学习目标:检查训练数据的特征和标签,以发现潜在的偏差来源。
- 基本理解:机器学习算法需要具有代表性的数据集合,以便构建出准确的模型。从历史数据中提取的训练数据集可能反映出人类和社会中早已存在的偏见。
- 详细说明:亚马逊的简历筛选器表现出了对女性求职者的偏见,原因在于它是通过模仿过往招聘历史中的统计数据来进行训练的。