3. 机器学习(中学指南)

核心观点

  • 机器学习使计算机能够在无需人们对特定行为进行显式编程的情况下掌握这些行为。(“机器学习” 的定义)
  • 学习新行为源于学习算法对推理模型(如决策树或神经网络)的内部表示所做出的改变。(机器学习算法的工作原理)
  • 当推理模型能够产生多种行为时,需要大量的训练数据来缩小学习算法的选择范围。(训练数据的作用)
  • 由机器学习算法构建的推理模型可应用于新数据,以解决问题或做出决策。(学习阶段与应用阶段)


学习的本质:人类学习与机器学习对比(3-A-1

  • 学习目标:定义有监督学习算法、无监督学习算法和强化学习算法,并给出与每种算法类似的人类学习的例子。
  • 基本理解:有监督学习算法和无监督学习算法都能在数据中找到模式。有监督学习利用特征来预测由 “教师” 提供的类别标签;无监督学习则将相似的实例归为一组,创建其自身的类别。强化学习通过试错法来找到一种策略,用于选择能够使强化信号最大化的动作。
  • 详细说明:有监督学习就像是接受教练的纠正。无监督学习就像是根据顾客独特的购买模式,发现自己的店铺有三类不同的顾客。强化学习就像是在电子游戏中尝试不同的操作,然后看看哪种操作能获得最多的分数(最大的奖励)。

    学习的本质:在数据中发现模式(3-A-2

    • 学习目标:模拟机器学习如何通过调整推理器的参数(其内部表示)来构建用于分类或预测的推理器。
    • 基本理解:有监督学习会调整一个数学模型(由人类预先选定)的参数,以生成正确的分类或预测结果。这个模型可以是一个简单的线性方程、一个高次多项式,或者是一个更为复杂的非线性方程,比如深度神经网络。对输入和输出之间的关系进行编码的内部表示,体现了在数据中找到的 “模式”。
    • 详细说明:在回归分析中,我们选择一个数学模型,例如线性方程\(y = mx + b\)" style="">,然后调整其参数,尽可能好地拟合一组数据点。然后,该模型可用于预测任何值对应的值。
      线性回归可以通过使用直尺,凭肉眼观察直线与数据点之间的距离来完成。可以通过给学生提供一个带有滑块来控制参数值的图形显示界面,让他们模拟多项式回归或逻辑回归。他们可以手动调整滑块,以达到他们认为对数据的最佳拟合效果。对于水平更高的学生,可以向他们展示如何使用均方误差从数学角度衡量拟合的质量。对于分类问题,值为表示 “属于该类别”,表示 “不属于该类别”,而决策边界就是\(y = 0.5\)" style="">这条直线或平面。

      学习的本质:训练模型(3-A-3

      • 学习目标:使用有监督学习算法或无监督学习算法,在现实世界的数据上训练一个模型,然后评估结果。
      • 基本理解:在有监督学习中,模型在训练集上进行训练,以便为有标签的数据生成正确的标签。我们通过测量测试集中被正确标记的项目所占的百分比来评估结果。在无监督学习中,模型被训练来将每个输入分配到一组相似的输入簇中。由于训练数据没有附带标签,这些簇是由学习算法确定的。我们通过检查这些簇,看它们是否捕捉到了数据集中有用的差异来评估结果。
      • 详细说明:有监督学习算法和无监督学习算法都能在数据中找到模式。在有监督学习中,“模式” 是特征值与类别标签之间的关系。在无监督学习中,模式是数据被分组为簇的方式。如今,现实世界的数据集在网络上广泛可得。在较低年级段,学生可能会在几个新的数据点上测试他们训练好的模型,但在这个年级段,要求学生对训练好的模型在一个有一定规模的测试集上的性能进行量化评估。

        学习的本质:构建推理器与使用推理器(3-A-4

        • 学习目标:举例说明在使用机器学习构建分类器或预测器时,每个必要步骤中会发生什么情况。
        • 基本理解:这些步骤包括:确定你想要解决的问题,弄清楚从何处获取训练数据,选择一个特征集,明确如何对数据进行标记,运行学习算法,使用交叉验证集来判断何时应停止训练,以及使用测试集来衡量性能。
        • 详细说明:交叉验证集用于避免过拟合。测试集由在训练或交叉验证过程中未使用过的样本组成,因此它能对推理器在新输入上的性能给出无偏的预测。

          学习的本质:调整内部表征(3-A-5

          • 学习目标:描述各种类型的机器学习算法是如何通过调整其内部表示来进行学习的。
          • 基本理解:决策树学习算法通过一次添加一个节点的方式来构建决策树。神经网络学习算法会调整权重。回归算法会调整方程的参数。强化学习算法会更新价值预测或策略

            学习的本质:从经验中学习(3-A-6

            • 学习目标:选择合适类型的机器学习算法(有监督学习、无监督学习或强化学习)来解决推理问题。
            • 基本理解:主要的学习算法类型及其用于解决的推理问题类型如下:有监督学习用于分类和预测;无监督学习用于聚类;强化学习用于序列决策。
            • 详细说明:有监督学习算法和无监督学习算法都会在数据中寻找模式。有监督学习算法使用有标签的训练数据,并调整推理模型的参数,试图生成正确的标签,它们用于解决分类或预测问题。
              无监督学习算法使用无标签的数据,试图将相似的数据点归为一组,用于发现数据中的类别。强化学习算法用于解决序列决策问题,它们学习选择行动的策略,以使模型获得的强化信号最大化。
              强化学习可能会比较慢,因为学习必须通过试错来进行,没有 “教师” 在每一步告知算法最佳行动。但让计算机从自身经验中学习也有其优势,即它能够发现事先并不知道最佳行动的问题的解决方案。

              神经网络:神经网络的结构(3-B-1

              • 学习目标:描述以下神经网络架构及其用途:前馈神经网络、二维卷积神经网络、循环神经网络、生成对抗网络。
              • 基本理解:前馈神经网络能够学习任意函数,可用于分类和回归任务。二维卷积神经网络学习与输入进行卷积运算的小 “卷积核”,以及用于降低图像分辨率的最大池化层;它们被应用于图像分析领域。循环神经网络具有反馈连接,用于自然语言处理。生成对抗网络包含生成器和判别器模块,被用于创建深度伪造内容。

                神经网络:权重调整(3-B-2

                • 学习目标:使用反向传播学习算法来训练一个多层神经网络,并描述由于学习的进行,神经元的权重以及隐藏层单元的输出是如何变化的。
                • 基本理解:神经元的权重最初是较小的随机值,然后通过学习逐渐演变成更精确的模式。神经元权重的变化是由一个由反向传播的误差信号驱动的学习规则来计算的。神经元的权重模式决定了该神经元所检测到的特征。
                • 详细说明:不要求学生了解反向传播学习算法的具体细节,只需要知道误差是从较后的层向后传播到较早的层的。
                • 活动:可以使用像 TensorFlow 游乐场这样的在线演示工具,来可视化学习过程中权重的变化情况。

                数据集:特征集(3-C-1

                • 学习目标:从两个现实世界数据集所包含的特征以及这些特征的编码方式这两个方面,对它们进行比较。
                • 基本理解:由人类来决定在数据集中纳入哪些特征以及如何对这些特征进行编码。这可能会对在这些数据集上训练的机器学习算法产生影响。
                • 详细说明:年龄可以用月来编码(适用于儿科数据集)、用年来编码(适用于成年人数据集),或者用年龄区间来编码(如婴儿、儿童、青少年、成年人、老年人、高龄老人)。使用离散值对连续变量进行编码,可以引导学习算法做出符合人类对该领域理解的区分。

                  数据集:大型数据集(3-C-2

                  • 学习目标:通过考量数据集的规模、数据的采集和标注方式、所需的存储空间以及预估的数据集制作时间,来评估用于训练实际人工智能系统的数据集。
                  • 基本理解:通常需要一个大规模的数据集,才能涵盖复杂领域的多样性,并缩小推理器可能行为的范围。构建、清理和验证数据集有多种方法。创建数据集和处理数据可能会产生高昂的成本。标注训练数据是一项劳动密集型工作,可能需要专业知识(例如,在 X 光片中识别疾病)。在数据集创建的每一个步骤中都可能引入偏差。
                  • 详细说明:现实世界问题的数据集可能包含众多特征,而且某一类别所具有的特征可能涉及这些特征之间的复杂关系。为了明确要学习的类别,并将其与其他数百万个可能的类别区分开来,学习算法必须接触大量的示例。

                    数据集:偏差(3-C-3

                    • 学习目标:使用数据可视化工具,研究训练数据在性别、年龄、种族或其他人口统计学变量方面的不平衡情况,这些不平衡可能会导致模型产生偏差。
                    • 基本理解:机器学习算法会利用训练集中任何有助于降低错误率的不平衡或相关性。如果数据集不具有代表性,那么这些相关性可能会产生误导。
                    • 详细说明:可以使用 Excel 中的直方图,或者诸如 Pandas(用于 Python)等多种数据可视化工具,来进行数据探索,帮助学生发现数据中的不平衡或相关性。