不管他们是否意识到,机器学习已经被整合到学生们每天使用的许多应用程序中。从Netflix到自动修正工具,这种人工智能技术被用于快速处理数据,个性化用户体验,并使任务更容易。
“这个项目将有助于扩大学生在中学计算机科学课程中接触人工智能基础知识的机会。这个项目为围绕人工智能的文化偏见和数据集多样性的需求展开对话打开了大门。特别是在考虑到种族不平等和不公正的事件时,强调人工智能的重要性至关重要,因为它只取决于为机器学习提供的数据。这种强调将为丰富的讨论打开大门,并使学生具有文化相关性。”
——Susan Forget, STEM & PLTW教师,Sabin中学
3. 教学
3.2. 更进一步
活动2:在儿童机器学习中训练一个机器学习模型
Machine Learning for Kids(ML4K)是一个免费工具,基于IBM Watson的APIs,允许学生训练和使用机器学习模型。在这个活动中,学生将作为一个班级创建并讨论两个模型,一个使用现有数据集,另一个使用学生创建的数据集。学生不需要为这个活动构建一个编程项目,而是将重点学习如何向机器学习模型提供数据、训练模型和测试模型。
注意: 下面的任务要求学生们思考为什么人们会或不会在泰坦尼克号沉没后幸存下来。如果你认为这个话题可能会让你班上的学生感到不安,你可以跳过这个例子,只通过第二个模型“让我开心”来教授监督式学习、标签、功能、模型、决策树和信心等级的概念。
1. 以班级为单位完成“泰坦尼克号幸存者”项目。这个项目使用提供的数据集来开发一个基于决策树的预测机器学习模型。
• 分发或展示“泰坦尼克号幸存者”项目学生作业表的前13个步骤。
• 班级共同完成前9个步骤。这些步骤建立了一个ML4K”泰坦尼克号幸存者“项目模板,并显示训练数据集。一旦两个标签(“幸存”和“ 未幸存”)和数据被显示,使用视觉教导下列概念:
• 这个活动使用监督式学习来训练一个机器学习模型来分类数据。监督式学习是一种机器学习的形式,在这种学习中,培训者为AI提供培训数据中每个项目的标签。人工智能然后分析每个标签组中的数据,以识别特征中的模式(即定义属性) ,并创建一个模型。
• 在这种情况下,模型将由一个决策树来表示,该决策树查找它在数据中标识的每个定义特性。例如,标签为“大象”的动物数据分类模型,可识别四条腿、大而松软的耳朵和躯干等特征。
• 让学生分析所提供的训练数据,寻找规律。然后利用学生练习表第10步提供的问题进行课堂讨论。
• 按照步骤11-12,在”学习及测试”页面上训练及测试模型。结果提供了预测一个具有特定特征的人是否能在泰坦尼克号沉没后幸存下来,以及人工智能对这个预测的置信度。解释置信度是项目与正确标签匹配的概率。
• 点击”描述你的模型!”按钮来查看机器学习模型的决策树。问学生: 根据决策树中的信息,模型中与“幸存”标签相关的特征是什么?哪些特征与“ 未幸存”标签有关?
2. 以班级为单位完成”让我开心”这个项目。“ 让我开心”项目收集用户创建的数据,创建一个分类器模型,用于判断一句话是赞美还是侮辱。
• 在上课之前,一定要建立和分享一个“让我开心”的“全班项目”版本,这样学生们就可以合作贡献他们各自账户的数据。
• 以班级为单位完成”让我开心”学生工作表的第7-10步。这些步骤打开项目,并将标签“ 善良的事”和“ 恶劣的事”添加到班级项目中。解释说这一次你将创建一个分类模型,它将使用自然语言理解来识别特征,将陈述分类为称赞或侮辱。
• 让学生登录他们自己的账户,从他们的项目列表中打开班级“让我快乐”项目,然后点击 训练 进入标签桶。让每个学生添加一句极好的赞美到“善良的事”桶中和一句学校适当的侮辱到“恶劣的事物”桶中。这是用来教人工智能模型的训练数据。让每个学生添加另一个赞美和侮辱的协作文档(数字,纸张,或白板) ,这将用作测试数据。收集完所有数据后,对模型进行训练,然后使用测试数据列表对其进行测试,以了解其执行情况。让学生知道,你将在下一个活动讨论为什么一个模型在任务中可能做一个好或差的工作。
• 通过让学生使用术语监督式学习、标签、特征、模型、决策树、置信度、分类模型、训练数据和测试数据来解释“让我快乐”模型是如何工作的,从而结束这项活动。
活动3: 数据和抽样偏差
在这个动中,学生将考虑训练和测试数据的数据抽样方式可以影响机器学习模型的输出的方式。然后他们将返回到数据集为他们的“让我开心”模型,并作出改进,以完善数据集。
1. 问学生: 你对“让我开心”模型的表现满意吗?它总是准确的吗?还能再精确一点吗?
2. 告诉学生,人工智能没有自己的观点或想法,只能根据学到的数据做出决定。由于机器学习模型是从训练数据中学习,训练数据样本的质量直接决定了模型的质量。抽样偏差会导致模型不准确,这是由于数据集不能准确地表示标签所造成的。高质量数据集具有以下特征:
• 足够的数据: 人工智能需要足够的例子来识别数据特征中的模式。所需的数据量取决于任务中特定表现目标的准确性。需要的准确度越高,需要的训练数据就越多。
• 准确的数据: 人工智能需要足够的正确类型的例子,以了解所有的正确特征的项目,这些项目应该准确地给予一个特定的标签。这意味着如果有标签缺失或误导的例子,人工智能很可能无法在测试数据中正确识别。抽样偏差的一些例子包括:
• 如果你训练人工智能识别昆虫,但你只训练蚂蚁和甲虫的例子,它可能无法识别螳螂为昆虫,因为一些昆虫的特征会从数据中缺失。同样地,如果模型将被许多国家的许多人使用,但只代表一个国家的昆虫,那么人工智能可能无法识别来自其他地方的昆虫。
• 如果你使用一个数据集来训练人工智能,其中所有昆虫的图像都是在草地上拍摄的,而非昆虫的图像是在不同的地方拍摄的,人工智能可能会将草地作为昆虫标签的一个特征。如果这个模型是用一只狗在草丛中的图像来测试的,它可能会把它标记为一只昆虫。