4. 监督机器学习活动

活动简介:

在本练习中,学生将了解人工智能(AI)系统的三个组成部分,以及训练数据在AI系统中的作用。

操作说明:

2.查看百度EasyDL AI平台微课视频。

图像数据集:

下面是为学生提供的一组图像,以帮助他们建立自己的猫-狗分类器。包括三个不同的数据集:

数据集

描述

初始数据集

这些是学生用来“教”他们的机器学习模型的图像,哪个图像是猫,哪个图像是狗。

请注意,猫的数量要多得多而且猫的外观比狗更多样化。这意味着分类器对猫的分类要比狗更准确。

测试数据集

这些是学生训练完他们的分类器之后用来测试的图像。学生应该向他们的模型展示这些图像,并记录他们的分类器能否预测图像是狗还是猫。

请注意:学生不应该用这些图像去“教”他们的分类器。如果一张图被用来训练分类器,机器就已经为特定图像记录了相应的标签。在测试阶段向机器显示此图像不会衡量模型的泛化程度。

重构数据集

这是学生可以用来使他们的猫狗训练数据集更大、更多样化的大量的图像。


测试数据集应该使用两次,一次用来测试学生的初始数据集,一次测试他们的重新整理后的数据集。

        图像的排列方式应使打印和裁剪相对容易(每页两张图像,按数据集组织)。打印出来的图像允许学生将它们举在网络摄像头前训练数据集。