开始制造业深度学习项目 - 第二部分:收集数据和建立真值

公司组建了深度学习项目团队,确定了目标,并选择了一个项目来推进,下一步就是收集数据和确定真值。
绝对数据和相对数据
在这个阶段必须收集两种类型的数据:图像(绝对)数据和过程(相对)数据。深度学习团队收集的图像数据有助于优化和训练神经网络对缺陷和通过/未通过的判断。可靠的图像采集包括确定具有适当分辨率的相机,选择和配置适当的照明设置。
过程数据使得开发深度学习系统的公司可以进行高级优化,其中可能包括漏检与废品的单位成本、通过与未通过的频率,以及不同缺陷类型的频率等数据。深度学习团队必须研究深度学习系统相对于真值的表现,以及现有解决方案(如人工检测)相对于真值的表现。
保持持续过程
深度学习项目的所有阶段通常必须持续进行。这项工作包括收集图像和过程数据,训练模型,并及时更新数据标签。
公司需要能够持续可靠地在图像中标记缺陷的工人,所以深度学习模型使用质量数据进行训练。保持训练过程的连续性使团队能够简化准确数据的收集和记录。
为了避免统计异常,团队必须捕捉和跟踪产品差异、组件变化、设备漂移和工具磨损。总的来说,所有图像标签必须一致、无偏,有独立的测量和明确的定义。当产品规格更改、加入新产品或移除淘汰产品时,团队必须更新图像标签。团队还必须建立随时间推移持续捕捉信息的流程,这样在发生问题时,团队可以做出反应并纠正问题。
深度学习团队应该避免在训练中使用伪缺陷。伪缺陷,如零件上的标记、裂缝或划痕,不能代表真正的缺陷,会对训练过程产生负面影响。例如,如果团队中有人手动在零件中间添加划痕进行测试,系统就会开始只在该区域寻找缺陷。
获取真值
在获取真值方面,团队有几种选择,包括使用人工工厂检测结果。在这种方法中,数据是现成的,并已接受。对于需要倾斜等特殊处理的零件,这可能是唯一的检测选择。另一方面,结果可能随时间或检查员的不同而变化,而且一些利益相关者可能在当前采用的系统中有既得利益。这种方法应该只用作一个起点,因为公司必须投资于数据收集和整理,以确定一个更准确的基线。
Knapp 测试让多个已知好坏的零件多次经过同一组检查员,可以帮助公司对人类质量检查员进行评级。在 Knapp 测试中,每位检查员对混在生产零件中的控制零件进行多次检查,并将每个人的检查结果进行汇总,得出一致的通过/未通过结果。虽然这种方法可以让公司看到哪些缺陷类型能够被持续发现,哪些检查员表现最好,但局限于少量数据集。它还可能产生不具代表性的结果,因为缺陷的外观可能不真实或是人为的,而且缺陷的分布总是不真实的。公司应该评估每位检查员的准确性和可重复性,并使用具有真实缺陷的图像为神经网络训练创建有初始标记的数据集。
方法 | 优势 | 限制 | 建议 |
---|---|---|---|
人工检测 |
|
|
|
Knapp 测试 |
|
|
|
最后,公司必须至少有一位对公司质量标准有深入了解的可信赖专家,以获取真值。首先,团队在生产过程中记录图像和检测结果,包括人工和自动化检测。然后,专家确认是否能根据图像可靠地做出通过/未通过的判断,并帮助为标签团队设定图像质量标准,确保只有准确的数据进入深度学习模型。
在这个例子中,可信赖专家用于在点焊检测应用中建立真值。
然后可以比较人工和自动视觉检测结果。如果结果一致,团队可以假设决定是正确的,图像可以添加到数据集中。如果结果不同,专家将审查这些结果并决定如何处理。专家帮助建立一个可靠的真值图像数据库,其中的图像是在真实条件下基于实际样本提取的。 此外,专家还帮助建立可靠的性能统计,包括缺陷分布以及人工和自动化检测性能数据,同时还能改善检测流程。专家还提供了可在未来自动化项目中重复使用的数据。请注意,在必须操纵或处理零件以发现缺陷的情况下,这种方法将给出糟糕的结果。这种方法的另一个缺点是,它依赖于单一决策者。
在第三部分,我们将探讨优化阶段。