Py学习  »  机器学习算法

训练机器学习模型时应避免的 6 个错误

InfoQ • 2 年前 • 262 次点击  
作者 | Vikash Singh
译者 | Sambodhi
策划 | 凌敏
对人工智能模型进行训练的同时,还需要进行多阶段任务,以充分利用训练数据,获得满意的结果。为了保证人工智能模型的性能,本文列出了六个需要避免的常见错误。

创建人工智能或机器学习模型并非一项简单的任务。为了让模型能在不同环境下正常使用,除了要有大量的知识、技能和丰富的经验,你还要有高质量的计算机视觉训练数据,特别是基于视觉感知的人工智能模型。

从某种程度上来说,获取和收集训练数据,并将其用于训练模型,是人工智能开发中最重要的阶段。如果你在训练机器模型时犯下错误,不仅会导致你的模型执行出错,当你在医疗和自动驾驶汽车等领域做出关键业务决策时,还会造成灾难性的后果。以下是训练机器学习模型时比较常见的 6 个错误。

1使用未经验证的非结构化数据

在人工智能开发过程中,机器学习工程师经常犯的一个错误就是使用未经验证的非结构化数据。未经验证的数据中存在数据重复、数据矛盾、缺乏分类、数据冲突、数据错误等问题,这些都可能导致训练不正常。

所以,在使用原始数据集进行机器学习训练之前,先要仔细检查一下原始数据集,去掉所有不必要或不相关的数据,以帮助人工智能模型功能更准确。

2使用已用于测试模型的数据

这样的错误应该避免。举例来说,如果一个人已经学会了某样东西,把它应用到他的工作领域,并且把同样的信息应用到另一个领域,那么在推理时就会产生偏差和重复。

同样的原理也适用于机器学习:人工智能可以从大量数据集学习中来准确预测答案,同样的训练数据用于模型或基于人工智能的应用中,可能会导致模型出现偏差,产生的结果是之前学习的结果。因此,你需要用以前没有用来训练机器的不同数据集,来测试人工智能模型。

3使用不充分的训练数据集

要想保证你的人工智能模型是准确的,你必须使用适当的训练数据来确保它能够以最高的准确度进行预测。通常,造成模型失败的一个主要原因就是缺乏充分的准备数据。

值得一提的是,需要的训练数据类型因人工智能模型或行业类型而异。要保证深度学习在高准确度下运行,你需要更多的定量和定性数据集。

4确保你的人工智能模型不会出现偏差

要想创建一个人工智能模型,在各种场景下都能提供 100% 准确的结果是不可能的。就像人一样,机器也会因各种因素而产生偏差,比如年龄、性别、取向和收入水平等等,这些因素都会对结果产生不同程度的影响。所以你必须使用统计分析,来确定每一个个体因素是如何影响数据和人工智能训练的。

5独立依靠人工智能模型学习

身为机器学习工程师,你必须确保你的人工智能模型使用适当的策略来学习。要实现这一目标,你必须定期审查人工智能训练过程及其性能,以确保最佳效果。必要时,还要请专家帮助,通过大量的训练数据集来训练你的人工智能模型。

在设计机器学习人工智能时,你必须不断地问自己一些重要的问题,比如,你的数据是否来自一个值得信赖的可信来源?你的人工智能能否发现广泛的人工统计数据,是否还有其他因素影响结果?

6使用未正确标注的数据集

要想利用机器学习来设计人工智能模型,你需要采用正确标注的数据集,这样做不仅能帮助你获得最佳结果,还能提高用户对机器学习模型的信任程度。如果你的数据没有被正确标记,最终输出的模型就会受损。

如果你的机器学习模型是基于计算机视觉的,那么可以采用图像标注来生成所需训练数据。当然,除了训练模型外,人工智能公司还面临着另一个挑战:获取合适的标签数据,不过也有一些公司为机器学习和人工智能提供数据标注服务。

原文链接:
https://www.diginews.live/2021/04/avoid-these-6-mistakes-when-training-your-machine-learning-model
今日好文推荐

库克亲自出庭回应“苹果税”质疑:收取30%佣金是应该的

“数据中台”死而不僵

38岁张一鸣辞任字节跳动CEO;湖畔“大学”没了,马云曾立志要办 300 年;微软IE浏览器明年6月“退役”  |  Q资讯

走捷径修Bug却引起全球大宕机,Salesforce哭着处理了“肇事”工程师


InfoQ 读者交流群上线啦!各位小伙伴可以扫描下方二维码,添加 InfoQ 小助手,回复关键字“进群”申请入群。回复“资料”,获取资料包传送门,注册 InfoQ 网站后,可以任意领取一门极客时间课程,免费滴!大家可以和 InfoQ 读者一起畅所欲言,和编辑们零距离接触,超值的技术礼包等你领取,还有超值活动等你参加,快来加入我们吧!





点个在看少个 bug 👇

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/114908
 
262 次点击