什么决定了训练 AI 所需的数据集的大小?

内容摘要训练人工智能 (AI) 算法需要大型数据集,而且它们可能很昂贵。那么,多少数据才足够呢?问题的复杂性、模型的复杂性、数据的质量以及所需的准确性水平主要决定了这一点。本文引用地址:数据增强技术可以增加数据集的大小,而学习曲线分析可以确定何时优

训练人工智能 (AI) 算法需要大型数据集,而且它们可能很昂贵。那么,多少数据才足够呢?问题的复杂性、模型的复杂性、数据的质量以及所需的准确性水平主要决定了这一点。

本文引用地址:

数据增强技术可以增加数据集的大小,而学习曲线分析可以确定何时优化了训练结果。

问题复杂性是影响所需数据集大小的一个主要因素。图像识别很复杂,并且需要比简单图像分类更大的训练数据集。此外,具有更多特征的问题需要更多的训练示例来学习所有可能的关系。

模型复杂性也很重要,具有更多参数的深度学习模型可能需要非常大的数据集才能进行有效学习。一个常见的经验法则是 “10 法则”,它指出有效的训练需要的数据点是模型中参数数量的 10 倍。

噪声最小或不一致的数据是“高质量”训练数据。获取大量高质量数据可能很困难,但可以扩充较小的数据集以人为地增加数据集的大小。

Argumentation 可用于所有类型的数据。即使是看似微小的更改也足够了。例如,图像数据集的有效增强形式可以包括裁剪、反射、旋转、缩放、平移或添加高斯噪声,如图 1 所示。

图 1.一个原始图像示例(左)和四个其他图像是使用数据增强技术得出的。(图片:Nexocode)

偏差和方差指标可用于确定 AI/ML 模型的质量。偏差是与过于简单的模型(也称为欠拟合)相关的预测误差,而高方差表示模型过于复杂(过度拟合),并且除了数据本身之外,还会考虑数据集中的“噪声”。

理想的模型具有低偏差和低方差。这两个指标可以被认为是独立的,如图 2 所示。但是,对于 AI/ML 模型,它们往往成反比,增加一个模型会导致另一个模型减少。这被称为 “偏差-方差权衡”,是确定模型训练成功与否时学习曲线分析中的一个重要考虑因素。

图 2.AI/ML 模型旨在产生偏差和方差的理想组合(左上角目标)。(图片:Analytics Vidhya)

纪元表示使用给定数据集训练 AI/ML 模型的完整周期。Epochs 还用于学习曲线分析,以确定最佳训练周期数。

学习曲线分析很重要,因为所需的 epoch 数可以达到数千个。但是,使用更多的 epoch 来 “优化” 结果并不是更好,因为训练太多 epoch 会导致过度拟合。

学习曲线在 x 轴上绘制数据量(通常是时期),在 y 轴上绘制模型的准确性(或其他性能指标)。学习曲线分析将训练结果与一组验证数据进行比较。验证数据可以是独立的数据集,也可以是不用于训练的训练数据集的子集。

并非所有模型在偏差和方差之间都具有相同的关系。这可能使确定最佳模型变得具有挑战性。

通常,当偏差和方差的组合达到全局最小值时,可以确定最佳模型,如图 3a 所示。对于某些模型,方差的增加速度可能慢于偏差的减少速度(图 3b),并且确定最佳模型可能并不那么简单。在这些情况下,新的或改进的模型可能会提供更好的结果。

图 3.偏差和方差之间的关系并不总是可以依靠来确定最佳模式。(Analytica Chimica Acta)

“10 法则”可以为确定 AI/ML 训练所需的数据量提供一个起点。使用增强技术可以以低成本扩展数据可用性。可以使用学习曲线来分析训练结果,但找到最佳模型并不总是那么简单,可能需要调整或替换。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1