是否有书籍或论文阐述机器学习准确率与数据量、数据质量之间关系的理论？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1384 天前的主题，其中的信息可能已经有所发展或是发生改变。

请看下图。介绍了增加数据量对机器学习(在视频中机器学习囊括神经网络，traditional AI 在此指神经网络以外的传统机器学习方法)和神经网络识别准确率的不同效果。显然增加数据量在神经网络上可以带来更好的效果。机器学习对数据量的增加更容易钝化（曲线更早变平）。不知道是否有文章或书籍对此问题有更深入的介绍？例如：以监督学习为例 1 、多大的数据量会成为传统机器学习与人工智能识别率的分水岭？比如图中圆圈部分，可能更少的数据量神经网络与传统机器学习的差别不大，甚至更差。 2 、传统机器学习和神经网络对训练集的兼容性是否有差别。比如训练识别猫的训练集。可能只有 10%不是猫，90%都是猫。另一种训练集猫和非猫各 50%。两种方法对不同训练集的训练效果会有明显差异么？之所以问这个问题是因为现实中可能要满足猫和非猫各 50%那么总训练集数量就不足了。总训练集数量达标，非猫样本比例可能就比较低了。

3 、考虑以下两种错误来衡量识别率，传统机器学习和神经网络在数据量增加后是否有更大的差异？第一类错误：将猫划入非猫一组。第二类错误：将非猫划入猫一组。现实中每种错误的代价差别很大。训练集样本增加在第一类和第二类错误率上，传统机器学习和神经网络是否对训练数据量增加有不同的敏感程度？

目前尚无回复

机器学习神经网络数据量训练