第110章 OpenAI最近有点儿跳,得限制一下！

数据，造成模型被污染，进而产生一些低级错误。

而现在有了小沙，这项工作可以更快速的进行，准确率甚至不比人工清洗差。

而更关键的一个问题，以往pt类的模型，是lhf，也就是基于人类反馈的强化学习。

怎么做的呢：就是先预训练一个语言模型，然后做微调。

微调怎么调呢：就是你问一个问题，语言模型给你回答，然后人工给这些回答进行排名，然后获得一个有质量排序的数据集，用这个数据集反过来再去微调相关的模型参数，一遍又一遍循环往复，然后答案就会越来越接近人想要的。

而现在，小沙代替了人工的这个步骤。

lhf模型先前被认为不可能无限提高，其中最重要的一个原因就是，随着参数越来越多，数据量越来越大，人工去获取一个有质量排序的数据集也变得越来越不可能。

于是有人就认为，自我反馈模型，也就是让模型自我去评价去提升的模型才是未来，纵然它有时候显得很弱智。

但是现在，有了小沙，小沙替代【基于人类反馈的强化学习】里边的人类，变成了【基于小沙反馈的强化学习】，这一切就又变得可能了！

不仅解决了自我反馈容易弱智的问题，同时解决了人工反馈效率过低、成本过高的问题。

这就相当于将两个模型的优点直接结合了。

而且，超大规模超超大规模，也不用担心人工的问题了。

所以，各家的模型现在进步都非常大，原因就在于此。

想要变得跟小沙一样厉害，那当然不可能——基于小沙训练的ai想超过小沙那本身就是一个悖论。

但是，只要舍

本章未完，请点击下一页继续阅读！第2页 / 共5页

相关小说