数据,造成模型被污染,进而产生一些低级错误。
而现在有了小沙,这项工作可以更快速的进行,准确率甚至不比人工清洗差。
而更关键的一个问题,以往pt类的模型,是lhf,也就是基于人类反馈的强化学习。
怎么做的呢:就是先预训练一个语言模型,然后做微调。
微调怎么调呢:就是你问一个问题,语言模型给你回答,然后人工给这些回答进行排名,然后获得一个有质量排序的数据集,用这个数据集反过来再去微调相关的模型参数,一遍又一遍循环往复,然后答案就会越来越接近人想要的。
而现在,小沙代替了人工的这个步骤。
lhf模型先前被认为不可能无限提高,其中最重要的一个原因就是,随着参数越来越多,数据量越来越大,人工去获取一个有质量排序的数据集也变得越来越不可能。
于是有人就认为,自我反馈模型,也就是让模型自我去评价去提升的模型才是未来,纵然它有时候显得很弱智。
但是现在,有了小沙,小沙替代【基于人类反馈的强化学习】里边的人类,变成了【基于小沙反馈的强化学习】,这一切就又变得可能了!
不仅解决了自我反馈容易弱智的问题,同时解决了人工反馈效率过低、成本过高的问题。
这就相当于将两个模型的优点直接结合了。
而且,超大规模超超大规模,也不用担心人工的问题了。
所以,各家的模型现在进步都非常大,原因就在于此。
想要变得跟小沙一样厉害,那当然不可能——基于小沙训练的ai想超过小沙那本身就是一个悖论。
但是,只要舍
本章未完,请点击下一页继续阅读! 第2页 / 共5页