要购买的话,到领域期刊去收集数据。
开放的数据收集完,如果需要,再联系综合部去找领域期刊收购他们完整资料库的使用权。
我预计需要确保至少500亿的tokens,来确保专业深度。
确定数据之后要对数据进行清洗吧,要去除噪声重复以及具有偏见的内容。
一些文本也许很热门,有超多引用或者下载,但实际上内容并无价值,这也需要大家来判断。
这是数据阶段要做的工作,在模型开发和训练阶段,你们可以直接用深红来训练,不需要从头开发,直接让工作人员协助你们基于现有模型进行训练。
如果训练结果不满意,需要对模型调整,那麽你们可以先自己试试看,有什麽不懂的,你们发邮件给我,我安排时间来为大家提出解答。
我的目的是,希望大家能够开放出一个,足够中立客观专业的模型,外界在使用的时候,丢任何一个社会议题给它,它都能给出足够专业的解答。
如果足够好的话,我会考虑把它卖给微博,成为微博社会议题的独立客观第三方意见。
所以,各位,你们的工作很有意义。」
林燃内心实际上在想,各位,不是很有意义,是非常有意义,它可能会改变整个时代的走势,改变整个世界。
至于为什麽不自己做?
因为林燃在这个时空要呆很长一段时间,他不想专门花时间来做这个,丢给学生,在深红现有资源下,当成是一个练手的课题恰好合适。
又不是这个暑假就要做完,会当成一个课题,一直推进,这届做不完,新一批学生进来之后继续做,本身交大的生源一年比一年好,林燃数学班的门槛也一年比一年高。
他要在这呆七年左右,时间绰绰有馀。
「大家通过这个课题,能够接触到几乎所有的人工智慧大模型需要做的工作,我相信这对各位无论是现在还是未来,都会相当有帮助。」
最后群星闪耀上线后,在1960时空引发的影响暂且不表,在微博上,属于是直接炸粪坑了,大把博主开始指责这款大模型既不客观,也不中立,更不是什麽所谓第三方,完全是林燃个人意志的体现。
哪怕参与到其中的同学们,出来发文解释,也连带着被群起攻击。
这是林燃也好,在座同学们也好,都始料未及的。
(本章完)