f5e6a9"><span class="__cf_email__" data-cfemail="204e5a4c60414e4a550e4544550e434f4d">[email protected]</span></a></a></a></a></a></a>
任务是要她给一堆中医药材分类。
唐念根据提示登进服务器,数据是从74万篇中医古籍中采集出来的6.5万种药材,里面有很多别名、错名、重复等干扰项,需要先删除重复、冗余或噪声数据,再人工标注并对数据进行归类。
唐念以前做过机器学习方面的比赛,懂得归类问题的基本步骤,一般先是建立词汇表,获取每个词的embedding,然后使用cnn进行特征提取,最后挑选算法做二分类。
唐念凭借多年工作形成的肌肉记忆,搭建了个算法框架,把6.5万条数据灌进去,结果出来后拿着对照组验证准确度。
陈知礼从办公桌前走出,走到她身后,只扫一眼得出结论:“过拟合了,重测。”
“……”
唐念只好删掉记录,又重新跑了一遍,陈知礼看一眼,仍不满意:“我说的重测是让你换一种算法,不是让你拿着3000万美金的gpu在这磨时间,消耗性能,ok?”
“……”
那你一开始说清楚啊!
“还有
本章未完,请点击下一页继续阅读! 第14页 / 共17页