平行句子,标注俄语词或短语与英语翻译的对应关系。
俄语句子Мыговоримомире
英语翻译:「We speak about peace
对齐结果:「мы」对应「we」
「говорим」对应「speak」
「о」对应「about」
「мире」对应「peace」
然后我们需要对这种对齐的频率进行统计。
统计每个俄语词或短语在英语中的对应翻译出现的频率。
例如,在语料中,「говорим」在80%的句子中翻译为「speak」,20%翻译为「talk」。
这样对于我们就可以构建概率表了。
将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。
当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。
另外就是统计相邻词的共现频率。мы经常与говорим一起出现,对应We speak,机器在翻译的时候则优先选择这个组合。
通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!」
林燃从统计学的角度给他们好好上了一课。
不过这只是一个开始。
在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整丶尝试和优化。
不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。
前面讲的优化算法和规则设计什麽的,他们感觉有道理,但判断不了具体实践是不是真的管用。
但这统计学方法的引入,光靠想像就知道,能够显着提升乔治敦翻译机器的效果。
当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。
加尔文放下笔记本,叹了口气说:「利昂,我们真的是蠢货吗?」
今天听完之后,加尔文都要怀疑人生了。
林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。
一整个团队差不多快十年的研发思
本章未完,请点击下一页继续阅读! 第3页 / 共7页