NiuTrans:开源机器翻译软件

对机器翻译的好奇已经很久了,此前曾经评估过不少商业化全文翻译开源全文翻译软件,感觉这个玩意还是很有使用价值的,但是质量确实还不行,后来研究了一下机器翻译技术,尤其的统计机器翻译,估计很长一段时间内是无法让机器翻译达到信达雅的水平,能够让人看懂就不错。但是无论如何,机器翻译确实很有用处,可以实现快速阅读,现在信息这么多,快速阅读是消灭信息爆炸的一个具体手段,当然基于自然语言处理技术的自动摘要技术也能起到类似的功能。

之前在调研机器翻译软件时,看到有两款主要开源软件,首先是国外的Moses软件,其次是东北大学推出的NiuTrans,其中NiuTrans的集成度较高,而且有中文手册,就下载编译运行,但是0.3版本的NiuTrans软件包中自带的readme有错误,折腾了一阵子没有搞定,联系了作者才知道应该阅读在线的手册,但是在笔记本上运行还是出现了问题,原因是内存不足,溢出了。期间1.0版本就发布了,找了一台服务器,将语言模型、调权等操作都完成,生成了大约600MB的翻译表和模型文件,好在将这些文件拷贝到笔记本上就可以直接使用了。翻译速度其实还是挺快的,但是加载语言模型等文件却要消耗30分钟左右,因此要准备翻译一次就很不容易了,给作者写邮件询问是否可以做个翻译服务器,答曰正在做,希望能够尽快发布开源版本。此外,NiuTrans不支持分词,需要自己分词,也对使用造成不便。

hjy找了一段分词结果,然后我用NiuTrans翻译了一下,结果如下,好坏大家自己和其他软件对比吧(需要指出由于NiuTrans的sample句对较少,大约19万句,而输入范文又是随便选取的,因此结果仅供参考):

【原文】商务部 今日 上午 举行 例行 新闻 发布会 , 发言人 沈 丹阳 回答 记者 提问 。 以下 是 部分 答 问 实录 : 【 路透社 记者 】 : 最近 美国 联邦 调查局 开始 了 一 项 关于 中国 中兴 通讯 公司 出售 美国 禁运 的 计算机 设备 给 伊朗 , FBIx 还 指控 说 , 中 兴 通讯 公司 想 要 掩盖 这个 事实 , 并且 想 阻止 相关 调查 , 不 知道 商务部 是否 知晓 这 一 调查 ? 国内 有 没有 对 中兴 公司 进行 类似 的 调查 ? 谢谢 。 【 沈 丹阳 】 : 关于 您 提 到 的 这个 问题 , 我 本人 也 只是 从 媒体 上 看到 了 报道 , 对 相关 的 细节 情况 不 太 了解 , 需要 做 进一步 了解 。 中国 政府 一贯 要求 企业 重 信守 诺 , 合法 合规 经营 。 这 件 事情 , 不论 怎样 , 我们 希望 能 得到 美方 客观 、 公正 、 妥善 的 处理 。 至于 您 提 到 伊朗 , 中国 同 许多 其他 国家 一样 , 同 伊朗 保持 正常 、 公开 、 透明 的 经贸 往来 , 我们 认为 这些 往来 不 违反 联合国 安理会 决议 , 不 应该 受到 无理 的 指责 , 谢谢 。 相关 新闻 : 传 FBIx 对 中 兴 通讯 展开 调查 多 家 美国 公司 受 牵连 路透社 报道 说 , 美国 知名 新闻 爆料 网站 hex mokix x 透露 美国 联邦 调查局 ( FBIx ) 已经 对 中国 通讯 设备 制造商 中 兴 通讯 ( Ex Copx ) 展开 犯罪 调查 , 因为 该 公司 被 怀疑 向 伊朗 出口 禁运 计算机 系统 并且 阻止 美国 商务部 对 该 笔 交易 展开 调查 。 >>>x 详细 希拉里 声称 美 将 尽 一切 力量 阻止 伊朗 拥有 核武器 据 外 媒 报道 , 美国 国务卿 希拉里 16 日 晚 表示 , 美国 会 尽 一切 力量 阻止 伊朗 拥有 核武器 。 正 在 以色列 访问 的 希拉里 在 耶路撒冷 举行 的 记者 会上 称 , 美国 将 利用 “ 其 一切 权力 和 力量 ” 阻止 伊朗 拥有 核武器 , 并 就 如何 落实 该 宗旨 与 以色列 展开 “ 紧密 磋商 ” 。

=================

【译文】

the news conference held this morning , routine news of commerce , the spokesman <丹阳> <沈> answering a reporter ‘s question .
the following are the true open story about some answer question .

reuters <【> <】> : recently , the united states federal began <调查局> a zhongxing communications company selling the computer equipment embargo the united states on china to iran , and also accused of <FBIx> said : developing the telecommunications corporation to china to conceal this fact and to prevent an , do not know whether or not known to this survey of commerce <?>
there are no similar to zhongxing company to conduct investigation of the domestic <?>
thank you .
<】> <丹阳> <沈> <【> : on this issue in you ‘ve , i had only seen from the media reports , the situation on the details related not too understanding , we need to do further understand .
an important abide by the chinese government has consistently required enterprises , and legal operating <合规> .
<>
this incident , no matter how to , we hope that can be properly handling the us side objective <、> impartiality <、> .
<>
as for you mentioned to iran , like china with many other countries , transparent economic and trade exchanges with iran to maintain normal open <、> <、> , we believe that these exchanges will not against the un security council resolutions , not should be unreasonable criticism , thank you .
relevant news and for <FBIx> <> involved in the number of developing the telecommunications investigation by the us companies reuters reports said that the united states the taiwan strait revealed that the us federal <mokix> <hex> renowned news websites <爆料> <调查局> ( <FBIx> ) have to china in the communications equipment manufacturers of developing communication ( <Copx> <Ex> ) the criminal investigation conducted
because he was suspected of this company to export embargo computer systems and prevent the us secretary of iran to investigate the deal .
<> in detail hillary claimed that the united states will do all nuclear power to stop iran <> according to a report at the outside , us secretary of the evening of 16 japan hillary said that the united states will make every nuclear power to stop iran .
the press conference held in jerusalem hillary is visiting israel said that the united states will make use of its <“> all nuclear power and <”> strength to stop iran , and <“> carried out on how to implement the purpose and israel <”> close consultations .

最近有幸邀请到NiuTrans的朱靖波老师、张春良老师和肖桐交流了一下,感觉机器翻译并非只是一个词库的问题,算法方面也是很有些门道的,未来可能树到树的翻译会取得很好的效果,但是具体发展还未可知,目前依然是基于短语、层次短语的技术占了主导地位。

朱老师很注重系统研发,除了开源的NiuTrans之外,内部还在研发一个NiuTrans Server,但是不开源,是商业版本,其中会包含各种混合算法,而且计划包含2000万句对、500万词典和200万专名,真的是很Niu了,拭目以待!

niutrans

相关信息:

  1. 全文翻译软件和服务比较之一
  2. 全文翻译软件和服务比较之二
  3. NiuTrans 下载

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注