中国海洋大学在国内外语类顶刊《外语教学与研究》发表研究成果
http://www.huaue.com  2026年3月8日  来源:华禹教育网

  中国海洋大学语言大数据研究团队在国内外语类顶刊《外语教学与研究》2026年第1期(第58卷第1期)发表论文《基于词嵌入模型的英汉翻译对等词数据库构建及其效度研究》。论文作者为中国海洋大学陈士法、刘羽丰、郑冰寒、李潇辰,以及西南交通大学杨仪。研究获得国家社科基金项目“英汉心理词汇表征及计算模型研究”资助,中国海洋大学语言大数据实验室提供了数据支持。

  翻译对等词(translation equivalents)指两种语言中语义对等的词汇。然而,跨语言词义很难做到完全重合,同一英语词往往存在多个可选的汉语译词(如teacher可译为“老师”“教师”“先生”“教员”等),其“对等程度”存在差异。传统基于双语词典或“第一译词”的对等词确定方法,容易受到辞典编纂、学习环境、语言水平等因素影响,从而导致翻译对等词提取的主观性强、一致性弱。该研究提出基于词嵌入模型的以语义协同度(semantic alignment)为核心指标的翻译对等词度量思路,进而构建英汉翻译对等词数据库并对其效度进行系统验证。

  在研究设计上,团队首先整合多源数据库构建英汉翻译映射集。在既有英汉翻译对等词数据库的基础上得到1,652个英语单词,并汇集三部权威英汉词典(《牛津高阶英汉双解词典》第九版、《朗文当代高级英汉词典》第五版、《剑桥高阶英汉双解词典》)、跨语言数据库(NorthEuraLex、Multi-SimLex)以及翻译过程研究数据库(CRITT TPR-DB)中的译词信息,最终形成10,978对英汉翻译词对。随后,研究以英、汉维基百科语料为输入语义空间,训练词嵌入模型,提取英语单词及其汉语译词的词向量,通过余弦相似度与皮尔逊相关计算语义协同度,实现对英汉翻译词对“语义对等程度”的连续、细粒度测量,构建了英汉翻译对等词数据库。


  图1. 不同语义协同度区间下的英汉翻译词对频次


  图2. 英语单词的汉语译词数量分布直方图

  该数据库在规模与结构上具有鲜明特点:一方面,库容量大,覆盖1,652个英语单词与10,978个汉语译词,并呈现更充分的一对多映射关系;另一方面,译词语义协同度呈连续分布且“非对等性”明显,绝大多数词对的语义协同度处于中低水平(图1),同时仍存在一定比例的负协同度词对,表明部分翻译对等词在跨语言语境使用模式上可能呈现相反特征;此外,原词翻译歧义性强,92.7%的英语单词对应两个及以上汉语译词(图2),反映英汉翻译映射的复杂性与“多译并存”的常态化特征。


  图3. 按字母排列的英语单词汉语译词配对顺序一致性分析

  在效度验证方面,研究采用“与现有资源对比+跨语义空间复现”的双重有效性验证思路。第一,将语义协同度与既有数据库中的人工语义相似度评分、主要译词使用概率进行相关分析,发现均呈显著正相关,说明该指标能够反映汉英双语者对翻译词对语义相似性的认知特征;第二,更换语义空间(以“英国国家语料库(BNC)”与“国家语委现代汉语通用平衡语料库”为输入语料库)复建数据库,发现不同语义空间下的语义协同度高度一致,且同一英语单词的汉语译词排序具有较高一致性(图3),表明该方法具备稳健性与可复现性。

  综上,该研究认为基于词嵌入模型构建的英汉翻译对等词数据库客观性强,能够较为真实地反映英汉翻译词对的语义对等程度,可为双语加工、翻译加工与相关实验研究提供更大规模、连续可度量的材料基础。

  文:刘羽丰
 关于中国海洋大学更多的相关文章请点击查看 

特别说明:由于各方面情况的不断调整与变化,华禹教育网(Www.Huaue.Com)所提供的信息为非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性,仅供参考,相关信息敬请以权威部门公布的正式信息为准。