(昆明理工大学信息工程与自动化学院 云南昆明650500)
摘要:词对齐是自然语言处理领域的基础性研究课题之一,除了利用词典和句法特征来改善词语对齐外,本文提出了一种利用语义关系来改进汉-越双语词语对齐的方法。首先,在单语的语料库中利用神经网络模型训练出词语相似性模型;然后,利用词语的相似性模型来扩展IBM词对齐模型;最后,用融合词语相似性模型的GIZA++实现词语的对齐。实验结果表明,在语料规模有限的条件下,该方法有效提高汉-越词对齐质量。
关键词:语义关系;神经网络;词汇相似性模型;GIZA++
Research of Vietnamese -Chinese bilingual word alignment method based on semantic relationship
Niu Yitong1, QiuGuoke1,MaXiaojun1,LiJia1
1.The School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500,China
Abstract:Word alignment is an essential issue in the field of natural language processing. In addition to the lexical and syntactic features that are typically used, this paper proposed Vietnamese -Chinese bilingual word alignment method based on semantic relationships. Firstly, we used neural network to automatically derive word similarity from monolingual data, and then used word similarity model to extend the word alignment model. Finally, We use GIZA ++ that exploits word similarity to achieve alignment . The results show that this method can effectively improve the quality of Chinese - Vietnamese word alignment in resource-limited settings..
Key words: Semantic relationship; neural network; Lexical similarity model; GIZA++
1引言
汉-越双语词对齐研究是汉越自然语言处理的重要组成部分,其为后期的越南语依存树库构建、依存句法分析、越南语-汉语双语句子检索原型系统实现等研究工作奠定基础,也是自动构建大规模双语平行语料库的关键技术。研究汉越双语词语自动对齐,对促进中越两国之间的文化经济、科学技术等领域的发展具有重要的理论价值和现实意义。
双语词语对齐最早是由Brown[1]等作为机器翻译的中间隐含过程提出来的,采用最大期望(expectationmaximization,EM)算法估计词语对齐概率。Brown[2]等人提出了基于词对齐的五个复杂度递增的模型IBM模型1至5。IBM模型把词对齐看成是从源语言句子翻译到目标语言句子的生成过程中的隐变量,通过最大化训练数据的对数似然函数对它进行优化。IBM模型1假设对齐概率是平均对齐,即与源语言句子的长度成反比。IBM模型2假设对齐概率与源语言、目标语言的句子长度以及源语言位置和目标语言位置相关。IBM模型3和4考虑了空源语言词、繁殖率和扭曲模型。Och[3]等学者提出了对齐模板的方法,开发出基于IBM提出的5个模型的词语对齐开源工具GIZA++实现双语词语自动对齐;Vogel[4]提出了基于隐马尔克夫模型的统计机器翻译,利用HMM进行的对齐概率依赖于前一个词所对齐的词在目标语言句子的位置。即源语言两个词位置越近,它们的目标词在目标语言句子的位置也越近。然而,这些模型往往会造成低频词的对齐错误,尤其是在语料库缺乏的情况下。针对上面存在的问题,现在主要的解决方法有:对于平行语料,Vaswani[5][6]等人利用了先验分布和Zhang[7]等人使用了平滑技术来解决低频词对齐问题;另一种方法是从单语料中学习句法相关信息,将句法特征融合到词对齐模型中。例如:liu[8]等人利用句法知识,将短语结构树距离和基本的隐马尔克夫模型相结合进行词对齐。然而,对于语言之间存在较大差异的句对来说仅仅利用句法之间的关系进行对齐存在一定的问题。
在本文中,我们认为一个句子不仅仅依赖于句法结构,它的语义关系对于词对齐也是一种重要的信息。比如,如果模型不确定e对应f,但是e与e'相似,f与f'相似,并且f'确定翻译为e',那么增加了f翻译为e的概率。本文我们提出一种在单语料库中学习词语的相似性,然后用词汇的相似性来扩展词对齐模型。
2词汇相似性模型
给定一个任意的词w,假设词汇表是一个有限的集合V, w'存在于词汇表V中,我们定义一个词汇相似性模型
其中,c代表词汇上下文信息,它由w1,w2,…,w2n构成,除了w之外,其中的n个词分布在左边,剩下n个词分布在右边。子模型p(c|w)代表一种分类分布。但是,构建词语上下文模型作为分类分布可能会引起过拟合问题,词汇级的上下文关系可达到指数级|V|2n。由于前向神经网络对于语言模型的构建是非常有效的,因此,我们参数化该模型使用前馈神经网络如图2所示,该结构对于语言模型[9]的构建取得不错效果。我们把c中的每一个单词用最简单的词向量方法表示,也称为词汇的one-hot的表示。每种语言的词汇表还分别包括三个特殊符号、、
2.1训练
我们的训练数据通过收集或者采样目标语言词w,w∈V,并且从单语料库中获取这些词汇的上下文信息。子模型可以通过最大似然估算训练,然而词汇上下文模型在一定程度上难以训练,我们采取噪音对比估算[11][12]的方法,避免了计算正规化因子,而是将它看作是一个额外的可调节参数。它使用“噪声”分布来产生“噪声”样本,然后通过训练使得模型能够区分真实数据和产生的样本,是一种快速而且简单的训练方法。
2.2模型变量
上面公式中描述的词汇相似性模型可以认为是一种混合式模型,如果存在任意的上下文概率一致我们就认为c与w相似。然而,为了避免错误的负面例子,我们将上式进行归一化处理
上式中Z(w)表示归一化变量。在调整后的模型中,当所有上下文概率一致我们才能认为c与w相似。两个方法都可以得到很好的相似性,但我们在实际中后者比前者产生了更好的效果。因为大多数概率接近于0,为了计算的有效性,我们选择了与w相似性最高的k个词汇,并且进行归一化处理。表1显示了相似词汇的例子。
3词语对齐模型
我们提出的词对齐模型通过扩展标准的IBM模型。所有的IBM模型都需要构建词汇翻译概率,一般被参数化为分类分布。我们以IBM1为例,定义如下:
3.2估算词汇相似性
依赖于词汇之间相似性的质量和词汇在双语语料库中的分布,我们对词汇相似性模型直接建模可能会导致不好的效果,有些词虽然翻译概率挺高,但他们可能不能相互替换。如果我们设定
公式中I表示指标函数,词汇相似性模型可以融合到标准的IBM模型。为了达到更好的效果,我们平滑一下这两个模型,以便我们更多的依赖于词汇相似性中的罕见词而非常用词。
这个公式类似于Written-Bell平滑,根据p(w'|w)来给定
3.3训练
我们的词对齐模型也可以像IBM模型一样使用最大期望算法去最大化平行句对中的最大似然值。我们引入了额外的时间复杂度θ(k2)在上面基本模型的基础上,k是词汇类型,用于评估词汇表中的词汇相似性模型。K值越大,越接近于我们要评估的词汇表模型。
4实验
为了检验汉-越双语词对齐方法的可行性。我们使用了从网络上爬取的约含有9.5M+12.3M词汇的汉越双语文本作为训练集,用含有40k+51k手工标注的数据集对其进行评估。为了说明在语料缺乏情况下的词对齐效果,我们的实验只用了全部数据的八分之一,即1.0M+1.4M的汉越双语文本。
我们测试词汇相似性模型,越南语在我们自己构建的越南语料库上,含有403M词汇。汉语在Chinese Gigaword上,含有323M词汇。我们词汇表中含有30000常用词从语料库中获得,我们选取k=10,即10个最相似的词进行评估。
我们修改GIZA++让它融合词汇相似性的特征。我们使用GIZA++训练IBM翻译模型,并使用GIZA++的默认配置,训练过程中我们发现对IBM模型1、HMM模型、IBM模型3、4、5分别都训练5次,此时训练输出的参数的对齐质量较高。
一个汉语词语可能会对齐多个越南语词语,一个越南语词语也可能对应多个汉语词语,所以我们对平行句对进行正反双向的词对齐实验,对GIZA++产生的两个单向词对齐结果我们使用grow-diag-final-and使其对称化。
表3中的结果表明我们的方法得到了不错的对齐结果。
5结论
为了实现汉越双语词语自动对齐,本文我们提出了从单语料库中学习词汇相似性模型然后把它融入到词对齐模型中。该方法可以得到相似的词汇并且可以得到词汇相似性概率,它可以应用于任何一个概率模型和其他一些自然语言处理任务中。实验结果表明,融入词汇相似性的对齐模型得到了不错的效果。
参考文献
[1] Le H P, Ho T V. A maximum entropy approach to sentence boundary detection of Vietnamese texts [C]//IEEE International Conference on Research, Innovation and Vision for the Future-RIVF 2008. 2008.
[2] Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational linguistics, 1993, 19(2): 263-311.
[3] Franz Josef Och, and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, 2003,29(1):19-51.
[4] Vogel S, Ney H, Tillmann C. HMM-based word alignment in statistical translation [C]//Proceedings of the 16th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 1996: 836-841.
[5] Mermer C, Sara lar M. Bayesian word alignment for statistical machine translation [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational Linguistics, 2011: 182-187.
[6] Vaswani A, Zhao Y, Fossum V, et al. Decoding with Large-Scale Neural Language Models Improves Translation [C] //EMNLP. 2013: 1387-1392.
[7] Zhang H, Chiang D. Kneser-Ney Smoothing on Expected Counts[C]//ACL (1). 2014: 765-774.
[8]刘颖,姜巍. 一种基于改进隐马尔克夫模型的词语对齐方法[J].中文信息学报, 2014, 28(2):51-55.Vaswani A, Zhao Y, Fossum V, et al. Decoding with Large-Scale Neural Language Models Improves Translation[C]//EMNLP. 2013: 1387-1392.
[9] Bengio Y, Schwenk H, Senécal J S, et al. Neural probabilistic language models [M]//Innovations in Machine Learning. Springer Berlin Heidelberg, 2006: 137-186.
[10] Mnih A, Teh Y W. A fast and simple algorithm for training neural probabilistic language models [J]. arXiv preprint arXiv:1206.6426, 2012.
[11] Gutmann M, Hyv?rinen A. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models [C]//International Conference on Artificial Intelligence and Statistics. 2010: 297-304.
[12] ZHAO Jun. A survey on Named Entity Recognition, Disambiguation and Cross-Lingual Coreference Resolution. Journal of Chinese Information Processing,2009,Pages 5–13.