蘋果推出性別包容性語(yǔ)言翻譯解決方案
近日,蘋果公司與南加州大學(xué)(USC)合作發(fā)表了一篇文章,探討其采用的機(jī)器學(xué)習(xí)方法,旨在為iOS18操作系統(tǒng)用戶提供更多翻譯中的性別選項(xiàng)。
在iOS18中,用戶可以在原生翻譯應(yīng)用中選擇翻譯詞匯的替代性別建議。這一功能解決了世界上229種已知語(yǔ)言中有84種使用基于性別的系統(tǒng)所帶來(lái)的挑戰(zhàn)。
令人驚訝的是,英語(yǔ)也屬于基于性別的類別,因?yàn)樗峙淞岁?yáng)性或陰性的單數(shù)代詞。相比之下,所有羅曼語(yǔ)系語(yǔ)言(包括超過(guò)5億西班牙語(yǔ)使用者以及許多其他流行語(yǔ)言,如俄語(yǔ))都需要性別一致,這要求翻譯系統(tǒng)解決語(yǔ)言中的性別分配問題。
新文章通過(guò)觀察將句子“秘書對(duì)老板很生氣”翻譯成西班牙語(yǔ)的所有可能情況來(lái)說(shuō)明了這一點(diǎn)。簡(jiǎn)單的翻譯對(duì)于較長(zhǎng)的文本來(lái)說(shuō)遠(yuǎn)遠(yuǎn)不夠,因?yàn)檩^長(zhǎng)的文本可能從一開始就確定了性別(“他”、“她”等),并且不會(huì)再次提及。因此,翻譯必須記住文本中參與者的分配性別。
這對(duì)于處理離散片段翻譯的基于標(biāo)記的方法來(lái)說(shuō)可能具有挑戰(zhàn)性,因?yàn)樗鼈兛赡軙?huì)丟失性別上下文。此外,提供替代性別翻譯的系統(tǒng)不能隨意進(jìn)行,而必須確保所有語(yǔ)言部分都與修改后的性別名詞保持一致。
蘋果和USC的方法有效地將單標(biāo)記翻譯轉(zhuǎn)換為用戶控制的矩陣。這為在蘋果翻譯或提供翻譯服務(wù)的類似門戶中,將用戶選擇納入未來(lái)模型迭代提供了可能性。
蘋果和USC開發(fā)的模型在GATE和MT-GenEval測(cè)試集上進(jìn)行了評(píng)估。GATE包含最多具有3個(gè)性別模糊實(shí)體的源句子,而MT-GenEval包含無(wú)法推斷性別的材料,有助于理解何時(shí)不提供替代性別選項(xiàng)。
為了訓(xùn)練系統(tǒng),研究人員依靠了一種創(chuàng)新的自動(dòng)數(shù)據(jù)增強(qiáng)算法,這與上述人工注釋的測(cè)試集不同。為蘋果策劃做出貢獻(xiàn)的數(shù)據(jù)集包括Europarl、WikiTitles和WikiMatrix。語(yǔ)料庫(kù)被分為Tag G(包含12,000個(gè)句子),涵蓋所有具有性別模糊注釋的實(shí)體的關(guān)鍵詞短語(yǔ),以及G-Trans(包含50,000個(gè)句子),其中包含性別模糊實(shí)體和性別對(duì)齊。
作者利用了2019年以前的方法來(lái)為模型提供生成性別對(duì)齊的能力,使用交叉熵?fù)p失和額外的對(duì)齊損失進(jìn)行訓(xùn)練。對(duì)于數(shù)據(jù)增強(qiáng)程序,他們避免了傳統(tǒng)的基于規(guī)則的方法,而傾向于以數(shù)據(jù)為中心的方法,在G-Tag數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練的BERT語(yǔ)言模型進(jìn)行微調(diào)。
在檢測(cè)到性別模糊實(shí)體的情況下,蘋果和USC探索了兩種方法:微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型和使用大型語(yǔ)言模型(LLM)。對(duì)于第一種方法,他們?cè)趶腉-Trans數(shù)據(jù)集中提取的雙語(yǔ)文本上微調(diào)了一個(gè)預(yù)訓(xùn)練的翻譯模型。對(duì)于LLM方法,他們?cè)O(shè)計(jì)了一種策略,該策略利用LLM作為編輯器,重寫提供的翻譯以提供性別分配。
將這兩種方法的結(jié)果連接起來(lái)后,該模型隨后被微調(diào)以將源標(biāo)記分類為對(duì)齊或未對(duì)齊。該項(xiàng)目使用的實(shí)體模糊檢測(cè)器是通過(guò)微調(diào)Facebook的xlm-roberta-large模型開發(fā)的,使用了五種語(yǔ)言對(duì)的組合Tag G。
在上述兩種方法的第一種中,M2M 1.2B模型與來(lái)自G-Trans數(shù)據(jù)集的雙語(yǔ)文本一起在Fairseq上進(jìn)行了訓(xùn)練,并使用Wiktionary提供了性別變化。對(duì)于LLM方法,作者使用了GPT-3.5-turbo。對(duì)于性別結(jié)構(gòu)對(duì)齊,他們?cè)俅问褂昧藊lm-roberta-large,這次是從G-Trans中提取的性別對(duì)齊。
評(píng)估替代方案的指標(biāo)包括結(jié)構(gòu)(精確度和召回率)和對(duì)齊精確度。后者衡量輸出性別結(jié)構(gòu)與已知正確源身份匹配的百分比,并使用MT-GenEval方法論的δ-BLEU方法。
文章總結(jié)了研究結(jié)果,強(qiáng)調(diào)雖然原始模型無(wú)法生成替代方案,并顯示出對(duì)陽(yáng)性形式生成的顯著偏見,但這種偏見在監(jiān)督基線中大大減少。使用增強(qiáng)數(shù)據(jù)訓(xùn)練的模型進(jìn)一步減少了這種偏見,并在替代指標(biāo)、對(duì)齊精確度和δ-BLEU方面取得了最佳性能。
作者總結(jié)指出,模型的成功應(yīng)放在自然語(yǔ)言處理(NLP)在翻譯方法中合理化性別分配的更廣泛背景下考慮,并指出這仍然是一個(gè)未解決的問題。雖然研究人員承認(rèn)所取得的結(jié)果并未完全實(shí)現(xiàn)實(shí)體級(jí)別和/或性別消歧的性別中立翻譯目標(biāo),但他們相信這項(xiàng)工作是未來(lái)探索機(jī)器翻譯最具挑戰(zhàn)性領(lǐng)域之一的“有力工具”。