然而,我們距離那個無法挽回的臨界點(diǎn)究竟還有多遠(yuǎn)?
翻譯,簡而言之,即是“將文字轉(zhuǎn)換成另一種語言”。然而,任何有過多種語言經(jīng)驗的人都會深知字面直譯的潛在陷阱。盡管像谷歌翻譯這樣的應(yīng)用為我們提供了快速便捷的翻譯服務(wù),但它們在語境理解、多義詞匯、成語表達(dá)、地域性用語、性別差異,以及實際技術(shù)障礙等方面仍顯得捉襟見肘。
我們多數(shù)人都曾聽聞過那些幽默或是嚴(yán)重的誤譯事例,這些誤譯往往暴露了對所謂“低價值”語言的不尊重。在我首次擔(dān)任威爾士語/英語雙語詩歌選集的合作編輯與翻譯時,便曾親歷這樣的窘境。非威爾士語使用者通過谷歌翻譯嘗試?yán)斫庀0病ぶZ西的詩作《Rhyw Bedair Awr》的主題,其正確含義應(yīng)為“大約四個小時”,但“rhyw”一詞含義頗豐。結(jié)果,詩作的標(biāo)題被譯作“四個小時的性愛”——這一誤譯雖然為活動增添了不少談資,卻也凸顯了翻譯應(yīng)用在語境把握上的巨大難題。
土著活動家羅賓·沃爾·金默爾曾將語言比作觀察世界的棱鏡,這一比喻令我深感共鳴。它讓我意識到,我們所體驗的語言越多樣,我們所能見到的色彩光譜也就越豐富。在我與資深翻譯家希安·諾西共同致力于雙語詩歌選集的編輯與翻譯過程中,這一理念始終貫穿在我的思考之中。
]]>特朗普總統(tǒng)曾要求意大利總理焦?fàn)柤獘I·梅洛尼的翻譯人員翻譯梅洛尼對意大利記者提問的回答。| 布倫丹·斯米亞洛夫斯基/法新社通過蓋蒂圖片社
本周早些時候,在焦?fàn)柤獘I·梅洛尼與唐納德·特朗普的高風(fēng)險會晤中,梅洛尼的翻譯人員在翻譯時猶豫不決,促使這位意大利1總理親自介入,翻譯了自己關(guān)于北約和國防開支的評論。該翻譯人員已為此道歉。
在周四的白宮會晤中提供翻譯服務(wù)時,被梅洛尼打斷的瓦倫蒂娜·邁奧利尼·羅斯巴赫在接受意大利報紙《晚郵報》采訪時表示,這一失誤是“可能發(fā)生在翻譯人員身上的最糟糕的事,一個可怕的挫折”。
會晤錄像顯示,特朗普總統(tǒng)要求邁奧利尼·羅斯巴赫翻譯梅洛尼對意大利記者關(guān)于其對烏克蘭問題和軍費(fèi)開支的立場的提問的回答。邁奧利尼·羅斯巴赫在翻譯時似乎遇到了困難,她多次停頓并翻看筆記,隨后梅洛尼打斷了她,用英語對特朗普說。
]]>時間:2025年4月7,8,9三天,
地點(diǎn)浦東新國際。
費(fèi)用1000元/天
]]>近日,蘋果公司與南加州大學(xué)(USC)合作發(fā)表了一篇文章,探討其采用的機(jī)器學(xué)習(xí)方法,旨在為iOS18操作系統(tǒng)用戶提供更多翻譯中的性別選項。
在iOS18中,用戶可以在原生翻譯應(yīng)用中選擇翻譯詞匯的替代性別建議。這一功能解決了世界上229種已知語言中有84種使用基于性別的系統(tǒng)所帶來的挑戰(zhàn)。
令人驚訝的是,英語也屬于基于性別的類別,因為它分配了陽性或陰性的單數(shù)代詞。相比之下,所有羅曼語系語言(包括超過5億西班牙語使用者以及許多其他流行語言,如俄語)都需要性別一致,這要求翻譯系統(tǒng)解決語言中的性別分配問題。
新文章通過觀察將句子“秘書對老板很生氣”翻譯成西班牙語的所有可能情況來說明了這一點(diǎn)。簡單的翻譯對于較長的文本來說遠(yuǎn)遠(yuǎn)不夠,因為較長的文本可能從一開始就確定了性別(“他”、“她”等),并且不會再次提及。因此,翻譯必須記住文本中參與者的分配性別。
這對于處理離散片段翻譯的基于標(biāo)記的方法來說可能具有挑戰(zhàn)性,因為它們可能會丟失性別上下文。此外,提供替代性別翻譯的系統(tǒng)不能隨意進(jìn)行,而必須確保所有語言部分都與修改后的性別名詞保持一致。
蘋果和USC的方法有效地將單標(biāo)記翻譯轉(zhuǎn)換為用戶控制的矩陣。這為在蘋果翻譯或提供翻譯服務(wù)的類似門戶中,將用戶選擇納入未來模型迭代提供了可能性。
蘋果和USC開發(fā)的模型在GATE和MT-GenEval測試集上進(jìn)行了評估。GATE包含最多具有3個性別模糊實體的源句子,而MT-GenEval包含無法推斷性別的材料,有助于理解何時不提供替代性別選項。
為了訓(xùn)練系統(tǒng),研究人員依靠了一種創(chuàng)新的自動數(shù)據(jù)增強(qiáng)算法,這與上述人工注釋的測試集不同。為蘋果策劃做出貢獻(xiàn)的數(shù)據(jù)集包括Europarl、WikiTitles和WikiMatrix。語料庫被分為Tag G(包含12,000個句子),涵蓋所有具有性別模糊注釋的實體的關(guān)鍵詞短語,以及G-Trans(包含50,000個句子),其中包含性別模糊實體和性別對齊。
作者利用了2019年以前的方法來為模型提供生成性別對齊的能力,使用交叉熵?fù)p失和額外的對齊損失進(jìn)行訓(xùn)練。對于數(shù)據(jù)增強(qiáng)程序,他們避免了傳統(tǒng)的基于規(guī)則的方法,而傾向于以數(shù)據(jù)為中心的方法,在G-Tag數(shù)據(jù)集上對預(yù)訓(xùn)練的BERT語言模型進(jìn)行微調(diào)。
在檢測到性別模糊實體的情況下,蘋果和USC探索了兩種方法:微調(diào)預(yù)訓(xùn)練的語言模型和使用大型語言模型(LLM)。對于第一種方法,他們在從G-Trans數(shù)據(jù)集中提取的雙語文本上微調(diào)了一個預(yù)訓(xùn)練的翻譯模型。對于LLM方法,他們設(shè)計了一種策略,該策略利用LLM作為編輯器,重寫提供的翻譯以提供性別分配。
將這兩種方法的結(jié)果連接起來后,該模型隨后被微調(diào)以將源標(biāo)記分類為對齊或未對齊。該項目使用的實體模糊檢測器是通過微調(diào)Facebook的xlm-roberta-large模型開發(fā)的,使用了五種語言對的組合Tag G。
在上述兩種方法的第一種中,M2M 1.2B模型與來自G-Trans數(shù)據(jù)集的雙語文本一起在Fairseq上進(jìn)行了訓(xùn)練,并使用Wiktionary提供了性別變化。對于LLM方法,作者使用了GPT-3.5-turbo。對于性別結(jié)構(gòu)對齊,他們再次使用了xlm-roberta-large,這次是從G-Trans中提取的性別對齊。
評估替代方案的指標(biāo)包括結(jié)構(gòu)(精確度和召回率)和對齊精確度。后者衡量輸出性別結(jié)構(gòu)與已知正確源身份匹配的百分比,并使用MT-GenEval方法論的δ-BLEU方法。
文章總結(jié)了研究結(jié)果,強(qiáng)調(diào)雖然原始模型無法生成替代方案,并顯示出對陽性形式生成的顯著偏見,但這種偏見在監(jiān)督基線中大大減少。使用增強(qiáng)數(shù)據(jù)訓(xùn)練的模型進(jìn)一步減少了這種偏見,并在替代指標(biāo)、對齊精確度和δ-BLEU方面取得了最佳性能。
作者總結(jié)指出,模型的成功應(yīng)放在自然語言處理(NLP)在翻譯方法中合理化性別分配的更廣泛背景下考慮,并指出這仍然是一個未解決的問題。雖然研究人員承認(rèn)所取得的結(jié)果并未完全實現(xiàn)實體級別和/或性別消歧的性別中立翻譯目標(biāo),但他們相信這項工作是未來探索機(jī)器翻譯最具挑戰(zhàn)性領(lǐng)域之一的“有力工具”。
]]>問:你為什么喜歡閱讀《MultiLingual》雜志?
答:這本雜志以人為本,我特別喜歡這一點(diǎn)。同時,它還經(jīng)常探討少數(shù)民族語言和文化,這對于保護(hù)這些語言和文化至關(guān)重要。
問:你是如何進(jìn)入翻譯行業(yè)的?
答:我在巴塞羅那自治大學(xué)學(xué)習(xí)了翻譯和口譯專業(yè)。雖然我一度猶豫是否要選擇這個專業(yè),但一旦下定決心,我就知道這是我想從事的行業(yè)。在大學(xué)期間,我有幸在格拉納達(dá)的SDL辦公室實習(xí),通過電子郵件交付翻譯作品并接受反饋。實習(xí)期間,我接觸了多種多樣的主題,包括本地化、醫(yī)療設(shè)備、合同、營銷文本和視頻游戲等。這段短暫的實習(xí)經(jīng)歷讓我對翻譯行業(yè)有了全面的了解,也讓我更加熱愛這個行業(yè)。
問:自從你進(jìn)入翻譯行業(yè)以來,商業(yè)環(huán)境發(fā)生了哪些變化?
答:最大的變化無疑是機(jī)器翻譯(MT)和人工智能(AI)的興起。雖然機(jī)器翻譯曾一度被廣泛嘗試,但效果并不理想。然而,當(dāng)我2016年開始從事自由翻譯業(yè)務(wù)時,我發(fā)現(xiàn)機(jī)器翻譯的使用量有所下降,因為許多公司開始意識到人性化元素在翻譯中的重要性。如今,隨著技術(shù)的進(jìn)步和人工智能的應(yīng)用,翻譯行業(yè)似乎又掀起了一股自動化熱潮。但我認(rèn)為,許多公司仍處于探索階段。
問:你能分享一下與第一個客戶合作或第一個項目的經(jīng)歷嗎?
答:當(dāng)然可以。八年前,當(dāng)我剛開始從事自由翻譯業(yè)務(wù)時,我的第一個客戶是我在馬拉加年輕企業(yè)家協(xié)會認(rèn)識的一位女士。她所在的公司主要從事營銷工作。我們之前曾嘗試合作過幾次,但都未能實現(xiàn)。當(dāng)她得知我開始從事自由職業(yè)時,便主動聯(lián)系了我,并提供了一個為當(dāng)?shù)刭徫镏行姆g社交媒體內(nèi)容的工作機(jī)會。這個經(jīng)歷讓我意識到,無論公司規(guī)模大小,人們更傾向于與真實的人進(jìn)行合作。
回想起來,即使那些年我建立的聯(lián)系并非都帶來了直接的業(yè)務(wù)機(jī)會,但我也給人們留下了深刻的印象。如今,我的一些早期客戶仍然與我保持著合作關(guān)系,而那些已經(jīng)轉(zhuǎn)職到其他公司的人也會再次聯(lián)系我。這讓我感到非常榮幸和自豪。
問:你認(rèn)為現(xiàn)在是進(jìn)入翻譯行業(yè)的好時機(jī)嗎?
答:說實話,這個問題很難回答,因為它取決于個人的情況和心態(tài)。有時我會覺得,除非只想從事機(jī)器翻譯后編輯(MTPE)項目,否則不建議人們輕易選擇翻譯行業(yè)。然而,另一方面,我也認(rèn)為盡管人工智能取得了顯著進(jìn)展,但翻譯人員的價值仍然不可替代。他們除了具備語言技能外,還能為公司提供許多其他有價值的服務(wù)。因此,我試圖保持這種積極的看法,以便在這個行業(yè)中更好地生存下去。
問:在未來10年里,你希望自己處于什么樣的職業(yè)位置?
答:雖然我希望自己能在未來10年內(nèi)退休,但現(xiàn)實是,到那時我還遠(yuǎn)未達(dá)到西班牙的退休年齡。因此,我的B計劃是繼續(xù)與那些重視我作為翻譯和語言顧問工作的客戶合作。這些客戶能夠正確地將技術(shù)視為一種工具,而不是降低費(fèi)率的借口(對于我所從事的語言對來說,費(fèi)率已經(jīng)持續(xù)低迷了10多年)。
我喜歡向客戶提供有關(guān)技術(shù)和流程方面的咨詢建議,因為許多公司在翻譯領(lǐng)域仍然是新手。他們可能沒有專門的翻譯部門,甚至不了解我們使用的翻譯工具。因此,我希望能夠與他們合作,借助語言和文化的力量幫助他們成功開拓新市場。
問:你對翻譯行業(yè)的未來有何預(yù)測?
答:我認(rèn)為,未來翻譯人員將更多地涉足戰(zhàn)略方面的工作,而不僅僅是語言層面的處理(盡管我不太喜歡這種趨勢,但我們無法逆轉(zhuǎn)行業(yè)的進(jìn)步)。同時,我也認(rèn)為翻譯將逐漸成為更大項目的一個組成部分。目前,翻譯通常被視為一項孤立且反應(yīng)性的任務(wù),但我相信未來公司會在產(chǎn)品或營銷活動開發(fā)的早期階段就更多地考慮翻譯的需求。
此外,雖然我可能有些天真,但我依然認(rèn)為這個世界充滿了無限的商機(jī):無論是那些追求從報價到項目管理和交付全流程自動化的人,還是那些依然珍視與真人合作、希望在項目遇到問題時能及時聯(lián)系到人的客戶,都將在這個行業(yè)中找到屬于自己的位置。
]]>巴別魚——經(jīng)典科幻小說《銀河系漫游指南》中設(shè)想的翻譯動物——的夢想可能更接近現(xiàn)實??萍季揞^ Meta 的研究人員創(chuàng)建了一個機(jī)器學(xué)習(xí)系統(tǒng),可以幾乎立即將 101 種語言的語音翻譯成語音合成器以 36 種目標(biāo)語言中的任意一種說出的單詞。
大規(guī)模多語言和多模式機(jī)器翻譯 (SEAMLESSM4T) 系統(tǒng)還可以將語音翻譯為文本、文本翻譯為語音以及文本翻譯為文本。該結(jié)果于 1 月 1 日發(fā)表在《自然》雜志上。
Meta 總部位于加利福尼亞州門洛帕克,運(yùn)營 Facebook、WhatsApp 和 Instagram 等社交媒體網(wǎng)站。Meta 表示,在成功發(fā)布 SEAMLESSM4T 的成功發(fā)布后,它正在將 SEAMLESSM4T 開源給其他想要在其基礎(chǔ)上進(jìn)行開發(fā)的研究人員。 LLaMA面向全球開發(fā)人員的大型語言模型。
機(jī)器翻譯在過去幾十年中取得了巨大進(jìn)步,這在很大程度上要?dú)w功于在大型數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的引入。主要語言(尤其是英語)的訓(xùn)練數(shù)據(jù)比比皆是,但許多其他語言的訓(xùn)練數(shù)據(jù)卻非常稀缺。這種不平等限制了機(jī)器可以訓(xùn)練翻譯的語言范圍。 “這會影響互聯(lián)網(wǎng)上不常出現(xiàn)的任何語言,”紐約州伊薩卡康奈爾大學(xué)的計算機(jī)科學(xué)家艾莉森·科內(nèi)克 (Allison Koenecke) 在該論文隨附的《新聞與觀點(diǎn)》文章中寫道。機(jī)器人作家:語言生成人工智能的興起和風(fēng)險
Meta 團(tuán)隊以之前的語音到語音翻譯2以及名為No Language Left Behind?3的項目為基礎(chǔ),該項目旨在為大約 200 種語言提供文本到文本翻譯。根據(jù)經(jīng)驗,Meta 和其他地方的研究人員發(fā)現(xiàn),即使在訓(xùn)練數(shù)據(jù)有限的翻譯語言中,使翻譯系統(tǒng)成為多語言也可以提高其性能;為什么會發(fā)生這種情況尚不清楚。
該團(tuán)隊從互聯(lián)網(wǎng)和聯(lián)合國檔案等其他來源收集了數(shù)百萬小時的演講音頻文件,以及人工生成的演講翻譯。作者還收集了其中一些演講的文字記錄。
該團(tuán)隊還使用可靠的數(shù)據(jù)來訓(xùn)練模型以識別兩個匹配的內(nèi)容。這使得研究人員能夠?qū)⒋蠹s 50 萬小時的音頻與文本配對,并自動將一種語言的每個片段與其他語言的對應(yīng)片段進(jìn)行匹配。
]]>翻譯機(jī)(基于硬件并使用包括基于軟件的機(jī)器翻譯在內(nèi)的技術(shù)),例如最近公布的“翻譯站”,可能具有多種用途,從將課堂內(nèi)容翻譯成新來的非語言學(xué)習(xí)者的母語。 – 英語學(xué)生為英語水平有限或沒有英語水平的家庭提供翻譯材料。然而,雖然技術(shù)可以提供快速的解決方案,但它們不一定是有效的。必須仔細(xì)考慮與這些工具相關(guān)的潛在意外后果:
為克服教育中的語言障礙所做的努力值得贊揚(yáng)。然而,ATA、AAITE 和 NAETISL 主張在學(xué)校中采取平衡的語言獲取和服務(wù)方法,將技術(shù)作為一種工具而不是一種超賣的解決方案進(jìn)行整合。通過發(fā)送未經(jīng)專業(yè)語言學(xué)家審查的外語材料,學(xué)校還可能面臨對其無意發(fā)送的信息承擔(dān)責(zé)任的風(fēng)險。
]]>羅馬——2024年11月4日
今天,我們舉辦了一場獨(dú)特的活動,探索語言的力量以及我們在通用翻譯器方面取得的進(jìn)展。我們推出了世界上最好的翻譯人工智能Lara,以及支持翻譯人員、內(nèi)容創(chuàng)作者和公司本地化需求的新工具。
介紹Lara
我們的首席執(zhí)行官M(fèi)arco Trombetti介紹了Lara,這是15年多來機(jī)器翻譯研究的結(jié)晶。2011年,我們率先推出了自適應(yīng)機(jī)器翻譯。自2017年以來,我們一直在使用Transformer模型為我們的神經(jīng)機(jī)器翻譯系統(tǒng)提供動力,該模型是為翻譯而發(fā)明的,后來成為生成式人工智能的基礎(chǔ)。在ChatGPT發(fā)布后,大型語言模型開始流行起來,許多人對它們的流暢性和處理大型上下文的能力感到驚訝,但也對它們?nèi)狈?zhǔn)確性感到沮喪。我們已經(jīng)孜孜不倦地將大型語言模型的強(qiáng)大功能與機(jī)器翻譯的準(zhǔn)確性相結(jié)合。今天,我們很自豪地達(dá)到了這一里程碑,將兩者與世界上最好的翻譯人工智能Lara相結(jié)合。
Lara通過解釋其選擇、利用上下文理解和推理來提供用戶可信賴的專業(yè)級翻譯,從而重新定義了機(jī)器翻譯。它是在全球可用的最大、最精選的真實世界翻譯數(shù)據(jù)集上進(jìn)行訓(xùn)練的。得益于我們與NVIDIA的長期合作,Lara在NVIDIA AI平臺上使用了120萬個GPU小時進(jìn)行訓(xùn)練。
翻譯9個結(jié)果照片
借助Lara,企業(yè)可以解決以前難以想象的本地化項目。翻譯人員和多語言創(chuàng)作者將在他們的日常工作中享受Lara帶來的便利,從而提高生產(chǎn)力和準(zhǔn)確性。
Lara的錯誤率僅為每千詞2.4個。2025年,我們的目標(biāo)更高——計劃利用2000萬個GPU小時來進(jìn)一步實現(xiàn)語言奇異性。
]]>作者:傅邁克 (Mike Fu)
特約撰稿人
隨著 21 世紀(jì) 20 年代上半葉的結(jié)束,一股全球文學(xué)潮流絲毫沒有減弱的跡象:人們對日本作家的故事如饑似渴。在過去五年中,日本作家在國內(nèi)外屢獲知名文學(xué)獎項,同時,隨著人們對東亞文學(xué)譯作興趣的增長,日本小說英譯數(shù)量也出現(xiàn)上升。
例如,在過去的一年里,波莉·巴頓 (Polly Barton) 翻譯的《黃油》被評為“沃特斯通斯年度之書”,該書由淺野敦子 (Asako Yuzuki) 所著,是一部受現(xiàn)實中的蛇蝎美人啟發(fā)的驚悚小說。同時,村上春樹在文壇保持著自己的重心位置,雖常年引發(fā)諾貝爾文學(xué)獎猜測但至今仍未獲獎,他在 2024 年有兩部新作問世,分別是由菲利普·加布里埃爾 (Philip Gabriel) 翻譯的《城市及其不確定的墻》,以及由杰伊·魯賓 (Jay Rubin) 翻譯的《世界盡頭與冷酷仙境》。前者是這位作家時隔六年推出的最新小說譯作,而后者是村上春樹早期作品《世界盡頭與冷酷仙境》(1991)的重譯版,之前由艾爾弗雷德·伯恩鮑姆 (Alfred Birnbaum) 翻譯。這兩部作品都踏入了奇幻世界的熟悉領(lǐng)域,對村上春樹以往作品或龐大作品中的主題進(jìn)行了反復(fù)呈現(xiàn)——這種文學(xué)上的似曾相識讓鐵桿粉絲們心滿意足,但并沒有贏得所有評論家的好評。
不過,讀者的口味并不局限于引人入勝的犯罪故事或文學(xué)巨匠之作,日本作家的主題關(guān)注點(diǎn)也各不相同,從極度嚴(yán)肅憂郁到離奇古怪、難以歸類,再到治愈系 (iyashi-kei) 說服作品中明顯更柔軟、更蓬松的作品,不一而足。今年發(fā)布的作品包括石黑正數(shù) (Kiyoshi Shigematsu) 和志村貴子 (Syou Ishida) 等以貓為主角的小說,由 E·麥迪遜·下茂 (E. Madison Shimoda) 翻譯的《我們會給你開一只貓》,以及由杰西·柯克伍德 (Jesse Kirkwood) 翻譯的《毯貓》,還有小泉今日子 (Mayumi Inaba) 的回憶錄《和貓咪米米的早晨》,由金妮·塔普利·武 (Ginny Tapley Takemori) 翻譯。
]]>