丹麥翻譯協(xié)會和丹麥作家協(xié)會于 2025 年 4 月發(fā)表的一份聲明(丹麥語)中提到:“有些人錯誤地從政府那里獲得了公共借閱圖書的資金,在這些圖書中,他們被列為譯者。然而,在這些案例中,他們并未真正進(jìn)行翻譯工作,只是編輯了已由機器翻譯過的文本?!?/p>
據(jù)歐洲文學(xué)翻譯家協(xié)會理事會 (CEATL) 稱,這兩個協(xié)會與丹麥出版商協(xié)會已就譯者和人工智能翻譯后編輯的署名做法達(dá)成了全行業(yè)協(xié)議。
這些協(xié)會向丹麥政府尋求法律途徑,強調(diào)根據(jù)法律,對人工智能生成和翻譯的文本進(jìn)行譯后編輯不符合公共借閱權(quán) (PLR) 報酬的條件,且(譯后)編輯不受此法保護(hù)。
公共借閱權(quán)是多個歐洲國家支持的一項法律制度,而丹麥于 1946 年成為第一個建立該制度的國家。在該框架下,政府會就圖書館公開借閱其作品而對作者、譯者、插圖畫家和音樂作曲家進(jìn)行補償。
與協(xié)會洽談后,丹麥文化和宮殿管理局更新了其網(wǎng)站,明確指出“不會為人工智能 (AI) 生成的翻譯文本的譯后編輯”支付公共借閱費,因為此類工作不符合《公共借閱權(quán)法》第 2 條的要求。
]]>然而,我們距離那個無法挽回的臨界點究竟還有多遠(yuǎn)?
翻譯,簡而言之,即是“將文字轉(zhuǎn)換成另一種語言”。然而,任何有過多種語言經(jīng)驗的人都會深知字面直譯的潛在陷阱。盡管像谷歌翻譯這樣的應(yīng)用為我們提供了快速便捷的翻譯服務(wù),但它們在語境理解、多義詞匯、成語表達(dá)、地域性用語、性別差異,以及實際技術(shù)障礙等方面仍顯得捉襟見肘。
我們多數(shù)人都曾聽聞過那些幽默或是嚴(yán)重的誤譯事例,這些誤譯往往暴露了對所謂“低價值”語言的不尊重。在我首次擔(dān)任威爾士語/英語雙語詩歌選集的合作編輯與翻譯時,便曾親歷這樣的窘境。非威爾士語使用者通過谷歌翻譯嘗試?yán)斫庀0病ぶZ西的詩作《Rhyw Bedair Awr》的主題,其正確含義應(yīng)為“大約四個小時”,但“rhyw”一詞含義頗豐。結(jié)果,詩作的標(biāo)題被譯作“四個小時的性愛”——這一誤譯雖然為活動增添了不少談資,卻也凸顯了翻譯應(yīng)用在語境把握上的巨大難題。
土著活動家羅賓·沃爾·金默爾曾將語言比作觀察世界的棱鏡,這一比喻令我深感共鳴。它讓我意識到,我們所體驗的語言越多樣,我們所能見到的色彩光譜也就越豐富。在我與資深翻譯家希安·諾西共同致力于雙語詩歌選集的編輯與翻譯過程中,這一理念始終貫穿在我的思考之中。
]]>特朗普總統(tǒng)曾要求意大利總理焦?fàn)柤獘I·梅洛尼的翻譯人員翻譯梅洛尼對意大利記者提問的回答。| 布倫丹·斯米亞洛夫斯基/法新社通過蓋蒂圖片社
本周早些時候,在焦?fàn)柤獘I·梅洛尼與唐納德·特朗普的高風(fēng)險會晤中,梅洛尼的翻譯人員在翻譯時猶豫不決,促使這位意大利1總理親自介入,翻譯了自己關(guān)于北約和國防開支的評論。該翻譯人員已為此道歉。
在周四的白宮會晤中提供翻譯服務(wù)時,被梅洛尼打斷的瓦倫蒂娜·邁奧利尼·羅斯巴赫在接受意大利報紙《晚郵報》采訪時表示,這一失誤是“可能發(fā)生在翻譯人員身上的最糟糕的事,一個可怕的挫折”。
會晤錄像顯示,特朗普總統(tǒng)要求邁奧利尼·羅斯巴赫翻譯梅洛尼對意大利記者關(guān)于其對烏克蘭問題和軍費開支的立場的提問的回答。邁奧利尼·羅斯巴赫在翻譯時似乎遇到了困難,她多次停頓并翻看筆記,隨后梅洛尼打斷了她,用英語對特朗普說。
]]>近日,蘋果公司與南加州大學(xué)(USC)合作發(fā)表了一篇文章,探討其采用的機器學(xué)習(xí)方法,旨在為iOS18操作系統(tǒng)用戶提供更多翻譯中的性別選項。
在iOS18中,用戶可以在原生翻譯應(yīng)用中選擇翻譯詞匯的替代性別建議。這一功能解決了世界上229種已知語言中有84種使用基于性別的系統(tǒng)所帶來的挑戰(zhàn)。
令人驚訝的是,英語也屬于基于性別的類別,因為它分配了陽性或陰性的單數(shù)代詞。相比之下,所有羅曼語系語言(包括超過5億西班牙語使用者以及許多其他流行語言,如俄語)都需要性別一致,這要求翻譯系統(tǒng)解決語言中的性別分配問題。
新文章通過觀察將句子“秘書對老板很生氣”翻譯成西班牙語的所有可能情況來說明了這一點。簡單的翻譯對于較長的文本來說遠(yuǎn)遠(yuǎn)不夠,因為較長的文本可能從一開始就確定了性別(“他”、“她”等),并且不會再次提及。因此,翻譯必須記住文本中參與者的分配性別。
這對于處理離散片段翻譯的基于標(biāo)記的方法來說可能具有挑戰(zhàn)性,因為它們可能會丟失性別上下文。此外,提供替代性別翻譯的系統(tǒng)不能隨意進(jìn)行,而必須確保所有語言部分都與修改后的性別名詞保持一致。
蘋果和USC的方法有效地將單標(biāo)記翻譯轉(zhuǎn)換為用戶控制的矩陣。這為在蘋果翻譯或提供翻譯服務(wù)的類似門戶中,將用戶選擇納入未來模型迭代提供了可能性。
蘋果和USC開發(fā)的模型在GATE和MT-GenEval測試集上進(jìn)行了評估。GATE包含最多具有3個性別模糊實體的源句子,而MT-GenEval包含無法推斷性別的材料,有助于理解何時不提供替代性別選項。
為了訓(xùn)練系統(tǒng),研究人員依靠了一種創(chuàng)新的自動數(shù)據(jù)增強算法,這與上述人工注釋的測試集不同。為蘋果策劃做出貢獻(xiàn)的數(shù)據(jù)集包括Europarl、WikiTitles和WikiMatrix。語料庫被分為Tag G(包含12,000個句子),涵蓋所有具有性別模糊注釋的實體的關(guān)鍵詞短語,以及G-Trans(包含50,000個句子),其中包含性別模糊實體和性別對齊。
作者利用了2019年以前的方法來為模型提供生成性別對齊的能力,使用交叉熵?fù)p失和額外的對齊損失進(jìn)行訓(xùn)練。對于數(shù)據(jù)增強程序,他們避免了傳統(tǒng)的基于規(guī)則的方法,而傾向于以數(shù)據(jù)為中心的方法,在G-Tag數(shù)據(jù)集上對預(yù)訓(xùn)練的BERT語言模型進(jìn)行微調(diào)。
在檢測到性別模糊實體的情況下,蘋果和USC探索了兩種方法:微調(diào)預(yù)訓(xùn)練的語言模型和使用大型語言模型(LLM)。對于第一種方法,他們在從G-Trans數(shù)據(jù)集中提取的雙語文本上微調(diào)了一個預(yù)訓(xùn)練的翻譯模型。對于LLM方法,他們設(shè)計了一種策略,該策略利用LLM作為編輯器,重寫提供的翻譯以提供性別分配。
將這兩種方法的結(jié)果連接起來后,該模型隨后被微調(diào)以將源標(biāo)記分類為對齊或未對齊。該項目使用的實體模糊檢測器是通過微調(diào)Facebook的xlm-roberta-large模型開發(fā)的,使用了五種語言對的組合Tag G。
在上述兩種方法的第一種中,M2M 1.2B模型與來自G-Trans數(shù)據(jù)集的雙語文本一起在Fairseq上進(jìn)行了訓(xùn)練,并使用Wiktionary提供了性別變化。對于LLM方法,作者使用了GPT-3.5-turbo。對于性別結(jié)構(gòu)對齊,他們再次使用了xlm-roberta-large,這次是從G-Trans中提取的性別對齊。
評估替代方案的指標(biāo)包括結(jié)構(gòu)(精確度和召回率)和對齊精確度。后者衡量輸出性別結(jié)構(gòu)與已知正確源身份匹配的百分比,并使用MT-GenEval方法論的δ-BLEU方法。
文章總結(jié)了研究結(jié)果,強調(diào)雖然原始模型無法生成替代方案,并顯示出對陽性形式生成的顯著偏見,但這種偏見在監(jiān)督基線中大大減少。使用增強數(shù)據(jù)訓(xùn)練的模型進(jìn)一步減少了這種偏見,并在替代指標(biāo)、對齊精確度和δ-BLEU方面取得了最佳性能。
作者總結(jié)指出,模型的成功應(yīng)放在自然語言處理(NLP)在翻譯方法中合理化性別分配的更廣泛背景下考慮,并指出這仍然是一個未解決的問題。雖然研究人員承認(rèn)所取得的結(jié)果并未完全實現(xiàn)實體級別和/或性別消歧的性別中立翻譯目標(biāo),但他們相信這項工作是未來探索機器翻譯最具挑戰(zhàn)性領(lǐng)域之一的“有力工具”。
]]>由澳大利亞人權(quán)委員會發(fā)布的這份報告深入探討了多個受疫情影響嚴(yán)重的高危群體,其中包括土著社區(qū)、家庭暴力受害者、租房者以及臨時工人。報告指出,這些群體在新冠疫情的應(yīng)對措施中遭受了嚴(yán)重沖擊。
人權(quán)專員兼報告合著者洛林·芬利強調(diào):“雖然大流行病的應(yīng)對措施成功挽救了眾多生命,但也付出了沉重的代價。不少澳大利亞人感到,在國家抗擊新冠疫情的過程中,他們的需求和困境被忽視了?!?/p>
報告進(jìn)一步指出,第一民族和移民社區(qū)所面臨的諸多問題并非僅限于此次大流行病,而是“有可能在未來的緊急狀況中再次凸顯”。
報告寫道:“因此,我們必須從這次大流行病中汲取教訓(xùn),以推動更具針對性的溝通策略,從而為未來有效的緊急應(yīng)對措施帶來切實的益處。”
在北領(lǐng)地,服務(wù)提供商向委員會反映,偏遠(yuǎn)地區(qū)的第一民族社區(qū)在獲取服務(wù)或基本信息時面臨顯著障礙,急需政府加強信息翻譯的覆蓋范圍。
報告還提到,在官方翻譯與當(dāng)?shù)卣Z言存在鴻溝的地區(qū),人們只能依賴口耳相傳的方式獲取信息,這種方式“可能缺乏完整性或準(zhǔn)確性”。
一位土著受訪者強調(diào),確保有效應(yīng)對措施的關(guān)鍵在于“深入理解并尊重第一民族社區(qū)的關(guān)系溝通和參與方式”。同時,報告中的利益相關(guān)者也表示,在與第一民族社區(qū)接觸時,必須確保采取創(chuàng)傷知情的反應(yīng)方式,這主要是因為需要充分認(rèn)識到歷史上的財產(chǎn)剝奪、殖民化以及代際創(chuàng)傷對他們所產(chǎn)生的影響。
]]>這家瑞士AI服務(wù)提供商推出了一款全新的多功能翻譯平臺。即日起,用戶將能夠在supertext.com網(wǎng)站上使用AI免費翻譯文本,并可在必要時讓專家語言學(xué)家在幾分鐘內(nèi)對其進(jìn)行檢查,費用低至5.70瑞士法郎。在線翻譯器基于最新一代的大型語言模型(LLM),并在由專業(yè)翻譯人員進(jìn)行的盲測中,在四種語言組合中的三種上超過了行業(yè)巨頭DeepL。
翻譯行業(yè)正處于不斷變化的狀態(tài)。DeepL、谷歌翻譯和ChatGPT等AI應(yīng)用正在不斷完善,但它們無法可靠地保證必要的準(zhǔn)確性,特別是在專業(yè)溝通方面。此外,根據(jù)提供商的不同,在線翻譯服務(wù)可能會使敏感數(shù)據(jù)面臨安全風(fēng)險。
新方法結(jié)合速度與安全性
Supertext正在將這種折衷方案變成過去式。用戶可以根據(jù)具體情況,在免費的全自動化翻譯和由專業(yè)翻譯人員即時審核的附加服務(wù)之間做出選擇。例如,一篇保證無錯誤的法語LinkedIn帖子的平均長度,可以在8分鐘內(nèi)以5.70瑞士法郎的價格獲得,而一頁A4紙的內(nèi)容大約需要19瑞士法郎,15分鐘內(nèi)交付。審核服務(wù)最初以六種語言組合提供,并且范圍正在不斷擴大。
Supertext首席執(zhí)行官Samuel L?ubli表示:“如今,獲得可靠的翻譯就像是在優(yōu)步出現(xiàn)之前叫出租車一樣:昂貴、緩慢且常常令人沮喪。通過代理機構(gòu)翻譯一頁A4紙的費用約為90瑞士法郎,而且需要等待24小時。新的Supertext結(jié)束了這種狀況,將速度、成本效率和可靠性結(jié)合在一個平臺上?!?/p>
瑞士制造的AI – 安全且可定制
在線翻譯器基于Supertext團(tuán)隊內(nèi)部開發(fā)的最新一代大型語言模型(LLM),該團(tuán)隊由大約100名機器學(xué)習(xí)、工程和語言學(xué)專家組成。目前,根據(jù)訂閱級別,可提供多達(dá)23種語言。企業(yè)還受益于可靠地采用其企業(yè)語言的可單獨訓(xùn)練的語言模型。
與其他提供商不同,該平臺托管在瑞士服務(wù)器上,并符合最高的數(shù)據(jù)安全標(biāo)準(zhǔn)。在付費模式中,用戶還有保證,即他們的翻譯數(shù)據(jù)將僅用于持續(xù)改進(jìn)其個人語言模型。
Supertext的AI性能明顯優(yōu)于競爭對手
由專業(yè)翻譯人員對新的AI模型進(jìn)行的盲測表明,在與行業(yè)巨頭如DeepL的質(zhì)量比較中,Supertext無所畏懼。對于較長的文本,在檢查的四種語言組合中,Supertext在三種中的表現(xiàn)明顯優(yōu)于DeepL,鑒于兩家公司各自的財力,這是一個顯著的成功。
比較DeepL和Supertext的AI翻譯
借助Supertext的企業(yè)解決方案,由于采用了專業(yè)的AI模型,公司可以獲得更好的結(jié)果,并且根據(jù)專業(yè)翻譯人員的研究,與大型科技公司的競爭相比,可打印的文本段落數(shù)量大約是前者的兩倍。
]]>翻譯通常被視為一種被動行為,僅僅是將意義從一種語言轉(zhuǎn)換為另一種語言。然而,在這看似平靜的表面之下,隱藏著權(quán)力、倫理和職業(yè)束縛的錯綜復(fù)雜,這些都圍繞著翻譯者的每一個決定。
傳統(tǒng)的倫理框架強調(diào)對客戶的忠誠和對原文的忠實,但當(dāng)這些原則與翻譯者的智力和道德行為發(fā)生沖突時會發(fā)生什么?
在這場討論中,阿卜杜勒拉希姆·布哈法對傳統(tǒng)的翻譯倫理觀念提出了質(zhì)疑,他主張采用一種自我護(hù)理的方法,使翻譯者能夠按照自己的條件在行業(yè)中馳騁。
在布哈法看來,翻譯不僅僅是將單詞從一種語言機械地轉(zhuǎn)換到另一種語言的行為。它是一項受權(quán)力配置、職業(yè)約束和翻譯者主觀能動作用影響的智力和倫理工作。
]]>榜單中同時提及了口語和手語翻譯,并指出口譯、筆譯和交替?zhèn)髯g是這些專業(yè)人士所需的典型技能??谧g員在翻譯和本地化、博物館、歷史遺址、動物園以及有趣的交通設(shè)備制造領(lǐng)域需求最大。
領(lǐng)英的數(shù)據(jù)顯示,倫敦、曼徹斯特和格拉斯哥是英國招聘口譯員最多的地區(qū)。平均所需經(jīng)驗為2.2年,大多數(shù)口譯員從事遠(yuǎn)程工作(73%)或混合職位(8%)??梢酝茰y,其余人員是在現(xiàn)場工作,但這一數(shù)字并未列入榜單。
在英國和其他地區(qū),大多數(shù)口譯員從事公共服務(wù)口譯工作,少數(shù)從事會議口譯。顧名思義,公共服務(wù)口譯員在包括國家衛(wèi)生服務(wù)(NHS)、法院和法庭系統(tǒng)以及邊防和移民執(zhí)法等公共機構(gòu)工作。
口譯是英國政府監(jiān)管的職業(yè)之一。“口譯員”一詞出現(xiàn)在政府“特許語言學(xué)家”名單中,這是對包括國家公共服務(wù)口譯員注冊處(NRPSI)在內(nèi)的不同語言職業(yè)的廣泛定義,這些組織都維護(hù)著特許語言學(xué)家研究所(CIOL)的標(biāo)準(zhǔn)。
與領(lǐng)英將口譯列為充滿機遇領(lǐng)域的樂觀排名形成鮮明對比的是,英國公共服務(wù)口譯行業(yè)有時充滿爭議的環(huán)境,尤其是在過去兩年。例如,在此期間,隨著口譯員繼續(xù)抗議多個城市的工作條件和薪酬安排,NRPSI已向司法部發(fā)送了多份正式函件,表達(dá)其對政策的看法。
]]>問:你為什么喜歡閱讀《MultiLingual》雜志?
答:這本雜志以人為本,我特別喜歡這一點。同時,它還經(jīng)常探討少數(shù)民族語言和文化,這對于保護(hù)這些語言和文化至關(guān)重要。
問:你是如何進(jìn)入翻譯行業(yè)的?
答:我在巴塞羅那自治大學(xué)學(xué)習(xí)了翻譯和口譯專業(yè)。雖然我一度猶豫是否要選擇這個專業(yè),但一旦下定決心,我就知道這是我想從事的行業(yè)。在大學(xué)期間,我有幸在格拉納達(dá)的SDL辦公室實習(xí),通過電子郵件交付翻譯作品并接受反饋。實習(xí)期間,我接觸了多種多樣的主題,包括本地化、醫(yī)療設(shè)備、合同、營銷文本和視頻游戲等。這段短暫的實習(xí)經(jīng)歷讓我對翻譯行業(yè)有了全面的了解,也讓我更加熱愛這個行業(yè)。
問:自從你進(jìn)入翻譯行業(yè)以來,商業(yè)環(huán)境發(fā)生了哪些變化?
答:最大的變化無疑是機器翻譯(MT)和人工智能(AI)的興起。雖然機器翻譯曾一度被廣泛嘗試,但效果并不理想。然而,當(dāng)我2016年開始從事自由翻譯業(yè)務(wù)時,我發(fā)現(xiàn)機器翻譯的使用量有所下降,因為許多公司開始意識到人性化元素在翻譯中的重要性。如今,隨著技術(shù)的進(jìn)步和人工智能的應(yīng)用,翻譯行業(yè)似乎又掀起了一股自動化熱潮。但我認(rèn)為,許多公司仍處于探索階段。
問:你能分享一下與第一個客戶合作或第一個項目的經(jīng)歷嗎?
答:當(dāng)然可以。八年前,當(dāng)我剛開始從事自由翻譯業(yè)務(wù)時,我的第一個客戶是我在馬拉加年輕企業(yè)家協(xié)會認(rèn)識的一位女士。她所在的公司主要從事營銷工作。我們之前曾嘗試合作過幾次,但都未能實現(xiàn)。當(dāng)她得知我開始從事自由職業(yè)時,便主動聯(lián)系了我,并提供了一個為當(dāng)?shù)刭徫镏行姆g社交媒體內(nèi)容的工作機會。這個經(jīng)歷讓我意識到,無論公司規(guī)模大小,人們更傾向于與真實的人進(jìn)行合作。
回想起來,即使那些年我建立的聯(lián)系并非都帶來了直接的業(yè)務(wù)機會,但我也給人們留下了深刻的印象。如今,我的一些早期客戶仍然與我保持著合作關(guān)系,而那些已經(jīng)轉(zhuǎn)職到其他公司的人也會再次聯(lián)系我。這讓我感到非常榮幸和自豪。
問:你認(rèn)為現(xiàn)在是進(jìn)入翻譯行業(yè)的好時機嗎?
答:說實話,這個問題很難回答,因為它取決于個人的情況和心態(tài)。有時我會覺得,除非只想從事機器翻譯后編輯(MTPE)項目,否則不建議人們輕易選擇翻譯行業(yè)。然而,另一方面,我也認(rèn)為盡管人工智能取得了顯著進(jìn)展,但翻譯人員的價值仍然不可替代。他們除了具備語言技能外,還能為公司提供許多其他有價值的服務(wù)。因此,我試圖保持這種積極的看法,以便在這個行業(yè)中更好地生存下去。
問:在未來10年里,你希望自己處于什么樣的職業(yè)位置?
答:雖然我希望自己能在未來10年內(nèi)退休,但現(xiàn)實是,到那時我還遠(yuǎn)未達(dá)到西班牙的退休年齡。因此,我的B計劃是繼續(xù)與那些重視我作為翻譯和語言顧問工作的客戶合作。這些客戶能夠正確地將技術(shù)視為一種工具,而不是降低費率的借口(對于我所從事的語言對來說,費率已經(jīng)持續(xù)低迷了10多年)。
我喜歡向客戶提供有關(guān)技術(shù)和流程方面的咨詢建議,因為許多公司在翻譯領(lǐng)域仍然是新手。他們可能沒有專門的翻譯部門,甚至不了解我們使用的翻譯工具。因此,我希望能夠與他們合作,借助語言和文化的力量幫助他們成功開拓新市場。
問:你對翻譯行業(yè)的未來有何預(yù)測?
答:我認(rèn)為,未來翻譯人員將更多地涉足戰(zhàn)略方面的工作,而不僅僅是語言層面的處理(盡管我不太喜歡這種趨勢,但我們無法逆轉(zhuǎn)行業(yè)的進(jìn)步)。同時,我也認(rèn)為翻譯將逐漸成為更大項目的一個組成部分。目前,翻譯通常被視為一項孤立且反應(yīng)性的任務(wù),但我相信未來公司會在產(chǎn)品或營銷活動開發(fā)的早期階段就更多地考慮翻譯的需求。
此外,雖然我可能有些天真,但我依然認(rèn)為這個世界充滿了無限的商機:無論是那些追求從報價到項目管理和交付全流程自動化的人,還是那些依然珍視與真人合作、希望在項目遇到問題時能及時聯(lián)系到人的客戶,都將在這個行業(yè)中找到屬于自己的位置。
]]>巴別魚——經(jīng)典科幻小說《銀河系漫游指南》中設(shè)想的翻譯動物——的夢想可能更接近現(xiàn)實。科技巨頭 Meta 的研究人員創(chuàng)建了一個機器學(xué)習(xí)系統(tǒng),可以幾乎立即將 101 種語言的語音翻譯成語音合成器以 36 種目標(biāo)語言中的任意一種說出的單詞。
大規(guī)模多語言和多模式機器翻譯 (SEAMLESSM4T) 系統(tǒng)還可以將語音翻譯為文本、文本翻譯為語音以及文本翻譯為文本。該結(jié)果于 1 月 1 日發(fā)表在《自然》雜志上。
Meta 總部位于加利福尼亞州門洛帕克,運營 Facebook、WhatsApp 和 Instagram 等社交媒體網(wǎng)站。Meta 表示,在成功發(fā)布 SEAMLESSM4T 的成功發(fā)布后,它正在將 SEAMLESSM4T 開源給其他想要在其基礎(chǔ)上進(jìn)行開發(fā)的研究人員。 LLaMA面向全球開發(fā)人員的大型語言模型。
機器翻譯在過去幾十年中取得了巨大進(jìn)步,這在很大程度上要歸功于在大型數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的引入。主要語言(尤其是英語)的訓(xùn)練數(shù)據(jù)比比皆是,但許多其他語言的訓(xùn)練數(shù)據(jù)卻非常稀缺。這種不平等限制了機器可以訓(xùn)練翻譯的語言范圍。 “這會影響互聯(lián)網(wǎng)上不常出現(xiàn)的任何語言,”紐約州伊薩卡康奈爾大學(xué)的計算機科學(xué)家艾莉森·科內(nèi)克 (Allison Koenecke) 在該論文隨附的《新聞與觀點》文章中寫道。機器人作家:語言生成人工智能的興起和風(fēng)險
Meta 團(tuán)隊以之前的語音到語音翻譯2以及名為No Language Left Behind?3的項目為基礎(chǔ),該項目旨在為大約 200 種語言提供文本到文本翻譯。根據(jù)經(jīng)驗,Meta 和其他地方的研究人員發(fā)現(xiàn),即使在訓(xùn)練數(shù)據(jù)有限的翻譯語言中,使翻譯系統(tǒng)成為多語言也可以提高其性能;為什么會發(fā)生這種情況尚不清楚。
該團(tuán)隊從互聯(lián)網(wǎng)和聯(lián)合國檔案等其他來源收集了數(shù)百萬小時的演講音頻文件,以及人工生成的演講翻譯。作者還收集了其中一些演講的文字記錄。
該團(tuán)隊還使用可靠的數(shù)據(jù)來訓(xùn)練模型以識別兩個匹配的內(nèi)容。這使得研究人員能夠?qū)⒋蠹s 50 萬小時的音頻與文本配對,并自動將一種語言的每個片段與其他語言的對應(yīng)片段進(jìn)行匹配。
]]>