機器翻譯是怎么脫胎換骨的?梅宏院士為你獨家揭秘!
十年前,網(wǎng)民們還在吐槽機器翻譯軟件還沒有小學生翻譯得好。當時,一個廣為流傳的段子是:
“How are you(你好嗎)?”會被翻譯成“怎么是你
?”,
而“How old are you(你多大了)?”會被翻譯成“怎么老是你
?”
一笑之余,機器翻譯似乎被等同成了不靠譜的翻譯。
2018年,機器漢英翻譯已經(jīng)能夠達到6級水平。10年間,機器翻譯技術的背后到底有著怎樣翻天覆地的變化呢?
來看我們的獨家揭秘吧!
中國科學院院士、全國信息技術標準化委員會大數(shù)據(jù)標準工作組組長、知名戰(zhàn)略科學家梅宏,走進《中國經(jīng)濟大講堂》,用通俗易懂的語言帶你領略機器翻譯技術的前世今生:
梅宏:大家知道,機器翻譯是很難的一件事情,我們人工翻譯都不是那么容易。過去我們做機器翻譯都是怎么做的呢?
手工編寫規(guī)則的時代
我們先搞文法,基于規(guī)則的機器翻譯,通過人總結編寫規(guī)則,然后構造一個文法。原始的語言輸入之后,通過雙語詞典的查詢、調整,最后輸出一個結果。但是由于我們自然語言天生的二義性,翻譯的規(guī)則是非常復雜的,手工編寫規(guī)則根本做不到,所以這個翻譯質量一直上不去。
文法規(guī)則要覆蓋20%以上的真實語句就要數(shù)萬條規(guī)則,而語義規(guī)則,自然語言是“上下文相關文法”,較之文法規(guī)則,語義規(guī)則更要復雜得多,如果沒有這個關聯(lián),你怎么理解?
大家可以看這個例子,這個是我們最典型的:
一堆的“意思”,這個“意思”到底是哪個“意思”?我們看到這些“意思”,大都是能理解的,但你讓機器去理解,整個就瘋掉了,根本就不可能做到。
基于統(tǒng)計的機器翻譯時代
后來在70年代的時候,統(tǒng)計語言學就出現(xiàn)了,不再是人去產(chǎn)生規(guī)則,而通過機器統(tǒng)計,把現(xiàn)有的語料庫拿出來,完成這件事情。
1988年,IBM提出了統(tǒng)計機器翻譯,就是用數(shù)據(jù)驅動的機器翻譯的新篇章,靠計算能力,靠大的語料庫完成,機器從數(shù)據(jù)中間自己去學規(guī)則。谷歌就走了這條路,當時它把聯(lián)合國的各種語言,形成語料庫。因為機器并不知道那個翻譯的好壞,翻譯的結果是人覺得還不錯。一個中文的字串和英文的字串,比如說中文“我吃飯”,翻譯成英文是什么樣子,大體上主流的翻譯是什么,機器進行一比對,一搜索就打出來了,并不是通過規(guī)則驅動出來的。
本文編輯:王洵