99久久婷婷国产综合精品,国产激情精品一区二区三区,欧美激情一区二区,狂野欧美性猛交免费视频,成人影院yy111111在线观看

機器翻譯是怎么脫胎換骨的?梅宏院士為你獨家揭秘!

         十年前網(wǎng)民們還在吐槽機器翻譯軟件還沒有小學生翻譯得好。當時,一個廣為流傳的段子是:

“How are you(你好嗎)?會被翻譯成怎么是你?”,

How old are you(你多大了)?會被翻譯成怎么老是你?

一笑之余,機器翻譯似乎被等同成了不靠譜的翻譯。

2018年,機器漢英翻譯已經(jīng)能夠達到6級水平。10年間,機器翻譯技術的背后到底有著怎樣翻天覆地的變化呢?

來看我們的獨家揭秘吧!

中國科學院院士、全國信息技術標準化委員會大數(shù)據(jù)標準工作組組長、知名戰(zhàn)略科學家梅宏,走進《中國經(jīng)濟大講堂》,用通俗易懂的語言帶你領略機器翻譯技術的前世今生: 

QQ圖片20180315173950.jpg

梅宏:大家知道,機器翻譯是很難的一件事情,我們人工翻譯都不是那么容易。過去我們做機器翻譯都是怎么做的呢?

手工編寫規(guī)則的時代

我們先搞文法,基于規(guī)則的機器翻譯,通過人總結編寫規(guī)則,然后構造一個文法。原始的語言輸入之后,通過雙語詞典的查詢、調整,最后輸出一個結果。但是由于我們自然語言天生的二義性,翻譯的規(guī)則是非常復雜的,手工編寫規(guī)根本做不到,所以這個翻譯質量一直上不去。

文法規(guī)則要覆蓋20%以上的真實語句就要數(shù)萬條規(guī)則,而語義規(guī)則,自然語言是“上下文相關文法”,較之文法規(guī)則,語義規(guī)則更要復雜得多,如果沒有這個關聯(lián),你怎么理解?

大家可以看這個例子,這個是我們最典型的:

QQ圖片20180315174021.jpg

一堆的意思”,這個“意思”到底是哪個“意思”?我們看到這些“意思”,大都是能理解的,但你讓機器去理解,整個就瘋掉了,根本就不可能做到。

基于統(tǒng)計的機器翻譯時代

后來在70年代的時候,統(tǒng)計語言學就出現(xiàn)了,不再是人去產(chǎn)生規(guī)則,而通過機器統(tǒng)計,把現(xiàn)有的語料庫拿出來,完成這件事情。

 QQ圖片20180315174038.jpg

1988年,IBM提出了統(tǒng)計機器翻譯,就是用數(shù)據(jù)驅動的機器翻譯的新篇章,靠計算能力,靠大的語料庫完成,機器從數(shù)據(jù)中間自己去學規(guī)則。谷歌就走了這條路,當時它把聯(lián)合國的各種語言,形成語料庫。因為機器并不知道那個翻譯的好壞,翻譯的結果是人覺得還不錯。一個中文的字串和英文的字串,比如說中文“我吃飯”,翻譯成英文是什么樣子,大體上主流的翻譯是什么,機器進行一比對,一搜索就打出來了,并不是通過規(guī)則驅動出來的。

 

QQ圖片20180315173616.jpg

本文編輯:王洵

相關推薦