這套477頁的開源電子書和598頁的課件是寫給機器翻譯愛好者的學習資料
自然語言處理是人工智能皇冠上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理最典型的應用技術之一。自20世紀90年代起,機器翻譯邁入了基於統計建模的時代,發展到今天,深度學習等機器學習方法已經在機器翻譯中得到了大量的應用,因此目前也是相當火爆。想必同學們也會經常在網上找一些好的學習資源。
最近,筆者在github上發現了一份機器翻譯的教程,項目的GitHub地址為:
https://github.com/NiuTrans/MTBook
電子書截圖1
電子書截圖2
這套教程對機器翻譯的統計建模和深度學習方法進行較為系統地介紹,不僅有相應的原理介紹和實現代碼,還提供了實戰案例,並通過圖例對一些形式化定義和算法進行解釋(共320張插圖),對初學者來說,極為友好,可以學會建立自己的模型。
電子書截圖3
值得一提的是,這份機器翻譯教程還很貼心地提供slides,每個章節都有對應的課件,slides 共有598頁之多。整理好的slides,直接下載PDF就能使用,這人文關懷,無微不至。
slides 截圖 1
slides 截圖 2
slides 截圖 3
就有網友評價道:算法、參數設置實驗都比較細緻,對小白友好,對專業領域的小伙伴很有幫助。
廢話就不多說了,讓我們一起來具體看看都有哪些內容吧:本教程共分為七個章節,章節的順序參考了機器翻譯技術發展的時間脈絡,同時兼顧了機器翻譯知識體系的內在邏輯。各章節的主要內容包括:
第一章:機器翻譯簡介
第二章:詞法、語法及統計建模基礎
第三章:基於詞的機器翻譯模型
第四章:基於短語和句法的機器翻譯模型
第五章:人工神經網絡和神經語言建模
第六章:神經機器翻譯模型
第七章:神經機器翻譯實戰(參加一次比賽)
電子書截圖 4
如果在學習中遇到相關問題,還可以點擊下面的網址,加入討論區答疑:
這份名為《機器翻譯:統計建模與深度學習方法》的教程是由肖桐、朱靖波老師編著,東北大學自然語言處理實驗室· 小牛翻譯聯合出品的。作者表示,開源的本質是,通過對於源代碼的免費共享使得無論軟件還是硬件都可以通過社會化協作的方式,吸引更多志同道合者。這種“人人為我,我為人人”也是他們團隊做開源項目所推崇的。撰寫這份教程的目的,是讓更多的人理解並學會機器翻譯技術,並讓這項技術幫助更多有需要的人。這套教程可以供計算機相關專業高年級本科生及研究生學習之用,也可以作為自然語言處理,特別是機器翻譯領域相關研究人員的參考資料。
目前,所有源代碼均已開放。上架不到一周的時間,在GitHub上的熱度已經突破1000顆星星~這麼好的資源,同學們趕快學起來吧!