還在為英語學習發愁嗎?身為程序員的你可能需要這樣一份“寶典”(上)

雷鋒網 AI 科技評論按,本文作者於江水,這是他在 GitHub 上發佈的一篇文章。以下是他的原文,主要包括以下幾個部分:

  • 本指南的內容概要和目標人群

  • 語言學習的本質淺析

  • 如何構建一個識別英語的程序

  • 我的訓練方法

  • 常見問題 QA

  • 資料、工具推薦和擴展閱讀

  • 總結

本指南的內容概要和目標人群

本人上一次正式英語考試大約是五年前大學四級考試,得分 442,大學每學期考試基本是 60 多分過線就好,純屬英語渣底子很差。但是由於一些特殊需求,雅思需要考到 6.5 分及以上,所以自 2018 年 6 月份開始一直在學習英語。在學習過程中,對語言學習從陌生到熟悉,從毫無頭緒到了解一些實用的訓練方法,從亂看經驗經常換方法到總結出自己的學習方法。

經過四個月斷續學習 + 接近兩個月的全職突擊備考,考了 PTE 考試(類似雅思的英語水平測試)並拿到 63 分,對應雅思 6.5 中上,滿足大部分學校留學要求以及出國技術移民的要求。備考過程十分艱苦,個人感覺遠超高考。雖然離十分流暢的跟 Native Speaker 交流還有一段距離,但是相比四級 442 的水平有了幾倍的提升。故此編寫教程進行階段性總結,一來方便自己制定下一步訓練計劃,二來希望可以對同等水平有需求的朋友有所幫助。

本教程目標人群是想要花一些時間真正掌握英語的人,尤其適合英語渣。對於英語渣來說,網上雜七雜八的英語學習技巧和經驗不一定會有很多幫助,甚至會誤導。比如這篇回答就說了,如果別人問答主如何學英語,她頂多給一句「多看美劇,培養語感」,好在這篇回答詳細說了答主的水平和長期的努力細節,否則會誤導一大片低水平英語渣去拼命的看美劇。所以在英語學習過程中,要注意查看符合自己水平的經驗和教程,否則可能會走彎路。

如果你在尋找《21 天掌握英語》、《10 天背會 1000 詞》、《10 天搞定英語寫作》之類的資料,這份指南並不適合你。尤其是語言學習,學習週期都是以月或者年來計的,

你越早明白語言學習沒有技巧,就會越少浪費時間和金錢在各種資料和經驗上面,走越少的彎路

由於網上各種英語學習技巧的效果跟學習者的水平相關,所以本指南會深挖語言學習的本質(主要用中文舉例)並用程序員易於理解的方式去思考,並提供自己根據本質推演出來的訓練方法和經驗做參考。重中之重是你要根據本質自己設計適合自己的訓練方法,同時可以甄別網上看到學習方法和資料,判斷是否適合自己使用

需要補充的是,由於本人的水平有限而且也在持續學習,後續會經常完善、升級、更新本指南,強烈建議 Watch 並時而回來看看。因此如果轉載本指南,請保留出處避免信息過時。如有異議或者建議,也十分歡迎在 Issue 中討論。還需要注意的是,由於本文是文本形式,不好播放聲音,所以用中文來描述一些單詞的錯誤發音,在日常英語學習中應該使用音標而不能使用中文標註發音。

語言學習的本質淺析

語言的本質功能是人與人或物體之間的意識、知識的交換,它是幾種方法中最高效和具備擴展性的方法,但並不是唯一方法。舉幾個例子:

1. 在國外旅行,當地語言可能不會,但不會餓死。點餐的時候可以用 this 大法或者手指指菜,當然也可以打開大眾點評之類的,給服務員展示圖片下單。

2. 看一本俄語、韓語、日本語的 JavaScript 書籍時,你可能不懂上下文是什麼意思,但你看到中間的 JavaScript 示例代碼,就明白上面可能講的是什麼東西。

3. 一個外國人表情憤怒、語速飛快、聲音大聲,即便你聽不懂他在說什麼,但你可以明白他現在很憤怒,可能在罵人。

從上面的案例你可以看到,即便你不懂語言,也可以交換意見,只是掌握語言之後,你可以更精準、更快、更容易的交流、交換、表達。

通過語言的本質,我們可以知道:

  • 語言只是一種表達方式,作為媒介將人的意識意念傳遞給其他人或物體,因此可以推導出:

  • 腦子好使但語言表達不行,在別人看來等於腦子不行

  • 語言受限於表達能力,對意識、知識的傳遞是有損的,尤其是翻譯,損失更大(所以翻譯的最高要求 信達雅 其實對翻譯者要求非常高,要先理解轉換為自己意識,再用另一門語言精準表達意識)

基於上面我們可以進一步推導出:

  • 語言的學習,是學習雙方都能理解的表達方式和表達思維。比如:apple 對於你是蘋果,對於對方也是蘋果;英文的思維習慣是從細節到具體(地址先說門牌號最後是國家,日期先說天最後是年份)而中文思維習慣是從大到小。

  • 語言的表達不能通過轉換為自己熟悉的語言再轉換。比如:在實際交流中,你不能將一段英語翻譯成中文,理解了意思再想出中文,再翻譯成英文表達出去。

    一是信息有損,二是思考的過程太慢影響交流的時效性。實際上有些英文句子只可意會不可翻譯,所以很多熟悉兩門語言的人會常常混用表達。

如何構建一個識別英語的程序

現在我們不討論你如何學英語,而是讓你構建一個可以識別、交流英語的程序,你會如何設計

簡單的需求分析

以中文為例,當你聽到一個女人對一個男人說:「你是一個男人嗎?」時,你會收集到哪些信息?你需要哪些信息來明確這個女人想表達的確切意思?

首先是聽力輸入,你需要確保麥克風錄入了音頻,然後拿到的聲波內容是 U*#@&!&&*。之後我們需要將聲波內容輸入到一大堆分析器中進行分析,並得到比較精準的意圖。

第一個可能是性別分析器,通過一定的規則識別出這是一個男性的聲音還是女性的聲音。因為這句話是男的說出來還是女的說出來表達的意思是不一樣的。

第二個就是內容識別器,先是加載粵語匹配引擎和粵語語料庫發現聲波無法匹配解析,那麼換成普通話引擎和語料庫。此時如果你的語料庫裡有「你」、「是」、「一個」、「男人」、「嗎」這些聲音素材,那麼就可以匹配解析出這句話:「你是一個男人嗎?」。換言之,如果你沒有粵語語料庫和解析引擎,即便是給你一段粵語錄音你也聽不懂。如果這句話有一個生僻單詞你語料庫裡沒有,那麼也是無法識別出來

之後還有更多識別器,比如年齡、情緒識別器、重音和疑問語氣識別句等,這些因素共同決定了這句話究竟想要傳達什麼意思。如果是一個女性的激動等感嘆語氣「你是一個男人嗎!」,那麼可以推測出這個女的跟男的有一定的關係,這個男的做出了一些傷天害理的事情導致這個女性在質問。如果是一個輕聲細語的疑問句「你是一個男人嗎?」,可能是一名女性想確認對方的性別。當然更準確表達這個意圖的句子應該是「你是男性嗎?」。

比較基礎的方案設計

上面需求分析只是簡單的介紹了 聲音 -> 聽力識別器 -> 意圖 的過程,實際上

語言交流是聽說讀寫,其中包含兩個識別器(聽力識別器和視力識別器),一個核心理解器,兩個表達器(口語表達器和書寫表達器)。通過對應的實際場景,我們可以簡單的梳理出對應需要的功能。

# 聽力識別器

  • 聽力能力

  • 說明:要求可以輸入聲音並轉換成一種可分析的信號。

  • 訓練:買個好麥克風,對應人類是保護好耳朵和聽力。

  • 口音識別器

  • 說明:各類方言比如粵語,各種口音比如東北口音、廣東口音、英式發音和美式發音。

  • 語言特性識別器

  • 說明:語言之間會有不同特性,比如中文沒有略讀,都是一個一個字念出來,而英文會為了說話省勁而略讀或者連讀,比如「drink it」並不是單個蹦的「準克一特」,而是類似「準 kei 特」。中文的「喝它」就是「喝它」,不會有類似「赫特」之類的變化。

  • 訓練:擴充特殊語言引擎的匹配規則,擴充語料庫,當聽到「準 kei 特」可以識別出是「drink it」。

  • 音量調節和雜音處理器

  • 說明:可以通過算法過濾無用雜音,並將小音量調大使其清晰。人類天然進化出這種能力,無需特殊訓練。

  • 語氣、性別、身份、語速識別器

  • 說明:人類天然進化出這種能力,無需特殊訓練。

  • 上下文緩存器

  • 說明:交流過程要有上下文內容緩存,結合輸入理解器。

# 視力識別器

  • 視力能力

  • 圖形識別器

  • 說明:不同字體、變形(英文大小寫、中文繁簡體等)都可以識別出來具體字符,同時需要識別標點符號等輸入理解器。

  • 訓練:識別能力、精準度和速度。比如一眼看出 message 和 massage 是不一樣的。

  • 上下文緩存器

# 理解器

理解器可以說是最重要的部分了,也是最難的部分

  • 語料庫

  • 說明:字母、單詞、發音、多重語境含義、歷史文化背景、不同形態,同義詞反義詞相近詞。

  • 訓練:需要長期積累和擴充,需要大量訓練。

  • 識別引擎

  • 說明:單詞拼裝起來的句型句式、語法、時態含義和規則、標點符號、單複數、慣用表達。

  • 訓練:單點突破,專項訓練,逐步體系化積累。

  • 思考和思維能力

  • 說明:針對意圖結合之前的記憶以及經驗得出自己想要表達的意圖。

  • 訓練:結構性表達,思維能力鍛鍊,思考和總結能力。這個與語言無關。

  • 上下文緩存器

# 口語表達器

當理解器思考運算並得到想要表達的意圖之後,就需要開始表達傳遞出去。

  • 意圖語料組裝器

  • 說明:將意圖結合語料中的單詞、句型句式、慣用表達進行匹配組合,挑選出最符合你意圖的語句。

  • 發音器

  • 說明:根據組裝出來的內容,結合特殊的連讀、略讀等語言特性,轉換成發聲信號。對應人類的話是

    控制舌頭、聲帶和呼吸系統的肌肉使其變成對應形狀,讓氣流通過聲帶發出對應聲音

# 書寫表達器

  • 意圖語料組裝器

  • 書寫表達器

  • 說明:將語料組裝結果以視覺的方式表達,對於人類是控制手部肌肉書寫出對應形狀。

從上面可以看出,口語聽力相對於閱讀寫作更加困難,主要因為實時性的要求。你必須迅速反饋不經過思考,這要求你要無意識的去用英語表達,所以語言學習沒有技巧,只有大量訓練。

我的訓練方法

受限於篇幅,這裡我只提供部分我覺得比較重要、有效的方法,並在 QA 部分會對常見能力的誤區做一些解答。

在訓練之前

# 做好 Benchmark 並設置目標

無論是做性能優化還是做什麼事情,第一件事肯定是先做當前狀態的記錄,並設置一個目標和期限。

對於英語,你可以測試當前詞彙量,並對詞彙量有一個目標;也可以設置目標為流暢的看技術大會視頻,能聽懂 90% 的內容。我更建議通過雅思、託福或者 PTE 這種專業英語水平考試來做目標。一方面這種專業考試是聽說讀寫全方位測試你的英語能力,相比其他測試更加客觀一些而且能體現你的短板。另一方面就是如果出國留學或者工作,也可以作為你英語能力的證明。當然缺點就是要備考,然後考一次差不多 2000 塊錢。我本人選擇了 PTE 考試,可以查看詳細介紹。

沒做 Benchmark 是我備考期間最後悔的一件事情。上一次測試還是大學四級,由於程序員必須掌握一定的英語,所以在日常工作中我非常注重英語訓練:手機和電腦系統設置全英文、搜索問題用英文、英文技術視頻能看懂一半、經常閱讀英文技術文檔、時間日記用英文、commit messages 全部英文、刷完多鄰國的英語教程、刷完賴世雄的《發音從頭學》以及堅持了一段時間流利說的懂你英語課程。這些操作都給了我

主觀的自信,所以剛開始我認為只要給我一個半月就可以搞定雅思了,結果閉關學了一個半月,連真題的題目要求都看不懂。再搜搜網上經驗,連留學生都得複習 2-4 個月。才慢慢的意識到前面的嘗試,就像用 Dreamweaver 或者亂七八糟的代碼拼湊做網頁一樣,倒也可以滿足一些需求,但在專業前端工程師(專業英語考試)面前,都是渣渣。

# 抱著懷疑、認真嚴謹的態度

這並不只是學習英語需要的態度,但是在學習英語的過程中,我感受頗深。看到一個老師說的或者網上的知識,第一反應要去質疑跟自己的知識進行對比,確定無誤後再吸收

曾經上過滬江網校的單詞課,授課老師是專業英語培訓又留過學考試成績也好,但還是有個別單詞讀錯了,比如 resident 的 s 讀了 s 的音,但其實是 z 的音,所以就反饋給助教了。通常來說國外英語老師犯錯的概率肯定比國內英語老師的低,但也不能保證全對,比如之前我發現了 Magoosh 一個卡片的奇怪單詞,反饋之後的確是拼錯了。還有 Youtube 上一個高讚的音標發音示範教程,又是美女還有嘴形視頻非常好了,但是到了清輔音這裡,在 p、t 和 ʧ 的發音明顯聽到了有個呃的聲音,喉嚨明顯震動了。。。果斷棄之。

擴充語料庫的訓練方法

經過上面分析,可以得出英語學習最關鍵的內容就是語料庫,其次就是語法(識別引擎)。

語料庫並不只是詞彙,訓練學習方法也並非簡單的背單詞。

如果通過聽力識別器輸入語料,首先我們要能區分口音,比如當前語料的英式發音、美式發音、澳洲發音、印度發音是什麼樣。之後就是一些連讀、弱讀和重音變化規則。通過口音、連讀和重音等規則正確解析得到詞句短語之後,開始進入解析器流程。我們需要知道其中每個單詞的多重含義,將其含義一個個的匹配放入上下文語境結合重音等得到最準確的含義。這時還可能遇到一些詞典裡沒有的新詞或者老詞新意,比如「給力」、「呵呵」或者各種歪曲解釋的「不可描述」的成語等,這些都是人們新造或者賦予了新意思的詞,這些詞意詞典並不一定會收錄但廣泛在一個圈子裡使用和交流,這就涉及到文化、俚語、流行語等。此外

還需要用語法進行下一步解析,比如時態、標點、語氣、句型句式等。

經過上面流程才可以解析出比較準確的意思,做出回應還要逆向再來一遍

首先你要按照一定邏輯和結構梳理好你想表達的意圖。這一步其實跟語言無關,中文閱讀理解能力好的人,英文只要看懂了閱讀理解能力也會很強,有條理的人不只是說話有條理,做事情也會很有條理和邏輯性。想好表達之後你就要開始從語料庫抽取最符合你意圖的詞句,並按照合適的語法進行組裝,這時候就可以看出一個人語料庫大小和水平。比如:表達我喜歡一個梳妝檯,只有最基礎語料庫的我只能說出:我喜歡這個桌子上有鏡子的東西。這時,看到這句話的人可能知道你想表達喜愛一張桌子和鏡子的東西,但不知道具體是什麼。如果語料庫裡有更龐大的名詞庫和程度形容詞,就可以說出:這就是我夢寐以求的帶有地中海風格雕刻、橢圓梳妝鏡的梳妝檯。看到這句話你腦子裡應該可以出現這個梳妝檯大體的樣子吧。之後,你

還需要發音說出來,先從語料庫裡抽取對應的詞句聲音,再結合略讀、弱讀、重讀等規則控制舌頭、喉嚨肌肉發出來對應的聲音,至此算是完成一次對話。

上面只是聽力識別器,視力識別器大同小異,無非是識別各種字體、大小寫、標點符號等,不再贅述。

通過上面分析可以得知,語料庫裡的每個語料通常需要以下信息:

  • 多種口音的聲音,比如:英美澳印等。

  • 不同詞性和時態下,不同的發音和重音位置變化,比如:resume 在名詞下表簡歷,發音 /ˈrez.ə.meɪ/,而動詞表繼續之前暫停的事情,發音 /rɪˈzuːm/,如果你發錯了聲音,則會導致對方解讀錯誤。

  • 單詞的多重含義,比如:current 常見意思是形容詞當下的,但實際上還有名詞的 水流、潮流 等意思。曾經做閱讀理解看到帶有水流意思的句子一臉懵逼,沒法用 當下 的意思來解釋和理解這個句子。同樣 spring 除了 春天 還有 彈力、泉水 等完全聯想不到的意思。

  • 同義詞及其對比、反義詞等,因為你的回覆可能需要否決或者加強觀點,這些詞可以幫助你更好更精準的表達。比如: raise 和 rise 有什麼區別,什麼場景下適用?還有 under、beneath、underneath 和 below 等,要怎麼用。

  • 語料相關的俚語、文化、衍生詞等。比如:clump 這個單詞本意是草叢之類的意思,但是你可以搜下 Google 圖片,形容詞 clumped 還算正常,但名詞搜出來完全變成了一種奇怪的生物。因為這個單詞正好是兩個熱門美國人物名字合起來的發音,所以老美虛構了一個人出來調侃。因此如果看到 twitter 上有這個單詞,要多考慮下是不是在調侃政治人物。

  • 相關的常見固定搭配和用法。比如:focus on 和 pay attention to 區別以及介詞的不同。

  • 名詞的單複數形態和動詞的各種時態變形及其發音規則

    。比如:hair 在不同詞性下既可數又不可數,反過來說,也可以通過這個判斷出此處 hair 要表達的意思。s 結尾通常有 z、s 和 əz 三個發音,ed 結尾也有 d、t 以及 id 等情況。read 更奇葩,過去式和過去分詞都是 read,但是過去式發音變了,讀作 /red/,換言之,需要通過這個發音來識別這個行為是過去發生的還是現在。

除了語料之外的語法,就靠單點專項突破,比如時態種類和規則、詞性和句子組成結構以及時間和數字的組合規則和發音方法等等,這裡不再贅述。

# 擴充語料庫的訓練方法實戰

例如看到一個 clump 單詞想要學習,可以這樣做:

1.第一遍開始認識單詞:

  • 通過 Cambridge Dictionary 查詢單詞意思,可以看到是否可數、各種釋義和對應的例句、關聯詞和對比等等。Merriam Webster 是美式在線字典,如有精力也可以作為知識補充,但是例句和界面不如 Cambridge Dictionary 好用。

  • 查看音標,嘗試發音(需要先把音標練熟,參照下面教程),收聽詞典中給出的英式和美式的真人發音,看下自己的發音是否準確?哪裡不對?是音標還是重音?練對為止。

  • 打開 Forvo 收聽這個單詞不同人的發音,可以嘗試跟讀以便錄入自己的音頻語料庫。

  • 打開 Google Translate語音輸入,儘量帶上耳機或者用耳麥嘗試發音,查看是否能穩定識別出當前單詞。如果不能,請回到上面步驟,對 Google Translate 播放母語真人發音音頻查看能否識別。如果母語真人發音可以識別,說明你的發音有問題,請重複上面步驟調整發音到可以識別為止。

  • 打開 Google 搜索,輸入當前單詞 + vs 即可看到近義詞和易混淆詞彙,搜索查看相關對比。

  • 不是特別抽象的單詞,可以打開 Google 圖片搜索進行搜索,通過圖像加深記憶。我用圖片搜索 clump 時,才發現了兩位候選人的合體的意思。再舉一個例子,bay 和 gulf 在詞典裡都有海灣的意思,那它們之間有什麼區別嗎?用 Google 圖片搜索一下你就可以發現,gulf 要比 bay 大的多。

  • 將單詞以及有趣的發現記錄在 Anki裡面,只需要點擊 Add 並添加單詞即可,也可以在下方多加一些註釋,可繁可簡不需要花太多時間。將在後面的 QA 部分解釋為什麼要用 Anki。

2.第二遍在 Anki 裡面複習,看到單詞嘗試發音識別,嘗試回憶相關的意思、用法以及圖像,儘可能的回憶。如果感覺沒問題那麼就點擊 Good 或者 Easy,否則就選擇 Again 或者 Hard。如果掌握不好,請重複第一遍步驟加深記憶。

3.第三遍重複第二步。

4.第 N 遍,已經基本掌握。

每隔一段時間應該導出一份單詞列表,放在 Danci88上面進行聽寫。這個工具雖然比較簡陋,但是非常實用。通過聽寫可以看出對這個單詞的掌握程度,如果你腦子瞬間出現這個單詞則表示掌握了。

值得注意的是,上面步驟是相對完整的學習步驟,在實際學習過程中針對不同類別的單詞應該可繁可簡

。比如我在 Anki 建立了 7 個語料庫,分別是:

  • 發音錯題本:第一眼看到單詞發出的聲音無法識別或者與實際發音不符。這類單詞要注重音標、發音識別、多語音辨音等,要用 Google 翻譯來識別測試。

  • 聽力單詞本:在聽寫或者聽力時,沒有聽出並寫出的詞句。這類單詞要注重發音和聽寫訓練

  • 常見名詞本:例如國家、地區等。這類單詞只需注重發音和聽力識別即可,常見單詞注重拼寫以及瞭解相關文化歷史,不常見甚至不需要去學怎麼拼寫,畢竟寫的機會不多,而且可以輕易搜到。

  • 拼寫錯題本

    :這類單詞認識意思、會讀,但是拼寫錯了。其實很多常見的單詞,都覺得習以為常,但真正讓你拼寫的時候卻拿捏不準。這類單詞就要注重拼寫和聽寫,以及多在鍵盤上敲打建立肌肉記憶。

  • 新單詞本:這個就是遇到的比較重要的新單詞,需要按照上面流程進行學習。這類單詞就是重複刷記憶。

  • 熟詞生僻意思單詞本:這個主要記錄一些很熟悉的詞的生僻意思。比如 champion 比較常見的是名詞冠軍,但其實也有動詞捍衛的生僻意思。

  • 連讀訓練本:這個是在練習口語閱讀或者複述句子時,覺得很繞口的詞句。比如 the very idea of a police force was seen as foreign as that is 這句話。這類語料要注重斷句、重讀、聲調變化和氣息控制,重複讀到流暢即可

上面步驟好像很多,而且需要記憶的內容量好大,有什麼技巧來快速穩定的記憶嗎?

# 記憶單詞、語料庫唯一的銀彈:重複訓練

時間回到初中,我英語不是很好,路上遇到同行英語老師便問道學習英語有什麼技巧嗎?老師微笑說:Practice、Practice and Practice,我卻不以為然,這應該是我走過的最大的彎路。

高中之後,為了提升記憶力,我做了很多嘗試和訓練。比如七田真的《超右腦照相記憶法》以及《魔術記憶》等,經常對著曼陀羅圖片看、上學放學路上眨眼記車牌、瞬間記住一串手機號以及按照《魔術記憶》的聯想技巧記憶一些東西,希望能練到過目不忘。看起來是挺神奇挺有效的,尤其是《魔術記憶》裡面的「聯想記憶法」、「定樁記憶法」、「記憶宮殿記憶法」等,隨便一個人都可以快速記憶一串不相關的關鍵詞。

正是如此,這類英語學習速記技巧也成了各種網上學習平臺割韭菜的視頻教程,還賣價不菲。通過幾個單詞聯想讓試看的觀眾覺得神奇,從而腦熱買下教程,大部分人買了不看,即使看了練了也沒啥用。

作為過來人回頭來看,這完全是彎路,這些速記方法大多是表演性質的,根本沒法固化成自己的能力。請你回憶一下,你為什麼認識 commit 這個單詞?是因為通過什麼其他單詞聯想出來的嗎?是因為通過某個圖片關聯想起來的嗎?並不是,當你用 git 提交時,你幾乎天天都遇到這個單詞,同事天天交流用這個單詞,正是一遍遍的在你面前出現、聽到才讓你非常熟練的掌握這個單詞。如果你不認識 commit 這個單詞,那麼說說你是怎麼記住你的那麼長的身份證號碼的?是通過對數字圖像化、故事化編排的?還是大量重複見到和用到?

你越早明白語言學習沒有技巧,就會走越少的彎路、花越少的冤枉錢。——這是我走過 13 年的彎路近期得出的結論。

通過重複訓練得到的能力還會更持久,就像你的 QQ 號,即便過了這麼多年沒用應該還可以熟練的背出來吧。這也是為什麼要用 Anki 的原因,具體介紹詳見 QA 章節。

發音和聽力訓練方法

發音和聽力是相輔相成的,都是需要使用語料庫的聲音素材。所以練發音的時候,能發出某種特殊的聲音,也能讓你聽力能分辨出來;反之,先能分辨出某種聲音,你才能模仿發出來。

# 音標要反覆刷,刷到熟練、準確為止

【音標是語音識別的最小識別單位,用於建立最基礎的語音語料庫】

我在這裡踩了坑。在我學會打字之前一直不會拼音,但也正常掌握中文發音。所以在上英語課時不懂音標就算了覺得跟中文一樣肯定沒問題,但其實這走了一個很大的彎路。

郭傑瑞的《美國人學英語竟然不學音標!為啥中國人要學?》很好的解釋了這個問題。簡單的說 Native Speaker 生活在這個語言環境下,模仿別人的聲音,也不斷的被糾正這個聲音,又有大量的輸入自然會很準。但對於中國人來說顯然有問題,你模仿的這個人的發音可能就是錯的,也沒有人給你糾正,甚至你的錯誤發音會誤導其他人。

即便是在阿里巴巴工作的時候,也時常遇到這種情況。比如 Button 這個高頻簡單的詞彙,一直念「巴特嗯」,但是一同事念「波特嗯」好奇怪,搜了下發音不知道搜了哪國口音,聲音聽起來的確像是「波特嗯」,之後我也一直念「波特恩」。直到我學會了音標才能十分確定這個單詞的真正發音就是類似「巴特嗯」。舉這個例子是想說,只有音標才是一個單詞最精確的發音,涉及到口音以及發音者水平等等因素,你不確定聽到的發音是絕對正確的,只有看到音標你才能確定。

之前在阿里工作時用到 Fusion(現已開源),這個單詞我在阿里聽到了至少十個版本的發音,印象中沒有一個是對的。原因很簡單,這個單詞裡有個比較「難發」的音 ʒ。之所以難發,是因為在漢語中沒有這種聲音,我們從來沒練過發出這種聲音,所以不經過訓練,口腔肌肉和氣息很難發出這個聲音導致單詞發錯音。可以在 forvo 上面聽聽多位老外錄的發音,可以看到下面仍然有兩個奇怪的聲音,如果不知道音標模仿這倆聲音那就非常悲劇了。當然最準確的還是 Cambridge Dictionary 上面的發音,權威、專業且準確。所以訓練音標最重要的目的是補充你之前發不出的聲音,並且可以辨音

具體訓練過程,我先按照網上推薦用了賴世雄的《發音從頭學》,不同時間跟著教程刷過三遍,原以為沒問題了結果發現還是不行,而且音標是個很奇怪的東西,美式和英式符號有所不同。而這本書主要是美式,網上經常搜出英式音標,所以時常懵逼。這裡我推薦直接在 Youtube 上找 IPA 視頻來刷,比如 International Phonetic Alphabet (IPA) | English Pronunciation 這個是我見過最好的 IPA 發音教程,附帶了賴世雄書裡沒有的基礎規則和英美對比。但仍然有部分單詞的美式發音不夠準確,所以還要推薦一個 48 個音標的標準美式發音配合來看,這個的好處是有嘴形可以模仿,發音的關鍵就是嘴形、舌頭位置、氣息相互配合產生聲音,有些聲音無法發到位的原因就是嘴形、舌頭等不到位。例如 three 的咬舌音 θ,如果你舌尖沒放到牙上吐氣,就是發不出來。

# 通過 Google 翻譯識別糾音

【正確的發音是正常、準確交流的前提,語料庫裡的素材必須保證正確,糾音是積累正確語料中非常關鍵的一步】

當我覺得準備差不多了的時候,進行了一次 PTE 模考,結果超出我的想象。發音和口語流利度居然是 0 分,這意味著我 PTE 測評程序認為我說的不是英語,有超過一半的語音無法識別對。所以我到底說的是什麼?

所以我在淘寶上找到了 1v1 的糾音課,才發現有大量很基礎的單詞都讀錯了。比如 school 直接讀 四顧,漏了 l 的音,實際發音類似 四顧奧;同樣的 idea 讀成了 愛第也餓,其實沒有捲舌音。

人肉糾音顯然不適合大量訓練,一是貴,二是反饋慢不能實時反饋,三是有些問題可能還是發現不了。由於 PTE 是語音識別,機器打分。我很快就想到了用 Siri 來識別我說的東西準不準,但其實 Siri 是偏日常化的口語模型,面對複雜單詞等會強行轉換成日常對話並不合適。Google 翻譯便成了最佳選擇。

Google 翻譯有足夠的技術和訓練素材來做語音識別引擎,由於是翻譯,會盡可能原汁原味的解析。如果質疑它的準確度,你可以讀一段中文讓它識別,或者播放一段清晰的英文語音試試看。

在意識到自己發音問題很嚴重時,我開始了艱難的糾音過程。方法很簡單,就是找個帶耳麥的耳機或者麥克風(務必要用外置聲音輸入設備,否則識別可能不準),打開https://translate.google.as/(之所以打開 .as 是因為這個域名下面會默認啟用美式發音、識別引擎)

,查看是否識別

可以說單個單詞,也可以說一個句子。我先從句子開始,說一句話看看是否識別,找到識別錯的單詞進行單獨訓練,之後再回頭讀句子。為了節約時間,一個句子 80% 可以識別就算可以過了。其實英語學習是螺旋式上升,當你讀到 80%,你再死磕也很難提升,但是訓練其他的內容過段時間回來看,很輕鬆就可以識別到 80% 以上。這個跟看技術書一個道理,當你卡在一個地方,不要停繼續下去,後面回頭二刷、三刷就會發現莫名其妙的就懂了。

剛開始特別艱難,我發現連 these 這種最常見最簡單的單詞我都讀錯了識別不出來,本質問題首先是 ð 和 z 這倆音標本身發音不準,其次是這倆連起來在一個單詞中快速讀的時候,舌頭肌肉轉不過來。所以糾音第一天上午練了一個半小時的 these 直到基本可以識別出來。當時挺絕望的,感覺這種糾音方式得糾到什麼時候。其實後面越來越快,因為表面上你只糾音了 these 這一個單詞,其實你把所有帶 ð 和 z 的單詞都練過了。

糾音經驗總結:

  • 發音訓練時務必要有糾音。最好是人,最差是 Google 翻譯語音識別。在沒有糾音之前,很多發音發錯了自己是察覺不到的,即便是自己音標很熟悉也有可能在組合起來的時候出錯。如果出錯沒人糾正自以為正確繼續訓練,還不如不練,後期更難糾音。

  • 大量訓練。在這個過程中可以明顯感覺到,單個音標讀準讀對,並不意味著組合起來的單詞就可以讀對,同樣單個單詞可以發音很準,並不意味著在讀一個句子的時候這個單詞可以讀的準。從小到大,大量訓練才能真正無意識讀出來

# 通過 Youtube 學習

【Youtube 的海量高質量學習資源,是建立語料庫的非常好的素材】

Youtube 簡直是學習利器。上面有無數的英語講師錄製視頻教外國人學英語,同時視頻本身用的是比較簡單比較慢速的英語,可以順便練習聽力。

比如連讀 H 省略的教程 How to Link: words that begin with H - American English Pronunciation,關於英語重音的教程 Word Stress in English | How to Pronounce...,-ed 結尾的發音規則How to say -ed endings in English、s 結尾的發音規則How to pronounce words ending in S 和 ex 前綴的發音規則 3 ways to pronounce the EX sound in English。太多太多優質教程,你可以用英文關鍵詞搜索一下。

除了專項技巧,還有很多單詞發音對比視頻。當我發音 Google 無法識別的時候,我會搜下 xxx pronunciation 關鍵詞。比如非常常見的 value 這個單詞,之前一直讀作類似 歪溜,其實看完 How to Pronounce Value, Valuation, Evaluation才發現美式讀法是類似 歪奧 油 兩個音節,糾正之後識別率就是 100% 了。還有 million、billion 這些單詞,也一直沒法識別,看完How to pronounce MILLION, BILLION, TRILLION-American English Pronunciation 就容易發一些。還有數不盡的類似音單詞對比,比如最近看的How to say ONE and RUN - American English Pronunciation Lesson,看完對部分音標的分辨能力會提升。

此外還有一些很有意思的視頻,比如英語的洗腦繞口令 Betty Botter Bought Some Butter - Nursery Rhymes。總之,要善用 Youtube 來尋找學習資料,個人比較推薦的將放在下面資料推薦部分

# 影子跟讀

【影子跟讀將擴展你的語料庫,並打磨你的發聲肌肉提升你的口語表達器能力】

影子跟讀就是像影子一樣跟讀一段聽力。做法很簡單,就是播放一段英語聽力,錯開幾秒或者同時照著文本、模仿聲音進行跟讀。

分析可得:

  • 邊聽邊看,會擴充語料庫,可以錄入聲音並跟單詞進行掛鉤。

  • 模仿跟讀,會提升重音和語調變化,同時鍛鍊口腔肌肉等。

  • 對照文本可以發現日常英語中對常見單詞的連讀等細節,通過發聲可以鍛鍊相關技巧。

所以大量重複訓練是有效的關鍵。通常使用專業廣播素材例如 科學 60s 或者 經濟學人 這樣的播客來訓練,幾句話大概時長控制在 40s 左右。老師給出的要求是跟讀

至少 50 遍,直到可以流暢一致的跟讀,最好不看文本進行跟讀。然後要錄下音頻進行對比,找自己讀的不一致的地方

實踐過程中,剛開始最為痛苦,你會發現老外說話速度很快,自己的嘴很笨老是打結。沒錯,影子跟讀就是要訓練使其不打結。發音的本質還是肌肉、氣息和聲帶的控制,你可以無視單詞無視意思,就像唱歌一樣模仿。前期可以一句一句跟讀,然後串起來刷遍數,通常到了 30 遍的時候,你會覺得可以基本跟上節奏。50 遍的時候基本能讀的差不多了。

推薦的資源和工具請見下方資料推薦部分。

# 精聽和泛聽

【精聽和泛聽是擴展聽力語料庫的重要方法】

精聽的訓練方法:

  1. 播放一個句子,並嘗試默寫下來

  2. 再重複聽這個句子,不斷補充和完善你的句子,直到你再也無法繼續完善

  3. 對照答案,查看原句是什麼樣的

  4. 分析為什麼沒有寫出原句,這一步最重要。問下自己:

  • 是遇到了生詞?

  • 是單詞拼錯了?

  • 漏了或者加了 -s、-ed 後綴?漏了或者聽錯了 a、the?

再聽一遍,默寫下來,最好再跟讀幾遍

從這個訓練方法不難看出,精聽是擴展音頻語料庫非常關鍵的訓練方法,它既補充了語料庫的素材,也訓練了對聲音的敏感度,同時還讓你可以分辨連讀細節,更重要的是糾正了你的語料庫素材。因為當你聽寫完了之後,通常錯誤會有以下幾種:

  1. 單詞不認識 -> 按照上面學習單詞的方式學習 -> 擴展新的單詞語料庫

  2. 聽錯了單詞,或者認識的單詞沒聽出來 -> 當前單詞的發音雖然知道,但其實缺少多樣化的口音素材或者你之前對這個單詞發音就是錯的 -> 完善、糾正音頻語料庫

  3. 漏了或者加了 -ed、-s,以及 a、an、the 等 -> 對這些單詞在句子裡的發音規則不熟,由於通常音標只會標註單詞本身而不會標記單詞變形,所以需要專項去訓練 -> 提升對聲音細節的辨別

  4. 發音規則不熟悉、連讀失爆等聽錯,重讀弱讀規則不熟悉,例如 group is 聽成 grapy、I've been there 中 have 漏聽 -> 日常口語為了省力和突出重點會有連讀和重讀等,尤其是 H 開頭的單詞通常聽不到 H,常見 is 等都會略讀,was 等會變聲跟音標不同 -> 學習特殊規則,提升語言特性識別器能力

關於第 4 點,推薦視頻 How to Pronounce Contractions: American English Pronunciation 看完你就知道老外發音有多懶,不關鍵的單詞能省就省,全靠你自己腦補。

由此可以看出精聽是訓練聽力最關鍵最有效的方法。訓練過程建議使用 Excel 來記錄自己練過的句子並做標記用於回顧,可以看下我的筆記。

泛聽的訓練方法:

  1. 隨便找一份聽力材料。

  2. 聽,並儘可能想你聽到了什麼、它說了什麼。

通常可以在走路、健身、吃飯的時候隨便播點材料,最好是自己感興趣的,當然也不限制。其實看美劇如果不看字母也基本相當於泛聽。這種訓練方法看起來非常簡單,當然效果也十分有限,它僅可以擴充音頻語料庫。

在備考前半部分時間,每天下午三點我會固定跑步半小時,這時候會播放聽力進行泛聽。能聽出一些單詞,但是很多單詞聽不懂。當第二天學習了某些新單詞之後,再泛聽同一個聽力材料的時候,

感覺就像解鎖這塊聲音亂碼一樣,可以聽出剛學的這個新單詞了。所以泛聽的意義在於將多種口音下的語音物料關聯你的單詞物料,提高這個單詞的聲音敏感度。僅此而已,不要期望有更大的效果。

總之,聽力訓練最重要的還是去找到你聽不出來的東西並將其練到能聽出來,精聽是一個好方法,如果有精力, 泛聽也可以部分輔助。

英語思維訓練

理解器和組裝語料表達也是非常關鍵非常難的一個部分。首先你要熟悉英語思維,其次還要用英語的思維從自己語料庫中抽取語料組裝表達。

訓練這一能力的方法就是轉述,具體訓練方法如下:

  1. 輸入一段英文材料,一段文字或者一篇文章。聽力或者文本。

  2. 在一定時間內聽或者閱讀,並試圖理解。

  3. 想象你將對第三個人介紹這段材料的內容,用自己的表達去說或者寫出。

  4. 對照原材料,查看是否有表達出錯、不夠準確的地方,總結學習原材料的表達方式和詞句

  5. 過段時間重複嘗試轉述這段素材,重複第 4 步

你可以選擇 聽力 -> 轉述 -> 說 或者 閱讀 -> 轉述 -> 寫 這樣的訓練路徑,他們只是訓練了不同的接收器和表達器。

從轉述的訓練方式可以得出它鍛鍊了什麼:

  1. 理解能力。你必須先準確理解內容才能表達清楚。如果對比原文發現自己表達不準確,也可以說明沒有搞明白原意。

  2. 組織語料能力和英語思維。語料庫通常有大量的正向輸入,但是不經過訓練很難逆向組裝輸出。用原文對比自己的輸出,可以改善、補充自己組織語料的能力。

這裡也強烈推薦惡魔奶爸的英語寫作訓練方法,對轉述訓練有更詳細的細節描述。

受限於篇幅,這裡不再過多介紹其他方法。當你搜到一個訓練方法,可以按照上面方法進行推導,查看可以訓練到哪些部分,再決定是否要使用這個方法進行訓練。

以上就是程序員英語學習指南的上半部分,下半部分請看見https://www.leiphone.com/news/201901/xwBOsDdSGA0uvnZ8.html?type=preview

來源:https://github.com/yujiangshui/A-Programmers-Guide-to-English

雷鋒網


分享到:


相關文章: