作為壹個在海邊長大的孩子,我從來沒有見過大海。但這並沒有妨礙我年少時對大海的幻想和向往。
童年的海洋是水族館裏的壹只蝙蝠(後來被稱為蝠鱝),壹只奇怪的水母和壹只色彩斑斕的珊瑚...
後來長大了,大海成了家裏書架上的書名:《海底兩萬裏》《金銀島》《魯濱遜漂流記》...
現在我們也知道,大海見證了哥倫布的大航海,貢獻了達爾文的進化論,也承載了路飛的海賊夢。
主體
十幾年過去了,回想起小時候看過的那本關於海的書,劇情早就忘記了。在感慨時光飛逝的同時,也激起了我重溫舊書的興趣。
小時候,老人與海是我最喜歡的小說,所以就從這壹本開始。因為我渴望知道小說講的是什麽,我也想發現壹些我之前忽略的東西。所以這壹次,我試圖通過統計分析來理解這部小說。
這是壹部2516字的小說。小說總字數26780。好像每個詞平均出現10次左右。
1.首先,我想知道這本書的單詞難度。
通常越短的單詞越簡單,所以我統計了不同長度單詞數量的分布。
三個字母的單詞最多。打開單詞列表,發現大部分都是初中單詞,比如:all、sky、sea,當然也有壹些生僻字,比如:rig(器具)、fin(鰭)等等。
老人與海,四個字母的單詞只占1/4。為了對比,我統計了60道雅思閱讀題的單詞分布。如下圖所示,雅思閱讀中,單詞長度超過4的單詞占比高達1/2。
這說明老人與海這兩個詞比雅思容易讀多了。仔細想想也是有道理的。《老人與海》的內容比較活躍,而雅思閱讀則以《科學美國人》、《經濟學人》等專業文章為主。
2.然後,我想知道小說中不同詞語的出現頻率。
所以,我比較了去重前後單詞數量的分布。
(去重:同壹個單詞的重復只計壹次)
紅色是去重前的字數,藍色是去重後的字數。很明顯,大部分單詞在重復前是2-4個字母,而重復後大部分是4-7個字母。可見,2-4個字母的單詞雖然很少,但使用頻率很高,可謂語言的基石。另壹方面,超過四個字母的單詞,單詞越長,使用的次數越少。而這些也是學英語時最頭疼的單詞。
最短和最長的單詞是什麽?
據統計,只有三個單詞1個字母,卻在小說中出現了907次。這三個字是:A,我和J,A和我是當之無愧的,但是J是什麽字呢?我打開小說開始搜索,找到了原文:“給我講講偉大的約翰·j·麥格勞。”他說jota代表J,“原來J是中間名若塔的縮寫。
有35個兩個字母的單詞,在小說中出現了4700次。經過壹番觀察,我發現了壹些奇怪的詞,比如va,la等等。在小說裏搜索la,找到原文。原文是:“他總是認為大海是拉瑪爾,這是人們愛她的時候用西班牙語對她的稱呼。”La mar(乍壹看還以為是昂貴的護膚品牌la mer),原本是西班牙語,意為大海。
看到這個詞,我立刻想到了英文單詞marine。詞源學上,marine是從拉丁語mare(海)演變而來的。西班牙語是壹種浪漫的語言,是拉丁語的壹個分支,所以西班牙語中的mar和英語中的marine都來源於拉丁語mare。看來學好詞源不僅可以幫助妳學習英語,還可以融合其他的羅曼語。
除此之外,我對這本書裏最長的單詞很好奇。雖然只有兩個,但是壹個* * *只出現了五次。經過統計,人們發現它們是自覺的和磷光的。第壹個詞是正常。至於第二個詞,如果不考gre,最好忽略。
接下來我想看看這部小說裏有哪些長難句。
於是我統計了不同長度句子數量的分布。
據統計,整部小說由1918句組成。長度相同的句子歸為壹組,壹共有63組。六個字組成的句子最多,***140句。
作為中國培養的學生,我最關心的就是長難句。畢竟那是考試的障礙。所以我算了最長的壹句話。這個句子由69個單詞組成。是這樣的:“從那以後,他開始夢見長長的黃色沙灘,他看見第壹只獅子在黎明時分來到沙灘上,然後是另壹只。他走過來,下巴擱在船頭的木板上,船在離岸的晚風中拋錨,他等著看是否會有更多的獅子,他很高興不難看出,這句話雖然長,卻是由幾個簡單句組成的復合句。征服每壹個簡單的句子。
如果妳覺得這句話已經挺長了,那我們來對比壹下雅思閱讀中的長句。統計了60道雅思閱讀題,發現雅思閱讀中最長的句子。
這句話來自雅思劍橋8閱讀題。這本讀物的名字叫《天才的本質》。這句話由118個單詞組成,幾乎是上壹句話長度的兩倍。它是:“在天才的神話中,人們普遍認為,如果人們在壹個領域有天賦,他們必須在另壹個領域有所防備,知識分子不切實際,天才燃燒得太快太快而耗盡,天才的人是古怪的,他們是身體虛弱的,天才和瘋狂之間只有壹線之隔,天才存在於家庭中,天才如此聰明,他們不需要特殊的幫助, 這種天賦等同於高智商,某些種族比其他種族更聰明、更擅長音樂或數學,天才得不到認可和獎勵,逆境使人明智,或者有天賦的人有責任使用他們.
看了這句話,我覺得海明威友好多了。
這個對比也證明了《老人與海》在句子層面比雅思閱讀簡單很多。
接下來,為了找出這部小說在講什麽,我試著找出最重要的話。
在這裏,我使用TF-IDF統計方法。這個算法會對壹系列文章中每篇文章的每個單詞進行評分。分數越高,該單詞對該文檔越重要。
為了得到盡可能準確的結果,我的語料庫包含了幾十部小說和作品,從《血字研究》到《哈姆雷特》和《國富論》。
現在我們來看看統計結果。
上圖是老人和大海最重要的40個字。最先吸引我的詞是:魚、海豚、沙丁魚、海龜等等。看著這些文字,我仿佛潛入了大海,看著壹群群的魚遊過。
此外,還有小船、槳、桅桿、船尾、舵柄和魚叉。壹個漁夫劃著船,拿著魚叉盯著大海的畫面已經跳到了頁面上。陽光和微風(breeze)可能是指有時天氣還不錯。
現在我知道故事的背景了。但我對發生的事情還是壹頭霧水。畢竟,壹部獲得諾貝爾文學獎的小說,不太可能只是關於漁民輕松舒適的捕魚生活。
6.為了進壹步理解故事,我想在時間軸上重新審視這些文字。
所以我用了另壹個工具:word位置圖。
上圖中,藍色豎線標出了文字在文章中出現的位置。我用紅框把小說分成三個部分,每個部分9000字左右,然後我用黑框選了壹些位置。
妳壹眼就能看出,魚是整篇文章的重點。毫無疑問,這是壹個關於釣魚的故事。
讓我們看看第壹部分。密集出現的詞是大和餌,可能表示漁民發現了壹條大魚,然後開始準備放餌。第二部,海豚頻繁出現。是因為漁民想抓海豚嗎?
小說的前兩部分很平靜,好像沒有什麽值得註意的地方。
開始看第三部分,內容最豐富。
出現的第壹個詞是圓。魚在船周圍遊泳嗎?然後,我發現第三部分反復提到了shark。可能船被鯊魚襲擊了!漁民們的反應是什麽?
往下看,只見魚叉(harpoon)先頻繁出現,然後是刀(knife)。漁民在反擊鯊魚嗎?然後,我發現了hit這個詞,和shark的位置高度重合。可能是鯊魚在撞船,也可能是漁民在還擊。
再往下看,oar(槳)和skiff(獨木舟)也被反復提及。也許深陷險境的漁夫正在用槳擊打鯊魚,也許他正在拼命劃槳以逃離危險。
壹場激烈的鬥爭正在展開。漁夫會怎麽樣?
毫無疑問,這部小說可以用統計學的方法更定量地理解。但要想欣賞精彩的情節,還是得打開書,壹句壹句的讀。