怎样快速入门考研高频词汇?

故事需要从一名叫Laurence Anthony的帅哥说起。

Laurence Anthony 同学天资聪慧,年轻轻轻就考入日本著名的早稻田大学物理系。但等到读完本科的时候他却发现自己真正喜欢的东西并不是相对论,量子力学或者希格斯玻色子,而是莎士比亚十四行诗,词汇词源和语言学研究。于是毅然转行,攻读起了语言学方向的硕士和博士。

Laurence Anthony同学博士论文的方向是语料库研究,所以经常要与各种大规模文本打交道,但在这个过程中碰到了不少瓶颈——那时还是2000年,微软还没推出Windows XP,谷歌刚刚诞生不久,诺基亚的功能机正在开始风靡全球,语料库的研究也还处于刀耕火种的半手工状态中。用计算机辅助语料库研究还属于比较前沿的一个理念,可以用的软件更是少之又少。好在我们的 Laurence Anthony 是理工科出身,写得了一手好代码。学英语懂技术,就像流氓会武术。经过不懈的努力,他终于在2002年成功开发出了一款用于语料库统计的软件:AntConc ,并借助它顺利完成了博士阶段的研究。

后来这款软件逐渐流行起来,并在后面的十几年时间里不断升级完善,被众多英语研究者参考使用。Laurence Anthony 还为此建立起了专门的网站

Laurence Anthony's AntConc


这也就是我们今天文章的主题:AntConc的介绍及使用。

AntConc 是什么?

AntConc是一款强大的绿色工具软件,由日本学者Laurence Anthony开发,具有词语检索、统计词频和生成词表等功能。使用AntConc可以很方便地统计出英文文本中的词频,并且按照单词在文本中出现的频率高低进行排列,而且还可以将统计后的结果导出。

AntConc最值得称赞的地方其实是它的lemmatizing(词簇化)功能。什么是词簇化? 举个例子,对于"walk","walks","walked",我们知道在统计时这三个单词应该归到 "walk"条目下,而不能算成不同的三个词。但计算机在处理单词时并没有这么聪明,它并不能区分出单词的单复数以及时态变化,因此我们需要建立一套规则告诉计算机应该怎么对单词进行归类。AntConc为此专门做了一个Lemma List ,列出了常见的几万个单词的所有单复数以及时态变化规律,借助Lemma list 计算机就可以准确统计出单词的数量。

通过AntConc,我们可以做一些有意思的事情,比如说统计考研英语的高频词。

考研英语试卷中的阅读题文章往往取材于经济学人,卫报,时代周刊等外媒,而这些外刊的用词往往具有一定的偏好性,这就会导致某些词的出现频率特别高,而我们的目标就是把这些高频词给找出来,重点进行巩固记忆。

而统计这些高频词最好的材料其实就是考研真题本身,为了保证统计的准确性,我们需要有一份足够大的真题样本。我找到了一份1980-2013考研英语真题合集。33年的试卷总共包含147,558个单词,样本应该足够大了。

由于AntConc不支持word文档,我们需要把它转存为txt格式,选择“文件-另存为txt”,得到一份文本格式的文档。

打开AntConc,导入真题材料,加载Lemma List,选择Word List,勾选 "Treat all data as lowercase"去除大小写的影响。点击下方的start 按钮,简单几步就可以统计出文本的词频了,结果如下:

文本总的单词数是142,217,不重复的单词数一共有7926个,每一个单词后面都有相应的词频,出现频率最高的一个单词是"the",在33年的试卷中一共出现了8289次,"a" 则紧随其后,一共出现了5611次。

接下来我们需要从这份列表中把高频词筛选出来。我对高频词的定义是:在试题文本中出现频数大于或等于3的词汇。这些词汇一共有3887个。使用软件的导出功能可以将这份词表导出来。

但此时导出来的词表仍然不是我们想要的版本,刚刚我们注意到了,排在最前面词频最高的单词都是"the","a","you" 这类单词,并没有什么参考价值,因此要想办法把这些简单的单词去掉。

怎么定义这些“简单”的单词,又怎样将它们排除掉呢?

一个最简单的事实是,越是简单的单词,在日常中出现的频率就越高。英国国家语料库(British National Corpus,BNC)的研究人员曾经对包含一亿个单词的语料库进行过分析,在此基础上他们按照词频高低顺序统计出了一份包含15000词的词表,涵盖了英语中最常见的15000个单词。

我们可以根据这一份词表进行高频词筛选。考虑到考研大纲的词汇量要求,我提取了BNC词表中的前5000个单词,在此基础上对上面的考研高频词表进行与操作,去除考研高频词表中包含的BNC前5000词。

筛选的过程并不复杂,甚至连代码都不用写。可以将单词导入到Excel表格中,利用Excel的高级筛选功能,将高频词作为列表区域,BNC前5000词作为条件区域,反向筛选后就可以得到最终的高频词表了:

为了让更好地利用这份高频词表,我将它们导入到欧路词典中,为每一个单词加上了英英释义,做成单词本,释义则来源于麦克米伦词典。最终生成的单词本为html文件(阅读体验最好),不过你可以很方便地将它们转换为其他格式,比如PDF


上面就是利用AntConc制作考研高频词表的完整流程,你可以依样画葫芦根据自己的需求制作词表——比如做一个雅思托福或者GRE的高频词表出来。

AntConc的应用范围还远不止于此,举个例子,读原版书时最容易碰到的一个问题是生词。下次你不妨试试看先用AntConc 将书中的词频统计出来,然后参考BNC词表,去除掉最简单的前4000或者前5000个单词,剩下的就是最有记忆价值的词汇了。

这样处理后你得到的将是一份为这本书量身定做的词汇表,将这些词汇都记住后再去读原版书应该会轻松不少。

AntConc另外一个有趣的应用是判断电影的难度。

回想一下,你看英文电影时一定有这样的感觉:有些电影台词很简单,有时就算不看字幕也能轻松听懂,但有些电影台词特别难,完全不知所云。简单一点的如 《当幸福来敲门》(The pursuit of happiness ),有大学四六级水平的人应该能听懂七七八八了。


复杂一点的像《香水》和《云图》,有时候你会发现连字幕都看不懂,更别说听懂了。


怎么计算电影台词中的词汇复杂度呢?

我们可以参考蓝思值(Lexile)的理念,计算台词中的首万词不重复词数。通常来说,一部电影台词的词汇数在9000到30000之间,为了便于计算,我们可以取前一万词,在此基础上统计这1万个词汇中有多少单词是不重复的。一部电影的首万词不重复词数越高,说明台词越难,要听懂电影的难度也越高。

借助AntConc可以完成这些工作。比如,这是电影Inception(盗梦空间)的统计结果:

Inception 前10068个单词中不重复的单词数为1272个。观察词频表我们可以发现,越是简单的词出现的频率越高,但有一个例外:subconscious, 它算是比较难的一个词,但它出现的频率居然比 before还要高。原因应该不难猜出来,盗梦空间里面涉及到不少关于催眠和意志的词汇,所以subconscious 这个单词频繁出现也就不足为奇了。

我用相同的方法统计了其他几部电影的首万词不重复词汇数,结果如下:


一般来说,如果一部电影的首万词不重复数在1000到1300这个范围内,那么它就可以算是一部比较简单的电影,词汇复杂度相对较低,要听懂也比较简单,如果你想通过看电影的方式来提升听力和口语,可以选择这类影片。但对于词汇不重复数超过1600的就要谨慎选择了,一般来说这类影片会较为专业,生词校多,学习起来难度太高。

上面就是关于AntConc的使用示例,你可以在网上找到更多的应用,具体的使用方式也有很详细的文档说明。希望你也能去好好利用这个软件。

最重要的一点是,要永远保持一颗好奇心,善于使用各种工具,让自己的英语学习更加高效。

附:

考研高频词下载链接:

百度云 请输入提取密码

密码:yyn9

欢迎对词表提出改进建议。

发布于 2015-09-22 00:39