英语语料库及词频表介绍

作者&投稿:资政 (若有异议请与网页底部的电邮联系)

在英语学习的旅途中,词汇是基石,而选择正确的语料库和学习策略则是关键。让我们深入探讨几大重要的英语语料库,它们分别是:


GBC:海量词汇宝库

GBC,拥有惊人的1550亿词汇,历史词汇丰富,但对非母语学习者可能价值有限,部分词汇仅出现过一次。对比COCA等资源,有助于确认常用核心词汇。


COCA:权威词频库

COCA,作为美国当代英语的基准,其权威性不言而喻。它提供Wordlist和genre frequency词汇表,按口语、小说等5大类别详细划分,分为3个层次,包含约480万个搭配,是深度学习者的理想选择。


精简版词频库

对于高效学习,50M COCA corpus精选了前2-3万常用词和200-300搭配,极具实用价值。N-GRAMS则揭示单词间的常见搭配,如"free of the"和"takes place in/care of"。


星级词典

柯林斯五星词频表(14600词)以逐词星级标记,1-6星全面覆盖,是词汇学习的精准指南。麦克米伦7500高频词则聚焦于10万词汇分级,其中7500核心词用红色标注,便于分级学习。


实战与应试

覆盖报刊词频如《纽约时报》和《经济学人》,以及民间统计词频约2万词,特别适合应对各类考试,如中考、高考和托福。应试词表更是针对性极强。


双解词典推荐

六大主流双解学习词典——Oxford、Longman、Merriam-Webster、Collins COBUILD、Cambridge和Macmillan,为不同学习阶段提供全面支持。


移动学习神器

手机学习资源丰富,如Mdict和欧陆App,不仅可离线使用,查询功能详尽。选择2-3本词典作为主要学习工具,就能轻松应对各种英语场景。


如果你对这些内容感兴趣,别忘了关注我们的公众号"知辉"(ID:知辉),获取更多英语学习资源和资讯。



~

《柯林斯词典词频分级词汇》(五星)这是星级是干什么用的,有什么含义吗...
答:柯林斯从语料库中将单词在日常生活中的使用频率统计出来,按照频率的高低将单词分级,五星的就是日常生活中最常用的,依次类推。《柯林斯》是1819年哈珀·柯林斯(Harper Collins)出版集团出版的图书。内含118000条词汇,220000条相关解释,及时收录全球各地区常用的新词、方言。该词典所有资源均来自于柯林斯独...

请问什么是词频
答:词频--反转文件频率, 是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户...

词频背高考英语单词真的能提高效率吗?
答:以下为词频背高考应用的详细说明:1. 高考英语必备词汇库: 提供了完全覆盖高考英语大纲所需单词的列表,单词排序依据其在实际生活中的出现频率,频率数据源于美国国家语料库,拥有庞大的41亿词汇量,确保了统计的权威性。2. 真人发音,地道教学: 每个单词都配备了真人发音,纯正的美式发音,让学习者能够准确...

怎么利用语料库做古代汉语语法化研究?
答:为弥补该不足,本文将借助《现代汉语词典》(第五版和第六版)以及北大汉语语料库(CCL)在以下方面做出有益尝试。第一,搜集第五版现代汉语词典中名转动词的活用词;第二,借助第六版现代汉语词典找出这些词中哪些已经变为兼类词;第三,对仍是活用词的和已经变为兼类的这两类词在北大汉语语料库中的...

精准词和词频是什么意思?
答:精准词和词频是什么意思?关键词的分类之一每个备选的词分级 A:精准词 B:相对精准词 C:宽泛词精准词,对一件物品比较详细的描述 词频统计是指:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与...

如何做词频统计
答:1.先说中文词频统计,网上有不少半成品的软件或工具,如ROST系列ROSTCM6,ROST WordParser等,还有MyZiCiFreq及Excel版本的“词频分析工具@Excel大全”,除此之外其他免费的词频统计软件基本就是花瓶。2.这些软件都可以在网上下载下来。3.其中,Rostcm6功能强大,但可惜已经不再更新。excel版本的词频统计功能...

如何统计长篇英文材料中的词频
答:前言:近日深感英语之差,故上知乎找法子补补,看到了一个答案讲到了“柯林斯分级词汇表”,心中一喜,因为中文也有相应的字表啊,叫作《通用规范字表》,从头搞到尾搞了一年才。学习中文也二十年了吧,第一次这么认真地认字。好像跑题了,书归正传。柯林斯是从语料库里总结出来的,根据词频分了五类...

自然语言处理中语料预处理的方法
答:语料库清理 清洗语料库就是保留语料库中有用的数据,删除噪音数据。常见的清洗方法有:手动去重、对齐、删除、贴标签等。以下面的文字为例。这个文本不仅包含汉字,还包含数字、英文字符、标点符号等非常规字符,这些都是无意义的信息,需要清理。像上面这种情况,清理方法主要是通过正则表达式。可以写一个...

西方新世纪文学背景简介
答:基于语料库的文学研究是利用文学作品语料库和语料库分析工具,以文学语言和文学结构作为研究对象,通过用词分布分析、文体特征分析、情节分析等计算机统计分析技术,拓展传统的文学研究,提炼文学修辞、文学叙事的规则,考察作者的写作风格,甚至鉴别作品的真实作者。基于语料库的文学研究可以进行词频分析、词汇分布...

关键词的月度词频怎么除
答:输入法左边图标上右击,会弹出一对话框,将对话框中的“词频调整”前的勾去掉即可。词频,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野。词频统计字词的重要性随着它在文件中出现的次数...