tabby 发表于 2017-10-9 23:44

【080】真实(最小)收词量@朗文当代高级英语辞典(英英·英汉双解)(第5版)

2017-03-03

作者:GoldenDict
注:本文获作者授权,仅供本站使用,转载请联系原作者。

                                                                                                                                                                                                                                                                  http://wx3.sinaimg.cn/mw690/006alh7oly1fkcfbxrnhpj30hs09wjrw.jpg                                    
                                                                                                                                                                                    
[*]典评:朗文当代高级英语辞典(英英·英汉双解)(第5版)
文中有下面一席话:►《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)真实词头数 42244 ,去重后 38016 个。
► 去重的意思是将类似 abandon¹,abandon² 这样的“多”词头视为一个。
► 您没有看错,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。
► 哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。
这 38016 和宣传语里的“230,000词条”差距也忒大了点吧,有无(yi)数(ge)朋友希望进一步了解下,故有此文。
[*]母语为英语人士的词汇量究竟有多大?
[*]我们自己的词汇量又有多大?
[*]人掌握或使用的的词汇量究竟怎么计算?
[*]……
上面这些问题,我都不打算在这里回答。哈哈,来打我啊,因为我确实也不知道答案或者说这些问题根本就没有标准答案。这里只谈一个小小的话题,那就是《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实收词量。我自己弄了个“真实收词量”概念,如有雷同,纯属巧合。《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)entry
STH WRITTEN 文字
C
a piece of writing in a DIARY, or in a book containing information such as a dictionary 〔日记的〕一则;〔词典等的〕条目
» a dictionary entry 词典的条目朗文當代大辭典(英英·英漢雙解)head·word
/ˋhɛdˏwɝd; ˈhedwɜːd/
n
the word which is written at the beginning of a description of its meaning, especially in dictionaries 標題詞;〔詞典中的〕詞目﹐首詞:
» The next headword is ‘heady’. 下一個詞目是 heady。headword 条目引自《朗文當代大辭典》(英英·英漢雙解),和《朗文当代高级英语辞典》(英英·英汉双解)的区别,可参考:外研社的朗当高 vs 商务印书馆的朗当大。真实收词量也就是最小收词量,和虚假(广告、宣传、最大)收词量相对,具体到《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)。
[*]entry 最前方的 headword ,加粗,有音节划分,算一个
[*]同形异义词算一个
截取朗五双解部分正文如下图。http://wx4.sinaimg.cn/mw690/006alh7oly1fkcf81jwj1j30ed0higo5.jpg


[*]真实(最小)收词量是 2,collateral 和 colleague ,这也是符合我们直觉的计算方法。
[*]虚假(广告、宣传、最大)收词量是 9 :

[*]collateral¹ 贡献为 3 ( 1 个义项 + 1 个派生词 collateralize + 1 个同义词 security );
[*]collateral² 贡献为 4 ( 3 个义项 + 1 个短语 collateral damage);
[*]colleague 贡献为 2 ( 1 个义项 + 1 个同义词 co-worker)
《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 广告语里的:收录单词、短语和释义共计 230000 个同义、反义和相关词令人瞠目结舌的 230000 就是这么来的,重复计数等办法都用上了。那么我前面提到的“真实词头数 42244 ,去重后 38016 个”又是怎么来的呢?《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 光盘版虽然不堪一用,但是也有一些有用的文件和信息。…\program\Data\LDOCE5.mdb 。LDOCE5.mdb 这个文件是 Microsoft Access Database 文件(居然还是 2000 版本),可以用 Microsoft Access 打开,里面 ldoce_bre_links 这张表很关键:http://wx3.sinaimg.cn/mw690/006alh7oly1fkcf81ygxoj30hs0fkju2.jpg


[*]第一列 WORD_ID 已经揭示了秘密,最大是 42244 ,也就是说词头数是 42244 ;
[*]第二列 search_TEXT 就是词头,但是如图,有 42231 = zoom1、42232 = zoom2 这种情况,也就是说在 42244 这个数字里, zoom 贡献了 2 ,这和我们“真实(最小)收词量”精神不符啊,把这一列复制出来,把 zoom1 、zoom2 这种处理成 zoom、zoom, 也就是去掉后面的数字然后去掉重复的,Bingo! 就得到 38016 。
当然,处理的时候有点误伤,比如 G8 ,可能把数字 8 删除后,它和 G 条目重复,所以就被删了,不过这种条目很少,我懒得再精确处理了。LDOCE5.mdb 这个文件,可以玩出很多花样,大家持续关注不要取关噢,我时间充裕的时候会折腾一下。所以,《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实(最小)收词量也就四万左右。根据我的使用体验,阅读一般性质的英文文章,比如我每日必读的体育消息(NBA、英超、西甲赛况之类的),偶尔会遇到一些在 LDOCE 中查不到的词。今天遇到的 hyperextend,无论 LDOCE 还是其他任何一部高阶英语学习型词典,都没有收录。Durant hyperextends left knee; Warriors to bring back Barnes
HOWARD FENDRICH
Associated Press March 1, 2017新牛津英汉双解大词典(第 2 版)hyperextend /ˌhaɪpərɪkˈstend/
verb
[with obj.]
forcefully extend a limb or joint beyond its normal limits, either in exercise or therapy or so as to cause injury (对肢体或关节)用力伸展, 过度伸展。重复下最前面的观点,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。出现在学习型词典上的每个词,都是要背下来的噢,一起加油吧,少年。



页: [1]
查看完整版本: 【080】真实(最小)收词量@朗文当代高级英语辞典(英英·英汉双解)(第5版)