顺带一提,15世纪的英国人并不是某天早上醒来之后突然改变了元音的发音,就像将时钟拨到夏令时一样。在当时,元音大转移给人的感觉就像是目前芝加哥地区的居民普遍将“hot”念成“hat”,或者像在一些渐趋流行的新潮俚语中将“dude”发成“diiihhhoooood”一样。
如果我们再进一步地向上追溯,又是怎样的一番景象呢?盎格鲁人和撒克逊人的语言并非凭空而来,它们的源头是原始日耳曼语。在公元前的几个世纪里,有一个部族占据着欧洲北部的大部分领土,他们使用的语言就是原始日耳曼语。原始日耳曼语的西部分支后来分化出好几种语言,除了盎格鲁-撒克逊语之外,还有德语和荷兰语,以及由德语衍生的意第绪语和由荷兰语衍生出的南非荷兰语。它的北部分支则出现在斯堪的纳维亚半岛,发展出瑞典语、丹麦语、挪威语以及冰岛语。这些语言在词语上的相似性可谓一目了然,它们的语法也非常接近,比如都用后缀“-ed”表示过去时态。
这群原始日耳曼人没有在历史文献或考古遗迹中留下任何明确的印记,但是,他们却在自己所到之处留下了一个独特的记号。1786年,派驻印度的英国法官威廉·琼斯爵士(Sir William Jones)首次发现了这个记号,这实在是学术史上最伟大的发现之一。琼斯爵士当时正着手研究梵文,一种早已不再使用的语言。他这样写道:
梵语不管多么古老,它的结构都是令人惊叹的。梵语比希腊语更完美,比拉丁语更丰富,比二者更精练,但是与它们在动词词根方面和语法形式方面都有很显著的相似性。这种相似性如此显著,不可能是偶然出现的。没有一个考察这三种语言的语言学家会不相信它们同出一源,尽管这个源头可能已不复存在。同样有理由(虽然这理由的说服力不是特别强)认为,哥特语(日耳曼语)和凯尔特语尽管夹杂了迥异的方法,但还是与梵语同源。假如这里有篇幅讨论与波斯历史有关的问题,或许能把古波斯语加入同一语系。
正是下面这些亲缘关系让琼斯爵士印象深刻:
在众多现代语言中,我们都可以找到这类词语和语法上的相似性。其中包括:日耳曼语族、希腊语族、罗曼语族(法语、西班牙语、意大利语、葡萄牙语、罗马尼亚语)、斯拉夫语族(俄语、捷克语、波兰语、保加利亚语、塞尔维亚-克罗地亚语)、凯尔特语族(盖尔语、爱尔兰语、威尔士语、布列塔尼语)以及印度-伊朗语族(波斯语、阿富汗语、库尔德语、梵文、北印度语、孟加拉语、吉普赛人所说的罗曼语)。后来的学者又加上了安纳托利亚语族(曾经流行于土耳其境内的一些消亡的语言,包括赫梯语)、亚美尼亚语族、波罗的海语族(立陶宛语和拉脱维亚语)以及吐火罗语族(中国境内两种已经消亡的语言)。由于这些语言有着非常多的相似之处,语言学家推测它们都源自一个相同的祖语:原始印欧语。语言学家还重构了这个古老语言的语法和词语及其后代语言的演变规则。例如雅各布·格林(Jacob Grimm,《格林童话》的编纂者之一)就发现了这样一条规则:原始印欧语中的“p”和“t”在日耳曼语族中变成了“f”和“th”,比如“父亲”一词在拉丁语中是“pater”,梵文中是“piter”,而英语中则是“father”。
有关原始印欧语的推测隐含着一个令人难以置信的结论:某个古老的部族一定占领过包括大部分欧洲、土耳其、伊朗、阿富汗、巴基斯坦、印度北部、俄罗斯西部以及中国一隅在内的广阔土地。在100多年的时间里,这一想法使得无数语言学家和考古学家兴奋不已,但是迄今还无人知道这群原始印欧人的来龙去脉。通过重构词语的方法,学者们对此做了许多猜测。例如有关金属、轮式车辆、农具、家畜和植物的单词表明,印欧人生活在新石器时代晚期。而根据原始印欧语中涉及的各种自然名物的地理分布,例如有榆树和柳树等单词而没有橄榄油或棕榈树等单词,我们可以推测印欧人最初生活的领地大致是北欧内陆至俄罗斯南部。再加上一些有关族长、堡垒、马匹和武器的单词,我们眼前很自然地会浮现出这样一幅景象:一个马背上的强悍民族从自己祖先的领地出发,一路所向披靡,征服了欧洲和亚洲的广袤土地。到19世纪中期,雅利安人这个词成为印欧人的代称,德国纳粹就曾将雅利安人视为自己的祖先。然而基于更合理的考虑,考古学家将印欧人与公元前3 500年俄罗斯南部草原上的“库尔干文化”(Kurgan culture)联系了起来,库尔干族是一个最早在战争中使用马鞍的部落。
最近,考古学家科林·伦弗鲁(Colin Renfrew)提出了一个观点:印欧人的胜利依靠的不是战车,而是摇篮。根据这个极富争议的理论,印欧人在公元前7 000年左右生活于安纳托利亚(Anatolia,现在的土耳其境内),这个地方正好位于“新月沃地”(Fertile Cresent region)的边缘。在那里,印欧人成为世界上第一批农夫。农业对人口的增长有着极大的促进作用,因为土地可以养活更多的人。而这些人的子女又需要更多的土地,即便他们迁移到离父母只有几公里的地方,他们也会很快吞没掉附近相对落后的狩猎部落。考古学家认为,大约在公元前8 500年,土耳其境内就出现了农业生产,并在公元前2 500年左右扩展到爱尔兰和斯堪的纳维亚半岛。遗传学家最近发现,有一组基因特别集中于现代土耳其人身上,然而随着由巴尔干半岛向欧洲北部延伸,这组基因也在逐渐稀释。这一发现支持了人类遗传学家卢卡·卡瓦利-斯福扎(Luca Cavalli-Sforza)所提出的一个理论:农业生产的推广依靠的是农夫的迁移,而不是农业技术的传播。也就是说,狩猎部落是因为与农耕部落联姻而改行种地,而不是因为一时兴起而拿起锄头。这批人是不是印欧人,以及他们是否以相同的方式迁移到了伊朗、印度和中国,我们目前还无法回答,但这却有很大的可能性。当我们每一次用到“brother”这样的单词,或者使用“break-broke”“drink-drank”之类的不规则变化时,我们使用的都是世界上最早的农夫所留下的语言形态,正是他们引发了人类历史上最重要的事件:农业的传播。
我们同样可以对世界上的其他许多语言进行分类,把它们分为古代农耕者、掠夺者、迁徙者或游牧者的后裔所使用的语言。不过,并非所有欧洲的语言都属于印欧语系,例如芬兰语、匈牙利语和爱沙尼亚语就属于乌拉尔语系,它们和拉普兰语、萨莫耶德语以及其他一些语言一样,都源自大约7 000年前生活于俄罗斯中部的一个庞大民族所使用的语言。阿尔泰语系一般包括土耳其的主要语言、蒙古语,以及中亚和西伯利亚的大部分语言。人们还确定不了这些语言的始祖,但它们的近祖包括6世纪的某个帝国、成吉思汗建立的蒙古帝国以及后来的清朝所使用的语言。巴斯克语是语言学上的孤儿,它可能是源自一群成功抵制住印欧语扩张浪潮的岛居欧洲人所使用的语言。
亚非语系(又称闪含语系)包括阿拉伯语、希伯来语、马耳他语、柏柏尔语以及埃塞俄比亚和埃及的许多语言,其分布范围为撒哈拉非洲以及中东大部分地区。非洲其他地区的语言分为三类:克瓦桑语系包含昆申语和其他语族(以前被称为霍屯督语和布须曼语),其祖先一度统治了撒哈拉以南的大部分非洲地区;尼日尔-刚果语系包含班图语族,这是西非的农夫所使用的语言,这些农夫将科伊桑人赶到了他们现今居住的位于非洲南部和东南部的小块飞地;尼罗-撒哈拉语系,它统治了撒哈拉南部的三块广袤土地。
在亚洲,包括泰米尔语在内的达罗毗荼语系占据着印度南部以及北部的小块地区。因此,达罗毗荼语的使用者必定是印欧人入侵之前统治印度次大陆的部族后代。在黑海和里海之间,大约有40种语言属于高加索语系[3]。汉藏语系包括汉语、缅甸语和藏语。南岛语系[4]包括马达加斯加岛、印度尼西亚、马来西亚、菲律宾、新西兰(毛利)、密克罗尼西亚、美拉尼西亚、波利尼西亚以及夏威夷的语言。这些岛屿上的居民在远行和航海方面有着非凡的技艺。越南语和高棉语(柬埔寨的语言)则属于南亚语系。澳大利亚的200种土著语言构成了一个独立的语系,新几内亚的800种语言也同样自成一家,属于一个或者少数几个语系。日语和韩语看起来像语言世界里的孤儿,不过有少数语言学家将它们归属于阿尔泰语系。
美洲又是怎样的情形呢?格林伯格,也就是上文提到的那位语言共性研究的开创者,也曾对语言进行过划分。在将1 500种非洲语言划分为四类的问题上,格林伯格起到了重要的作用。最近他又宣称,美洲大陆上的200种土著语言可以分成三类,其中每一类语言都分别源自12 000年前的一支移民,他们从亚洲出发,越过白令海峡来到美洲。爱斯基摩人和阿留申人是最晚的一批移民,在他们之前是纳德内人,这批人占领了阿拉斯加和加拿大西北部的大部分土地,他们的语言包含了美国西南部的一些印第安语,例如纳瓦霍语和阿帕切语。这些观点已经被人们普遍接受,但格林伯格还认为,从哈得孙湾到火地岛之间的所有其他语言都属于同一语系:印第安语系。美洲只存在三支移民的观点最近得到了卡瓦利-斯福扎和其他学者的支持,他们研究了现代美洲土著人的基因和齿模,结果显示它们和上述三种语系形成大致的对应关系。
在这里,我们进入了一个充满争议、但也充满收获的领域。格林伯格的观点受到另外一些美洲土著语言学家的强烈批评。比较语言学是一门精益求精的学科,学者必须跟踪各种亲属语言在几百年甚至一千年间所表现出的基本差异,才能一步步地追溯出它们共同的祖先。格林伯格只是依据词语上的某些相似性,就将几十种语言归为一类,而没有仔细检查语音变化,并重建它们的原始语言。这种异端的做法让传统语言学家深感不安。作为一位实验心理语言学家,我已经习惯了反应时间和言语错误的干扰数据,因此,我并不认为格林伯格这种简单对应的做法有什么问题,尽管其数据的确包含一些随机误差。不过,令我无法接受的是,格林伯格对词语相似性的判断完全来自直觉,而不是通过统计的方法、计算出对应关系的出现概率。一个不那么挑剔的观察者总能在不同语言的词语表中找到一些相似的地方,但这并不意味着这些语言都源自一个共同的祖先。这也许只是一种巧合,比如希腊语用单词“pneu”来表示“吹”的意思,而克拉马斯语(美国俄勒冈州的一种印第安语)用“pniw”来表示这个意思;又比如在澳大利亚土著语姆巴巴姆语中,表示“狗”的单词正好是“dog”。此外,格林伯格的批评者还指出了一个严重问题,语言之间的相似性也可能是源自横向的借用,而并不一定是纵向的遗传,例如像“her negligées”“le weekend”这样的借用语。
针对语言的系属分类和史前人类的大陆分布问题,格林伯格等人还提出了一系列更为宏大、更为刺激,同时也更富争议的假说,但由于统计方法的缺失,这些假说也往往陷入窘境。例如,格林伯格和他的助手梅里特·鲁伦(Merritt Ruhlen)与俄罗斯语言学家谢尔盖·斯塔罗斯金(Sergei Starostin)、阿哈龙·多戈帕尔斯基(Aharon Dogopolsky )、维塔利·谢沃罗辛基(Vitaly Shevoroshkin)、弗拉迪斯拉夫·伊力奇-斯维特奇(Vladislav Illich-Svitych)一道,将各种语言分门别类,力图寻找出每一组语言的共同祖语。他们发现了各种原始语言之间的相似之处,包括印欧语、亚非语、达罗毗荼语、阿尔泰语、乌拉尔语、爱斯基摩-阿留申语,还包括日语、韩语等“孤儿”以及其他一些混合语种,这表明它们都出自同一个祖先,格林伯格等人将这个“原始的原始语言”(proto-proto-language)称为“诺斯特拉语”(Nostratic)。例如,在重建的原始印欧语中,“mor”(桑葚)一词与原始阿尔泰语中的“mürˆ”(浆果)、原始乌拉尔语中的“marja”(浆果),以及原始卡特维利语(格鲁吉亚语)中的“marcaw”(草莓)非常相似。支持诺斯特拉语假说的学者认为它们都是从诺斯特拉语词根“marja”发展而来。同样,原始印欧语中的“melg”(挤奶)一词与原始乌拉尔语中的“malge”(乳房)以及阿拉伯语中的“mlg”(吮吸)非常类似。诺斯特拉语的使用者应当是以狩猎、采摘为生,因为在语言学家所重建的1 600个单词中,没有一个是家禽、家畜或农作物的名称。在15 000年前,这个以狩猎、采摘为生的部族应该占据了欧洲、北非、北亚、东北亚、西亚以及南亚,它的发源地在中东地区。
这一学派的其他学者提出了更为大胆的“超级语系”和“超超级语系”。有的语系包含了印第安语系和诺斯特拉语,有的语系,例如汉-高语系,则包含了汉藏语系、高加索语系,或许还加上巴斯克语和纳德内语。在此基础上,斯塔罗斯金进一步将汉-高语系和印第安-诺斯特拉语系联系了起来,由此得出了一个“原始的原始的原始语言”(proto-proto-proto language),名为“SCAN语系”,它覆盖了整个欧亚大陆和美洲。南方语系则包括了南岛语系、南亚语系,以及中、泰两国的各种少数民族语言。在非洲,人们发现尼日尔-刚果语系和尼罗-撒哈拉语系存在许多共同点,由此反推出刚果-撒哈拉语系的存在。如果我们愿意接受这些语系的合并(当然,其中有些合并只是学者的一厢情愿),那么世界上的所有语言都可以归属于六大超级语系:亚欧大陆、美洲以及北非的SCAN语系,非洲撒哈拉沙漠以南地区的克瓦桑语系和刚果-撒哈拉语系,东南亚、印度以及太平洋地区的南方语系,澳大利亚语系以及新几内亚语系。
从理论上说,原始语言的地理分布应当与世界范围的人种分布形成对应关系,而卡瓦利-斯福扎和鲁伦的研究恰好印证了这一点。卡瓦利-斯福扎选取了几百名来自各个种族的实验对象,对他们基因中的微小差异进行了逐一检查。最后他宣称,通过将含有相似基因的不同种族逐级合并,就可以构建出整个人类基因的树形族谱。这个族谱的第一个分叉将撒哈拉沙漠以南地区的非洲人和世界上的其他人区分的人开来。后者又分为两支:一支是欧洲人、东北亚人(包括日本人和韩国人)、美洲印第安人;另一支则又分为两支,一支是东南亚人和太平洋岛民,另一支是澳大利亚土著和新几内亚人。这个基因族谱与学者所假设的超级语系形成十分明确的对应关系,尽管并不是完全一致。其中颇为有趣的一点是,人们通常是依据外在的面部特征和皮肤颜色来认定蒙古人种或东方人种,但这并不符合生物学上的事实。在卡瓦利-斯福扎的基因族谱中,西伯利亚人、日本人和韩国人等东北亚人与欧洲人更为接近,而与中国人、泰国人等东南亚人有较大的差异。令人惊讶的是,这种人种上的隐性分类正好符合语言上的隐性分类:日语、韩语和阿尔泰语与诺斯特拉语系中的印欧语系分在一起,而与汉语所属的汉藏语系界限分明。
通过这个假设的“基因/语言”谱系,我们可以描绘出晚期智人的发展历史。晚期智人最初起源于非洲大陆,即20万年前的“线粒体夏娃”。大约在10万年前,他们开始走出非洲,经由中东来到欧洲和亚洲,并在5万年前抵达澳大利亚、印度洋和太平洋诸岛以及美洲。遗憾的是,和语言谱系一样,这个基因族谱以及早期人类的迁徙路线图也充满争议。不过在接下来的几年里,学者们将会解开这个有趣的故事中所包含的全部谜团。
值得一提的是,虽然语言谱系和基因族谱之间存在一定的关联,但这并不表示拥有某种基因使得某些人能够更为容易地掌握某种语言。这种说法在民间流传甚广,例如一些法国人说,只有拥有高卢血统的人才能真正掌握法语名词的性别特征;又如我的希伯来文老师坚持认为,在希伯来语的学习上,班上的犹太学生天生就比非犹太学生要强。然而就语言本能而言,基因和语言的关联纯粹是一个巧合。人们将自己的基因储存于生殖腺中,并通过生殖器遗传给他们的后代;他们将语法储存在大脑之中,通过口耳相传的方式传递给自己的孩子。生殖腺和大脑都附着于同一个身体之上,因此当身体移动的时候,基因和语法也随之一起移动。根据遗传学家的发现,这是基因和语言存在关联性的唯一原因。但是我们知道,这种关联其实是非常脆弱的,因为在人口迁移或民族征服的过程中,移民的后代往往从外邦人的大脑中获得语法。毫无疑问的是,这些移民的后代在学习一种语言时,即便这种语言与他们父母的语言完全出自不同的源头,他们也不会比祖祖辈辈都使用这种语言的同龄人要差。因此,基因和语言的关联是非常粗糙的,只有在超级语系和原始人种的层面才能看出这一点。在过去的几个世纪里,殖民运动和人口迁移完全打破了超级语系和各洲居民之间的关联性,其中最鲜明的例子就是英语。如今,以英语为母语的人包含了地球上的所有次级人种。而在此之前,欧洲人就早已和他们的邻居相互通婚,相互征战,因此欧洲人的基因和语言之间已经几乎没有关联,只有非印欧语系的拉普语、马耳他语和巴斯克语留下了一些基因印记。出于同样的原因,在某些被普遍认可的语系中会出现来自不同种族的语言,例如埃塞俄比亚的黑人和阿拉伯的白人所用的语言都属于亚非语系,北欧的拉普人和东方的萨摩耶德人所用的语言都属于乌拉尔语系。
谢沃罗辛基、鲁伦和其他学者将这种大胆推测发挥到了极致,他们一直试图重构这六大超级语系的单词词源,即“非洲夏娃”所使用的“原世界语”(Proto-World)的词语。鲁伦推断出了31个词根,例如表示“一”的“tik”,它后来进化成原始印欧语中的“deik”(指向)、拉丁语中的“digit”(手指)、尼罗-撒哈拉语系中的“dik”(一)、爱斯基摩语中的“tik”(食指)、克德语中的“tong”(手臂)、原始亚非语中的“tak”(一)以及南亚语系中的“ktig”(手或手臂)。即便缺乏充分的统计数据,我依然愿意抽出一个空闲的下午来了解有关诺斯拉特语和其他语系的假设,但是,对于“原世界语”的假设,我抱着十分怀疑的态度,比较语言学家对此更是不屑一顾。这并不是说我怀疑人类语言起源于一时一地,这是我们寻找终极祖语的理论假设之一。我所怀疑的是,我们对单词的追溯到底有没有上限。这就好比一个人宣称自己出售的是林肯使用过的斧头,只不过多年以来这把斧头的斧面换过两次,斧柄换过三次。大多数语言学家认为,经过一万年的发展演变之后,一种语言已经不可能在它的后代中留下任何痕迹。因此,当一个人宣称自己发现了所有现代语言的近祖所留下的明确痕迹,而这个近祖又保留了20万年前人类终极祖语的痕迹,这不能不说是极其可疑的事情。