汉字的历史故事(2)
汉字的历史故事之汉字的特性
正如上文所提到,文字不等于语言,语言不等于文字。某种特定文字可以用来书写多种不同而彼此无关的语言(比如英语、土耳其语、越南语和印尼语都用罗马字来书写),而某种特定语言也可以用不同文字来书写(如维吾尔语根据历史年代排序曾用过以下文字来书写:卢恩文字[runes]、古回鹘文字[起源于阿拉米文字,经由粟特草体演变而来,是蒙文字和满文字的祖先]、阿拉伯文字、西里尔文字、罗马文字,然后又再是阿拉伯文字)。因此文字的分类与语言的分类是无关的,反之亦然。汉语的分类上面已经讨论过了,本节主要对汉字进行分类。
对于该给汉字贴上什么样的标签,仍旧未有定论。虽然在非专业文献中,经常把汉字称为“象形文字”,这是非常不正确的,因为只有一小部分汉字如山、日、马、鸟、鱼、龟,在创制之初是有意仿照事物样子的。即使是这一小部分象形字,其现在的字形,对于不熟悉汉字的人来说,也完全辨认不出来它们的象形对象。同样只有一小部分汉字——如“上”“下”和“中”等等——是表意的,而且只有接受过专门训练的人才能辨识出它们的表意之处。所以将汉字称为表意文字也不妥当。许多权威专家比较接受“意符文字”(logographic)这个提法,这意味着汉字的每个音节单位都等于一个词,因而汉语是单音节的。对汉字的更准确描述应该是语素音节型(morphosyllabic),这指的是每一个汉字单位在长度上都是单音节,传递一个基本意思。这里要重申的是,汉字的基本音节特性不能用来宣称所有汉字只包含一个音节。学者们使用语法分析、心理语言学和其他方法结论性地表明,除了汉字,汉语使用者对于其他单词的不同音节长度也有一种明白无误的感觉。
诚然,汉字基本上是单音节的,但还是有些例外,因为确实存在一些具有多个音节的汉字(有些可追溯到唐朝,甚至更早)。在这种所谓“合文”的汉字中,有比如“茾”(菩萨)、“”(菩提)、“”(涅槃)、“”(某乙)、“”(营田[使])、“瓩”(千瓦)、“”(问题)、“邗”(干部)、“”(社会主义)、“圕”(图书馆)(这些汉字当然也可以用多个汉字写出来),有些合字被广泛使用,甚至今天还能在标准字典中找到。在二十世纪,超过1000个这样的多音节汉字被广泛使用,这清楚地说明了汉语使用者有一种汉语并非完全单音节的天然的认知。这些多音节汉字多为代替许多常用词汇,所以这也预示着简化汉字的内心愿望。
另一个从十世纪后半期一直持续到十九世纪末的相关现象,是反切的使用。这是一种受佛教启发的注音方法,用两个汉字合起来为另一个汉字注音。反切时,通常写做“X Y反”,这表示X(反切上字)注声母,Y(反切下字)注韵母和声调。有时“X Y反”(三个字)经常写做“XY”(一个字)。在这种情况中,两个汉字就合成了一个汉字。这再次显示了,中华帝国晚期的学者不仅能进行语音分析——这一分析具有发展成真正拼音的潜力,而且显示了汉字体系并非毫无变通即注定是单音节以及单语素的,汉语更是如此。
实际上,在已知的最早汉字(甲骨文)中,两个甚至三个音节写成一个汉字的情况并不罕见,比如“乙祖”、“三万”、“十五发”所对应的甲骨文字。周朝的金文中双音节汉字不乏其例,如“小子”“小臣” “武王”和“文王”对应的金文。这些证据表明,在中国文字的最早阶段中,仍然有清晰的认识,即文字(和明显的词汇单位)是可以有一个以上的音节的。然而到了秦汉时期,汉字的单音节化趋势将有保留和传承价值的文本中的双音节字和多音节字几乎铲除殆尽。不过词汇单位可以是多音节的这一直觉还是保留着的,所以多音节汉字仍在不断被创造出来,如“不要”“二十”“三十”和“四十”的对应字。但是由于忠实于汉字单音节限制的压力太过强大,这些表达的合音和别的特定发音便孕育而生(分别是“甭”“廿”“卅”“卌”)。不过许多汉字双音节和多音节特质是不可否认的。而且上面提到过,许多汉语语素不止包括一个音节,因此在汉字的基本单位同时传递语音与语义的意义上,我们最好认为汉字是语素语音型或语义语音型(而非简单称之为语素音节性),而汉字的长度并不必然是单音节的。
不管我们将汉字完全称为意符型、语素音节型,还是语素语音型/语义语音型,大多数汉字(约85%,即形声字)都由一个传达语音的部分(声旁)和一个传达意义的部分(形旁)构成。不过声旁和形旁都不会准确告诉读者这个汉字的意思或者发音,而只是给出大略近似于该字的字义和字音。比如,读者也许会碰到一个字,它的形旁是三点水。三点水意味着这个汉字极有可能(但不必然)与水或者液体有关,这样我们会猜这个字也许意思是“浪”“溅”“浅”,等等。但是,仅仅从三点水来判断,我们不可能确定这个字的确切含义,只能得出这个字与水及其引申义沾亲带故。带三点水的汉字超过2000个,词义纷呈,从洁到汽、河、游、渔、泡、消、汁、液、油、酒、沟、淌、泻、沫、湿、滞、泥、淫、泪和澳,等等。仅仅辨识出一个汉字的形旁,在实际判断其词义的时候不一定会派上很大用场。同样的,读者可能会碰到一个汉字声旁为“方”(其四声代表的意思有很多,如方、妨、仿、访、舫、放、芳、枋等),而它的形旁表示它和“门”有关。只有将声旁和形旁连起来看,有经验的读者才能明白这个字读fang的第二声,它的意思是“房子,建筑物”。这一词素在文言文中是单独出现的,不过在现代标准汉语中与名词后缀或者一个同义字组成双音节词,比如“房子”、“房间”和“楼房”。另外,要确定某个汉字的意思,我们必须暂时忘记声旁(如“方”)自身也可以作为形旁,例如在於、施、游和旗等汉字中。在“旁”这个汉字中,“方”既是声旁也是形旁。
另外,许多形声字不止有一个读音,这很难用语音衍生过程来简单解释。比如上面提到的“施”字,实际上有下述多种读音:shī(施行),yí,yì,shǐ。在这种情况下(有两个及以上读音的汉字即“破音字”或“多音字”数以千计,其中最多的有十一种读音),读者必须在上下文中用直觉来判断某个字的确切读法和意思。
必须要指出的是,形声字是相对容易处理的汉字。读者要辨识剩下15%—20%的汉字,必须完全靠记忆从字形中抽取语音和语义。
虽然形声字有上面提到的种种复杂特性,但是它们的优势地位极大地支持了为汉字贴上单音节或者语素语音的标签。而且因为形声字的声旁是更重要的部分,汉字可以在基本上被视为一种附加了语义成分的音节或者语音文字体系。它由一张非标准的音节表所构成,若被标准化,现代标准汉语的所有音节可以在有声调的情况下用约400个汉字,或者在忽略声调的情况下用1300个汉字涵盖。在通用计算机字库中并不是这种简单的1:1对应,汉字和音节的比率为5:1或者16:1(后者考虑了声调)。这可以与类似的非标准化英文体系中约40个音素的15:1到40:1这一比率形成比较,英文中像sent, cent和scent这样的语义—语音词段也为英语贴上了语素语音文字体系的标签。
当我们了解到汉字体系包含了超过4万个兼具语音与语义的独立单位,便会很明显认识到汉字是一种令人费神的文字。只有花费大量时间,才能达到熟练掌握的程度。甚至像写下“打喷嚏”这样常用的词,都会遇到难以预期的困难,连中国人(除了汉字能力强的人)都很少能完全正确地写出来。中国西部约占全国六分之一国土的维吾尔自治区——新疆的“疆”字有十九画,也让很多人不堪其扰。灰心至极的他们,要么丢掉右边声旁的上半部,要么用六画的“江”这个同音字来代替,不过这样写是“不合法的”。同样的,“舞”字有十四画,也让许多舞厅经常用只有四画的同音字“午”来代替。另一个十二画的常用汉字“街”,由于它的出现频率太高,所以会让很多信笔写来的人丢掉中间的六画。“疆”“舞”“街”这三个都没有官方认可的简化形式,但是由于汉字的平均笔画是十二画,我们完全可以理解一直存在着创造出这几个简化字的强烈的冲动。运用最广泛的语音文字体系(如罗马字和日本的假名)是从更复杂的形式中演变而来的,所以汉字笔画简化的自然趋势可能将其导向一种语音文字。然而在政府和知识分子的强有力抵制下,这种趋势被阻挡了。
现代汉语中出现频率最高的语素“de”的对应汉字“的”值得我们特别关注。“的”表示所有格、形容词结尾、关系从句、介词短语和动名词等。这个汉字在文本中每间隔二十个字就会出现一次(!),一共有八画,即使其草体也让有些人觉得麻烦,所以——在私人场合——用字母“d”来代替(d是“的”拼音首字母)。“的”字的通用简化形式还没有发明出来,官方接受的简化形式更需假以时日。更具讽刺意义的是,用来书写无处不在的语素de的汉字“的”,其第二声至今还具有其原初意义“光亮,目标” (一千多年以前的发音为tiek ,两千多年前的发音大概为*tiawk)。
许多人现在经常私下使用字母d来代替“de”这个频率非常高的语素。实际上,de是个多义语素,至少是三个同音语素合而为一,而在书面中则用三个不同汉字来表示。有意思的是,用来表示这三个高频率语素的三个汉字原先的字义都不包括语素所指代的意思,而是被借用了:一、上文已提到,标记所有格和关系从句的de,用实际上意思是“目标”的“的”字表示;二、标记形容词补语的de,用原初字义为“得到”的“得”字表示;三、标记动词补语的de,用“地”字表示,其原初字义为“大地”,原初发音为di。现代汉语中这三个出现频率最高的语素(在通常的文本中平均占全部汉字6.5%)的对应汉字居然是原初具有不同语义、语义上被漂白的汉字,这一事实凸显了本章前几节中提到的汉字体系和白话之间的鸿沟。于是,有些人用一划而就的d(即写这个字母的时候,笔可以不离开纸面),来代替分别为八画、十画和六画的“的”“地”“得”。
汉字极其错综复杂和难以把握的特性对汉字读写和中国文学都产生了重大影响。汉字的一些社会意蕴、语言意蕴和审美意蕴,在本章以下的讨论以及全书各章中将得到清晰呈现。