网站导航

《中文打字机》听书稿

#得到/听书/《中文打字机》 #听书稿

你好,欢迎“每天听本书”,今天我要为你解读的书是《中文打字机:一个世纪的汉字突围史》。

说到中文打字机,我们很多人可能都会感到陌生,英文打字机我们见过,中文打字机没见过。的确,中文打字机从没有进入家用阶段,现在我们用电脑输入汉字,更用不上中文打字机了。但我们想象一下,在1890年代,世界上大多数语言都有了自己的打字机,都是根据拉丁字母打字机改造而来,泰国的暹罗文也能用打字机打出来,中文却不行,中文被隔绝在打字机世界之外,也就是说,被隔离在一种世界通行的文字处理系统之外,这种感觉是不太妙的。打个不恰当的比方,这就像是现在我们的中文不能在电脑上使用,这种感觉肯定是非常糟糕的。

再比如说,最近ChatGPT非常流行,这预示着人工智能的一个进步,但我们用过之后就会发现,在英文环境下和中文环境下,ChatGPT的表现并不一样。在中文环境下,如何建立语言模型、如何让机器进行深度学习、如何发展智能搜索,这也是一个新课题。

《中文打字机》这本书中有一幅插图,是意大利奥利维蒂打字机1950年的一则平面广告,画面上方是一块黑板,写满了商周时期的甲骨文和金文,画面下方是一排漂亮的打字机,广告语是“从古代到奥利维蒂”。显然,商周汉字代表着“古代”,新型打字机代表着新时代。1900年1月,旧金山一家报纸上刊登过一篇小品文,说唐人街附近的一家报社里,存放着一台中文打字机,配有一个长达12英尺的键盘,其上共有5000个按键,需要一个打字员拿着喇叭发号施令,四个打字员在键盘上操作,才能打出汉字来。这篇文章还配有一张漫画,来嘲笑“中文打字机”。那时候,“中文打字机”是一个讽刺性的比喻,是空想出来的一种极大极笨拙效率极低的机器。

即使到今天,我们可以用电脑处理汉字了,但其实处理起来仍然是不如其他语言高效的。我们可能还记得种种输入法,下里巴人输入法、五笔字型输入法、全拼输入和双拼输入,还有搜狗输入法等等,请注意这个特殊的词汇“输入”,我们在电脑上打汉字,为什么不叫打字,而叫输入呢?因为其中有一个挑选同音字的过程,你打“解读”两个字,可能出现两个选项,一个是“解毒”,解除一种毒药,一个是“解读”,给得到解读一本书,你要挑一下,哪个是你想要的结果。随着输入法的完善,这个挑选过程已经可以忽略,但汉字在电脑上依然是输入,而不是“所打即所得”。

这一系列中文在过去和现在的尴尬处境,让我们不得不思考一些问题,传承四千多年的汉字如何应对信息化?汉字和拉丁字母更深的矛盾又是什么?以及我们对汉字应该保持一种怎样的态度?我们该花多长时间学习文言文,又该花多长时间学英语?

本书作者墨磊宁Thomas S. Mullaney,是美国哥伦比亚大学历史学博士,现任美国斯坦福大学历史系教授,研究领域为中国历史。他一直关注汉字的信息化,打算写两本书,一本讲中文打字机,一本讲电脑时代来临后的中文信息化处理。我们先来解读这本《中文打字机》,也希望他的那一本续作能早点儿和我们见面。

我的解读分成三个部分,第一部分我们说说中文难在哪儿,搞中文打字机又难在哪儿。第二部分我们讲打字机设计者对中文的认识路径,简单来说就是常用字、拼合及代码。第三部分我们来看看中文和拉丁文字之间更深的矛盾在哪儿。如果英文确定了技术标准和技术进步的环境,那么中文怎么才能突围,这是中文打字机曾经面对的问题,也是我们现在和未来的问题。

第一部分

好,我们进入第一部分,先看中文打字机的难点在哪儿。

汉语是不是最难学的语言?这个事很难有确切的答案,老外可能觉得四声实在太难掌握了,可我们学外语,也会觉得变格太难掌握了。一条鱼终身在水中游泳,我们就在汉语的环境下长大,不会觉得汉语比外语还难。不过,我们看到那些说汉语说得很溜的老外,比如大山和曹操,还是会赞叹一句说得真好。100多年前,也有一位汉语说得不错的老外,瑞典的高本汉,在中国学汉语,教外语,考察中国各地的方言,回到瑞典之后,写了一个小册子叫《汉语的本质和历史》。这本书是向西方人介绍汉语的,开头就说,对于习惯字母拼写的人来说,写字就是分析发音并把一串音记录下来,但汉字不同,汉字最初不是表音的,而是表意的象形文字。

现在的孩子,可能在幼儿园时期就接触英语26个字母,以后遇见英语单词,把字母一个个拼出来,就算认识一个词了。但孩子学汉语不是这样的,1925年,我国的图书馆专家杜定友写过一篇文章叫《民众检字心理略论》,开头讲了个小故事,说一个小女孩问妈妈,恋爱的恋字怎么写。当时还是繁体字,妈妈回答说,当中一个“言”,左右两旁各有一个绞丝,下面再加一个“心”字。在日常生活中,人们口头描述一个汉字的组成部分,要描述其结构,传递出这个汉字是什么,比如木子李、立早章。拆一个汉字,我们有笔划,这是写这个字的顺序,有偏旁部首,这是检索方法,查字典用的。那我们平常说的“木子李”,这是什么呢?汉学家周文龙说,这种拆字方法是中文的笔体学。汉字跟英文字不一样,英文再长的单词也能一个个字母拼出来,汉字就复杂了,讲字音、字义、字形。孩子学起来不容易。

甲午战争失败后,中国的知识分子做过很多反思,反思我们为什么落后,很容易得出一个结论,教育落后。为什么教育落后?又得出一个结论,汉字太难了。当时有很多人搞汉语拼音方案,福建的一位读书人卢戆章在1892年完成了一套方案叫“中国第一快切音新字”,他说,“用切音字能使国人读书无一不精”,是“变通中国之大急务”,放眼全世界,除“中国十八省及无字之生番而外,自余日月所照,霜露所坠,莫不以切音为字。切音字为普天下万国之公理也”。卢戆章是在1892年说这番话的,他即认为拼音文字能够在各国使用。试想,梵语是一门很古老的语言,但18世纪后期,连梵语都开始被用拉丁字母转写注音了。

西方人用他们那一套现代语言学的方法来处理东方语言。有个叫埃德温•麦克法兰的人,发明了第一台暹罗文打字机,让泰国的语言能用打字机来处理了。埃德温•麦克法兰出生在传教士家庭,父母一辈就在泰国扎根,他爸爸编写过暹罗语字典,也懂印刷术,麦克法兰面对的暹罗文有44个辅音字母、32个元音字母、10个数字符号和8种标点符号,很显然,暹罗文的字母比英文字母多。字母多,那用双键盘打字机行不行?当时还真有一种双键盘打字机,但在商业竞争中,双键盘打字机逐步被淘汰了。从商业上看,这是一套标准的建立,单键盘的制造成本更低,便携,你暹罗文76个字母,也得按照可切换单键盘来重新设计打字机。但从更深的逻辑上来看呢,这是一个与现代的兼容性问题。

世界上的各种字母文字和表音文字按照其与现代的兼容性有了一个高低排序,英文就是理所当然的“现代”标准,法文、西班牙文和意大利文字母表和英文高度重合,打字机的键盘布局略作调整就可以了。俄语对打字机的调整就复杂一点儿,需要把键盘改成包含33个字母的西里尔字母键盘。希伯来语和阿拉伯语就麻烦了,这两种语言从右向左写,跟英语是反着的,阿拉伯文打字机最早是1899年设计出来的,阿拉伯语有29个字母,但有不同的字形和连接方式,设计者改变了书写方式,将字形总数量由638个减少到58个。不管各种语言的打字机如何设计和改进,他们都有一个信条,那就是不能从底层质疑单键盘打字机,你再怎么设计,也不能改变打字机工厂的金属构件的压铸,你要干的是“改动最小化”。作者墨磊宁总结,语言在工厂中,工厂制造打字机,世界上的语言得适应工厂。这就是现代标准。

我们不搭理这套标准行不行呢?干吗用打字机,我们就用毛笔,我们有书法文化。也不是不行。但现代化的标准是成系统的,比如印刷和电报。中国是发明了活字印刷术,但明清时期,我们还是用雕版印刷,印一本书要在木头上刻出全部文字来。1880年,大清就有了电报局,用电码传文字,比用马快多了,我们用四个数字的排列组合来对应汉字,也能打电报,就是需要经过一道翻译。这套汉字电报系统用了一百多年,也不算太耽误事。现代化的东西是可以普遍适用的,就是麻烦一点儿,但这个“麻烦一点儿”就是你和现代化的兼容性问题,当时英语环境下发明的东西,成为现代化的标准,你兼容性越好,离现代化越近。中文打字机面对的就是这个问题,古老的汉字不适应英语所主导的现代化。

第二部分

好,我们进入第二部分,看看中文打字机该怎么设计。

发明中文打字机,需要对汉字有一种全新的认识,这个认识是由外国人特别是外国传教士开始的。认识路径有三种,第一是常见字,第二是拼合,第三是代码。

我们先说常见字。有一位叫小斯当东的洋人,翻译了《大清律例》,也就是清朝的基本法律条文,他对自己使用的汉字做了字频统计,发现《大清律例》最常用的汉字不过2000个,掌握2000个汉字就能读懂法律条文。传教士到中国来,一方面读中文经典,一方面翻译《圣经》,通过统计字频,他们发现儒家经典《论语》,用了三千多个不同的汉字,中译本《旧约》全文503663字,但印刷所需的汉字是3946个,《新约》全文173164字,只有2713个不同的汉字,《康熙字典》中的汉字有四万多个,但常用的三五千汉字就足够写文章搞出版了。

统计字频,这是一种科学方法,我们现在学英语,会接触到一个概念叫“兰斯值”。兰斯值根据阅读材料中句子的长度和书中的词汇在语料库中出现的频率来确定,简单说,句子越短,单词越常见,这份阅读材料的难度就低。像《夏洛的网》,兰斯值680,这就比较适合中学生看;读《经济学人》杂志,兰斯值在1200以上了,这就是你出国留学时应该达到的阅读水准。有了这套标准,就有了分级阅读这个概念。兰斯值和兰斯阅读分级系统就建立在字频统计上。

有了字频统计,就会有汉字字库的概念。搞印刷,把一套中文金属活字排布得更紧凑,就可以让排字工人在一步之内拾取所需的任何汉字,其中500个最常用汉字放在一起,会极大提高工作效率。最早的中文打字机就是以这个思路发明的,说是发明,其实只是有了设计稿,并没有生产出来,设计者是美国的传教士谢卫楼。他设计的中文打字机是一个大圆盘,以同心圆的形式分成三十个圈,密密麻麻排着4662个汉字,越靠近中心是越常用的汉字,整个打字机看上去像一个小圆桌。这其实跟印刷厂捡字的理念是一样的,以“挑拣”而非“输入”来进行打印。基于这种理念成型的中文打字机,输入效率肯定较差,你得经过很长时间的训练才能达到每分钟打几十字的速度。

清末去美国留学的周厚坤,是学铁路工程和航空工程的,后来他的热情放在研究打字机上。他发明的中文打字机也是基于字库的理念,打字员要在“选字盘”上挑选汉字,选字盘是一个滚筒,尺寸长40厘米到45厘米,直径约15厘米,上面有三千多个汉字。受过良好教育的中国人,一般掌握6000个汉字,最常用的2000个汉字就覆盖了使用率的一半以上,一般来说,三四千汉字够用了。

我们再看第二种认识路径,拼合,能不能把一个个汉字拆解为各个不同组成部分呢?这就要研究汉字的构字方法。最早的尝试者是法国汉学家包铁和字体设计师李格昂,他们设计了一种拼合活字理念,将汉字拆分。《康熙字典》里有214个汉字部首,但是,对汉字来说,部首是一种检索方法,是一种分类方法,而不是一种构字方法。比如时间的时,我们说的是繁体字,左边一个日,右边一个寺庙的寺,看上去能拆,但“早晨”这两个字,也都有“日”,写出来的两个日是截然不同的,跟时间的时里那个日,也不一样,汉字是讲究整体性的。另外,有一些汉字是不能拆的,比如无中生有的无,繁体字的无。包铁和字体设计师李格昂做了细致的工作,把汉字分成可拆的和不可拆的,搞出了三千多个部件,从设计原理上讲,这样的打字机可以用,但就是打出来的字太难看了,把整体的汉字拆解,破坏了汉字书写的连贯性、整体性和美感。不过,这一路径后继有人,跟周厚坤同时代的留学生祁暄,就发明了以“拼合”为出发点的“打字机”,在发布会上,其效率也是让人哀叹,两个小时打出了100个字。这太慢了,之所以慢,是这种打字法跟我们从小将汉字作为一个整体来认识的那种思维习惯相反,要培训打字员也比较麻烦。

第三种路径叫代码,1871年,上海与香港之间开通了电报通信,两个外国人发明了中文电码,选取6800个常用汉字,按顺序编码为0001到9999的四位数,在电码本中预留将近3000个空位置,以供电报员根据工作需要输入一些不常用的汉字。莫尔斯电报用长脉冲、短脉冲组合发送字母和数字,中文电报由数字传输,再由数字转译,是天然“密电”,而不是“明文电报”。大清在1880年设立了电报局,这套系统此后使用了100多年。虽然有点儿笨拙,但也稳定。在打字机上,发明思路主要是常用字和拼合的两种路线,代码这个路径无法进入打字机,因为代码是另一种中介形式。

在当时西方中心的语境下,周厚坤认识到中文打字机和英文打字机不可能是一种东西,他以常用字的思路发明了自己的打字机。祁暄以拼合的思路发明了自己的打字机。这两位设计的中文打字机都引起了商务印书馆老板张元济的注意,打字机是让语言进入工厂的,中文打字机也要大规模商业化,才算成功。周厚坤和祁暄在报纸上写文章互相贬低,商务印书馆老板张元济选择了周厚坤。商务印书馆是出版机构,周厚坤设计的打字机和中文活字印刷的逻辑是一样的,但周厚坤在商务印书馆也没能大展宏图,后来跳槽到一家钢铁公司当技术总监,商务印书馆来了一位新人叫舒震东,他用长方形平面字盘取代滚筒设计,跟谢文楼最初的设计有异曲同工之处,商务印书馆投入了大量财力发展中文打字机部门,办公室有四十多间,部门职员有300多人,设备部件有200种以上,制造过程有多种工序,铅字铸造、字盘字表检查、机架组装等等。从1917年到1934年间,商务印书馆一共卖出了2000台中文打字机,一年卖出去100多台。中文打字机也催生了打字员这个职业,北京上海开设了打字学校,学生要反复识别和记忆字盘的排布规则,需要经过训练才能达到每小时打2000个字的速度。这种中文打字机有数以千计的按键,不形成肌肉记忆,是无法快速打字的。

1947年,林语堂设计的“明快中文打字机”问世,这是最像英文打字机的中文打字机,有72个按键,每个按键看上去都是汉字的一个“字基”,打第一下打第二下,都不会出字,打第三下,会出现8个汉字,要从中挑出你要打的那个字。这种交互模式不是“所打即所得”,中间加了一个“搜索”的过程,现在我们所使用的输入法,其实就是这种交互模式。林语堂开发这台打字机花了12万美元,可以说把自己的大部分身家都扔在上面了,他带着这台打字机去雷明顿公司演示,那次演示失败了,然而,即使那次演示成功了,恐怕雷明顿也不会推出明快打字机。我们现在只能通过文字描述来猜想明快打字机的构造,用上下形检字法设计键盘,内部构件用星系式排列方法,每分钟能打五十个字,听起来不错,但好像生产起来很麻烦。

西方人提出更简单的思路,你们不是有注音符号了吗,用注音符号来打字,只需要把键盘上的标记改一下就行了,内部构造不需要改动,西方的打字机工厂能迅速生产注音符号打字机。注音符号是当时民国政府弄出来的拼音,是帮助国人学汉字用的,而不是用来取代汉字的,新中国采用的汉语拼音是汉字拉丁化的一种方法,也是帮助大家认字的,汉语拼音也不能取代汉字。中文打字机的尴尬之处,背后正是中文和拉丁文字之间巨大的矛盾。

第三部分

好,我们进入第三部分,进一步说说中文与拉丁文字在文字处理上的深层矛盾。

汉字有悠久的历史,也有广泛的影响。中国地域辽阔,不同方言的人交流,可能听不懂,但都认识字都能读文章,就能有交流。日本、韩国、越南一些受过教育的人,能和中国人笔谈,听不懂没关系,认识汉字就好办了。这就是文化的力量。但到了清末,到了现代,汉字文化圈受到外来文化冲击,汉字的地位动摇了。电报、电话、现代印刷技术、铁路、轮船,新技术和新思想让使用汉字的人进入一种表述危机。我们举个例子,大家都读过唐诗,对五言诗七律诗这样的体裁不陌生,但我们很难想象用七律来歌咏火车和轮船。再比如女性第三人称,女字旁的那个她字是新文化运动中造出来的新字,我们以前没有专用的女性第三人称。

在新的文化冲击之下,打字机这东西就比较微妙,有一位英国记者在民国初年就断言,汉字只能用笔写,不能用打字机,这会影响中国的商业,交流没有效率,商业就不会发达,交通也不会发达。历史学家李思纯,曾经在欧洲留学,他说,汉字其他缺点且不必说,只是不能造打字机这一条,就是废除汉字的理由。提出废除汉字的知识分子,大多曾在欧美或者日本留学,对外文很熟悉,回头再看中文,就能看出中文的不方便。钱玄同说,文言文看起来简洁,实际上笼统粗疏含糊,你看完之后要仔细推敲才能明白,白话文精密舒畅,更为“经济”。经济这个词,成为文字表述上的准则,简单说就是方便不方便,投入较少,利益较大。这可以说是新文化运动的一个思路,学古文,太难,白话文更简单,语言是工具,有了这个工具再去学科学,建设国家,而不是花太多时间学古文弄清楚一大堆典故,这也是一种经济上的考虑。

我们看胡愈之先生的一段论述,他说,拿语文和货币来做比较,是最适当的。货币是体现商品价值的工具,语文是表现思想的工具。在资本主义社会中,只有靠货币的媒介,才能发展商品的交换,在人类社会中,靠语文的媒介,才有思想的交换。人类思想交换的必要,是语文的生存理由。中国的许多文字已经成为不能兑换的货币,甚至是给死人用的纸钱了。这是胡愈之1937年的一段话。我们再看瞿秋白先生的观点,他说,用纸笔来记录文字,是手工业的方法,现在的文字处理要用机器和科学。国家要解决商业和交通的问题,要解决沟通和沟通效率的问题,国家要面对现代化。

是否方便,是否经济,是否更有效率,成为汉字的一个衡量标准。我们不妨想一下,现在你在网上或者书上遇到一个不认识的字,你是怎么查它的读音和意思的。你把它复制下来,直接百度?或者用“木子李”这样的拆字方法,将一个生字拆成你认识的两部分,再去网上查?还是用原来上小学时学的部首查字法,用《新华字典》《现代汉语词典》去查?我们会发觉,查字典会慢几秒,还是在网上直接查更省时间。100年前,人们也意识到,查汉字比查字母文字耗时更多。汉字检索在100年前遇到的问题包括:怎么编制中文电话簿,怎么弄档案索引,怎么整理各种参考资料。查找和处理中文编写的信息,太慢了。1960年代,周有光出了一本小书叫《电报拼音化》,他在前言中说,方块汉字不便在电报上传送。要把汉字转换为数码,用四个数字代表一个汉字,手续烦,速度慢,成本高。周有光希望达到一种“所见即所得”的效果,对用打字机的人来说,“所打即所得”也是天经地义的,英文打字机是“所打即所得”,以常用字为理念生产的中文打字机能胜出以拼合为理念的中文打字机,也是它更像“所打即所得”。我们在网上直接查生字,不用纸质字典,周有光希望传中文不使用电码本,都要省略二道中介,都是要让所见直接导向所得。

周有光,被称作是“汉语拼音之父”。从甲午海战之后,中国知识分子弄出了上百种切音方案,1958年,周有光主导的汉语拼音方案公布之后,电报拼音化的可行性似乎提高了,他希望电报传输的就是汉语拼音。1983年,周有光还是主张“废除汉字,改用拼音”,到1996年,他的看法发生了一些变化,因为电脑时代来临了。他修正自己的观点,说拼音化的含义不是废除汉字,而是利用拼音,帮助汉字。他说,信息化不仅意味着从机械到电脑,更重要的是从封闭到开放。周有光先生到了晚年,他在一次接受采访时说,“我到如今还认为中国的文字不太方便,在电脑上使用不能跟人家竞争,我今天还主张要有一种很方便的中文。但是可以保留原来的困难的中文,让有时间的人去使用。应该有大家不要花太多时间就能用的语言文字。在新的时代,要学的东西多得不得了,你不能叫一个青年花大多时间在语文上面。”周有光先生这段话,出自《声入心通:国语运动与现代中国》一书。这是清华大学历史系教授王东杰先生的专著,讨论的就是汉语与现代性的问题。如果你想更深入地了解这个问题,可以在得到电子书找到《声入心通:国语运动与现代中国》这本书。关于汉语和现代性,中国学者有过很多反思,但墨磊宁这本书《中文打字机》以打字机为切口,让我们从技术和发明的角度来思考语言问题。

我们前面说了,关于汉字的信息化,墨磊宁打算写两本书,一本是《中文打字机》,一本是电脑时代来临后的中文信息化处理。中文信息化处理可能会更多地涉及中英文的深层矛盾,中文是封闭的?英文是开放的?我们很难这样简单的下结论,但中文打字机的历史说明了一种尴尬状态,那就是英文确立了一种强势技术,我们对新技术起初格格不入,然后融入其中,兼容性却始终不够好,我们要另辟蹊径,也不太可能。很难说,我们现在就走出了这种尴尬状态。

结语

好,以上就是我对《中文打字机》一书的解读。我们再来回顾总结一下。

首先,19世纪,英文打字机确立了一种现代化标准,单键盘打字机确立了市场主导地位,剩下的文字按照兼容性有了远近亲疏之分。1890年代,世界上大多数文字都可以用打字机来处理了,包括希伯来文、阿拉伯文、暹罗文等等,日本在明治维新后致力于摆脱汉字的影响,他们的片假名打字机是以片假名来处理日语。表音文字都按照英文打字机来调试自己的文字处理方式,孤独的中文要融入到这种技术之中,这是一个现代化进程。

其次,对中文的现代化处理,有三种认识路径,常用字字频、拼合及代码。代码用来处理电报,常用字和拼合用来处理打字机。留美学生周厚坤以常用字的路径发明了中文打字机,另一位留学生祁暄以拼合的思路发明了自己的打字机,商务印书馆采用了周厚坤的思路,中文活字印刷和中文打字机都是以常用字的逻辑来进行文字处理的,这种状况持续到1990年代,电脑时代来临,激光照排系统的发明,让中文信息化发生了根本的变化。

最后,我们今天在电脑上处理汉字,已经感受不到太多障碍了。但《中文打字机》这本书给我们提出了一个思考角度,英文打字机确定其垄断地位之后,其他语言的打字机就只能跟随吗?必须在英文打字机的键盘上去思考怎么处理自己的文字吗?打字机是适于英语的一种发明,那电脑是吗?互联网是吗?操作系统呢?我们的手机和电脑,自己的系统好使吗?中文打字机的故事是汉字应对现代化的故事,这个故事远没有结束。

此外,我还想提及的是,汉字太有文化内涵了,陈寅恪先生说,一个汉字的历史就是一部小的文化史。鲁迅先生说,汉字如结核,细菌都在其中。这两种看法截然对立,我等徘徊在其间,周有光先生说,你不能叫一个青年花大多时间在语文上面。这种看法对不对呢?恐怕每个人都有自己的答案,这两年,我们时常听到有人讨论说要不要取消英语的主科地位,要不要学英语考英语,实际上这个问题非常复杂。每个学生要花多长时间去学不在日常生活中使用的文言文,花多长时间学英语学电脑,这不是一个新问题,这是150年前就有的问题。

以上就是本期音频的全部内容,恭喜你又听完了一本书

撰稿:苗炜工作室

转述:宝木

脑图:刘艳思维导图工坊

来源:https://dedao.cn