漫谈针对ePub中生僻字的处理

简述 我们通常做电子书的时候,常见的现代文字书,使用通用宋体、黑体的正常字库大小(大约近三万汉字+拉丁系字母)差不多都可以满足要求了。但是对于古籍而言还是不够。像现在网上很多文字校对工具据说都是为了将佛经电子化而开发出来的——信佛的程序员了不得啊。
且不说佛经里头有很多的梵文音译过来的生僻字,电子化起来肯定很麻烦,就最常见的一本三国演义,里面的生僻字就不见得能处理好。
三国里面的生僻字其实大部分包括在我们通用的字库里面了(只是个别是以繁体显示而已),但有个别的生僻字在人名中,很难处理。比如孙休的长子孙wan。大家可以翻到最后一回,一开头就有这个人名出现。
怎么处理?一般有以下几种办法:
替换 这是最省事的一种,直接替换为异体字,比如“噚”这个字是用于古欧洲长度单位的,原始文字的右边应该是简体的“寻”字,但是字库里没这个字,只有繁体的“寻”做偏旁,意思是一样的,那就可以直接用这个字。
还有一个例子,比如古文里面有“左木右匮“这样的字,网上根本找不到这个字。但是根据上下文的意思,这个字是柜子的意思,而且“木匮”这个字在古文中也通“柜”字,对于专业性不是很强的书来说,也可以直接用柜字。
还有一种情况是类推简化字。由于字库分配的问题,有些带繁体偏旁的字(比如“鴅”)放在常用GBK字库里面,但是其类推简化字(“”,左丹右鸟,就是将右侧的鳥简化了)是放在扩展B区的,一般字库显示不了这个字(个人认为类推简化字意义不大,因为本来这种繁体字就不常用,使用繁体并没有什么麻烦的地方,古籍中也不会使用这种类推简化字,弄出来反而平白浪费了字库容量)。
优点:不影响正文外观和结构,便于书中查询。
缺点:

  1. 只限于对专业性不是很强,不要求字字相同的书;
  2. 只限于该文字在字库中存在强相关异体字形的情况;
  3. 只限于非人名的情况,除非这个人名是历史上不咋出名的,或者是小说里的路人甲。
偏旁组合 这是最偷懒的一种,就像替换法介绍的,用【左X右Y】或【上X下Y】这种形式括起来,在掌阅的公版书里用得比较多。它比替换法更方便一些。
优点:排版比较快,不需要去查询异体字。
  1. 只限于上下或左右结构的字,而且偏旁也要在字库中;
  2. 影响正文外观,无法书中查询;
  3. 碰到翻页的情况,可能四个字被分到前后两页,可读性差。
图片 这是比较大众化的一种办法,因为不管啥字,只要用图片一描都可以实现。在Kindle中,因为Kindle的字库很小,对于一些专业性较强的书籍,几乎大片大片的使用图片内嵌到文本中。
优点:处理过程简单,适用环境广泛。
缺点:
  1. 对墨水屏的适用性较强,因为墨水屏不容易看出来,但是对于高清屏幕来说,正文就像打上了一块块的补丁;
  2. 图片不能像字体那样无损缩放,会有明显的毛刺出现;
  3. 对于有白天夜间模式切换的电子书软件来说,夜间模式图片就看不见了,不会像文字那样自动反色。
注释
这是我通常用的一种办法,它综合了上述两种的优点。方法是正文中使用同音或同义的字,加上一段注释,注释中加以说明并辅以字形图片说明。
优点:不影响正文外观和结构,同时保留了原文字形。在多看中行内注释不受日夜切换的影响。
缺点:
  1. 需要考虑替代字体的选择;
  2. 对于正文中有大量生僻字的情况,工作量会很大,而且注释图标多了也影响外观和交互。
外挂字库
这算是解决上述问题的终极解决办法,但是要求的成本也是很高的,而且对于阅读软件也有要求。必须是支持epub内置字体的软件,而且还需要自己去修改一个字库,修改的字还不能太丑,否则影响正文外观。网上有花园明朝这种超大字符集,但是字体实在比较丑。需要找一个比较好看一点的字体才行。
优点:不影响正文外观和结构,同时保留了原文字形。而且没有多余的注释图标影响正文。
缺点:
  1. 成本高,对阅读软件和用户的动手能力都有要求;
  2. 内置字体会显著增加epub的文件大小;
  3. 最好不要在现有字体上修改现有字符,因为别的字体这个位置还是原来的字符,对于可以替换字体的软件来说,一换字体或者进行书内查询就露馅了。
总结 【漫谈针对ePub中生僻字的处理】上述5种办法,还是建议从简单到复杂综合运用,不过个人不推荐使用第二和第三种方法,因为会影响美观。当然如果是墨水屏电子书用户,图片替代还是可以考虑的。

    推荐阅读