电子书遭遇格式转换文档保存的烦恼
记者 任晓宁 来源:《中国新闻出版报》 日期:2013-03-07
“去年电子书收入300万元,电子书加工却花了近500万元。”在一次数字出版界的内部会议上,当当网副总裁王曦这样抱怨。500万元对于当当不是太多的钱,令王曦感到委屈的是,这些支出本来都可以避免。
另一家致力于精致阅读的数字阅读公司多看科技在数据加工方面的支出更大,但他们不得不这样做。“在现阶段,只有把这些纰漏处理完了,电子书的品质才会上去,否则样式做得再漂亮,内容不合格,还是不会得到读者的认可。”多看科技主编喻娟告诉《中国新闻出版报》记者。
如果仅仅是加工电子书,这本是当当及多看的分内事。但现在,在加工电子书之外,他们还需要想办法帮出版社凑齐缺失的文章段落,找回高质量的图片,甚至要自己购买纸书一个字一个字地修改电子版本中的错别字。
“这个钱花得心里不舒服,就像卖纸书一样,不能给我一个没装订的,因为没办法给顾客。而电子书却是这样,很多出版社、内容供应商只给了我们一个半成品。”王曦说。
值得关注的是,这样的半成品并不是小数目。
原始数据 内容缺失不全
“原始数据不全是当前电子书加工过程中很普遍的问题。”喻娟透露,在多看制作上线的2000多本电子书中,60%在初期能有比较完备的素材,这也意味着,40%出版物的电子版存在缺页、错字、无图片等较严重的问题。
当当网方面则表示,原始素材缺内容、缺图片,字体信息缺失对电子书的加工时间和成本造成极大地影响。
与数字出版草莽时代的粗加工不同,随着产业的发展以及用户需求的提升,进行售卖的电子书不再仅仅有文本资料,而是有了更细致的排版、图片、注释等,甚至细致到每个标点符号。
对于电子书加工方,除基本的文字内容外,他们往往还会需要出版社提供图书封面图(高质量大图)、图书的原始图片、原书排版细节等。但是,很少有出版社能一下把这些原始素材全部提供。
“有一家图书公司,我们签订电子书合作协议后,他们才开始整理图书内容。当时仅原始数据整理就用了一个4~5人的团队,花了半年时间,才把需求的内容提供给我们。”喻娟回忆到。
如果是新书,沟通后出版社还有可能把素材找齐,但若是出版日期较久远的图书,出版社提供的原始素材可能就只有一个质量无法保证的文档。在这种情况下,电子书制作者就需要重新设计封面,并且,这种文档的注释、变角等细节问题会有很多。
仅文本内容,在电子化的过程中也会遇到各种各样的问题,比如校对。“遇到极端的情况,加工一本书需要一天,校对就需要两天。”多看副总裁胡晓东说。
记者了解到,电子书制作方一般会要求出版社提供最终版电子文档,也就是马上印刷的那一版。但一般出片后出版社还会再次进行修改,这中间就会有时间和人工的误差。为了尽量降低差错率,在制作电子书的过程中,多看会确保每本电子书至少有一本纸质作为样书,先核对一遍,以保证不会有大量的内容丢失,或是书名与内容不匹配的情况出现。
“如果格式转换出现了问题,我们可以采用技术手段,无论是机器处理还是人工处理,都会有规律性的解决办法。但如果出版文件源头就出现了大量问题,那只能人工逐一纠正,将耗费大量人力、物力。”喻娟说道。
不同格式 转换问题多多
“通常情况下,出版社给到我们的内容有各种不同的版本,例如飞腾、PDF、word、TXT等。这些不同的版本在制作过程中,常常遇到格式不统一的问题,会给电子书加工带来一定的困扰。”当当网相关负责人说。
格式转换的困扰也是其他电子书加工者必须面对的问题。“出版社提供的出版文件,常规有三类:一是最好的情况,直接提供排版文件;二是PDF文件,这也是目前提供量最大的;三是比较麻烦的,比如有些版权公司只提供TXT文档,顶多再加一个封面。”多看阅读高级数字编辑焦焘谈道,这三种原始文件在制作电子书的过程中,都会出现一些问题。
据他介绍,纸质出版物排版软件经过几次更新,现在比较流行的是方正飞腾、Pagemaker、InDesign三种软件,但这三种软件都不能直接将图书加工成市面上最流行的ePub格式,而是各有各的格式。
“比如出版社给我们一个方正飞腾制作的排版文件,如果不使用方正正版软件打开,就会出现缺字、漏字情况。”焦焘告诉记者,多看目前使用的是基于ePub格式自主研发的排版工具,这种工具能让制作出来的电子书更漂亮,拥有更多功能,但这种工具并不能准确识别出版社所使用的排版文件。
PDF文件的问题更多,制作电子书时,PDF文件需要转成TXT格式,再转成ePub格式,转换过程中会出现标点全角、半角,以及数字的问题。并且,根据焦焘的经验,“如果PDF尺寸很小,提取的图片就不能符合要求。并且提取PDF文字经常会出现文字错乱、倒字、回车等问题,都很难处理。甚至有的出版社直接提供的是加密版PDF,提供出来的文件会有标点或某个字被屏蔽掉,这样提取出来的文件很难直接阅读。”
种种困扰均造成了电子书加工的困难,并且,这是不得不面对的问题。“现在并没有哪种软件,可以将所有格式转换成电子书需要的格式后而不产生问题。”焦焘告诉记者,原因在于出版社原文件版本太过复杂,因此转换差错率主要还是靠人工控制。
电子文档 管理亟须提升
无论是原文件的缺失还是出版文件格式的杂乱,归根结底,都在于出版社对于电子文档的保管和管理。如果出版社能提供完整的素材,可能一两天时间就能加工完一本质量上乘的电子书,若是素材“缺东少西”,则有可能耗费数月。
“我们曾做过一套全集,出版社提供的版本出现了错漏章节的问题。为了做好这套书,我们找了两个编辑拿着纸书挨个校对,把所有的错别字都改过来,所有缺的章节都补回来。当时每天加班到晚上10点,做了两周才完工。”提起这段痛苦的经历,焦焘说,若不是这套书价值极高,值得精细加工,否则是很难合作的。
在合作过程中,也不乏原始文件保存较好的出版社,人民大学出版社就是其中一家。人民大学出版社数字出版副主任朱亮亮告诉记者,他们从数据源头就比较重视。“社里会对出版科有要求并会制定考核的,要求出版科提供给数字出版部齐备的数据原文件。”据了解,人民大学出版社在2010年之前就已经有了数据资源细致保存的流程,2010年之后,对这套流程要求更加具体,“图书电子版本的封面图片、版权页等都要求齐备,时间上我们对印刷厂也有要求,他们一周内必须返回电子版本数据。”
同时,对于这些数据资源,人民大学出版社还设置了专人负责保管、入库管理以及与印刷厂沟通,“整个流程都得益于出版社对数字出版的重视。”朱亮亮说。
据了解,人民军医出版社在数字资源管理方面也颇有经验,根据该社的规定,在纸质图书付印之前,如果电子版本文件不齐全,就会扣相应编辑的钱。在这种策略下,人民军医出版社的数字资源保存的很完善。
“现在出现众多问题,原因就在于出版社当初制作纸质图书的过程中没有考虑到之后数字出版。我们希望出版社根据目前电子书行业的发展,能够妥善保管数据文档,并在制作的初期就充分考虑到后期电子书制作的相关问题。”当当网相关负责人提出这样的建议。
喻娟也谈到,现阶段数据处理给电子书制作方带来很大压力,她希望有一天,出版社能直接提供规范化的数据源。届时,电子书制作方就可以在这些数据的基础上,以更高的质量把电子书制作得更舒服,让读者的阅读体验更好。