[摘要]语义出版目前已经由期刊、报纸蔓延至图书领域。语义出版要解决收支平衡、技术接口、传统融合、内容创新等问题。传统出版编辑思想上要向语义出版积极靠拢,行动上要“补短”“扬长”。
[关键词]传统出版 语义出版 编辑作为
[中图分类号]G23 [文献标识码]A
“十二五”期间,中国图书出版业,一方面纸质出版、传统出版持续发展,另一方面电子出版、数字出版发展强劲。可以预见,“十三五”期间,纸质出版、传统出版将凭借现有强大的出版实体与消费惯性而继续占据大半个市场,而电子出版、数字出版作为新鲜事物凭借其强大的生命力将继续扩大现有图书市场份额,这两个方面,到底是此消彼长、势不两立,还是彼此融合、相互促进,专家们议论纷纭,难有定论。但是,“科技是第一生产力”,技术在不断改变生活,事实上,世界上已经出现语义出版(Semantic Publishing)这个新鲜事物,而且国外期刊的语义出版很有成效,国内图书在语义出版方面崭露头角。语义出版是互联网技术推动下传统出版发展的必然产物,目前已经由期刊、报纸蔓延至图书领域。
一、语义出版概况
计算机语义标注研究始于“万维网发明者”蒂姆·伯纳斯-李(Tim Berners-Lee)。他于1980年开始构想,1990年创建互联网上的超文本系统,2000年提出语义网(Semantic Web)的概念及其体系结构。自此,计算机自动处理网上信息成为现实。时至2009年,大卫·香顿(David Shotton)提出语义出版(Semantic Publishing)概念,并用于科技期刊领域。[1]2011年5月,第5届世界语义网大会召开期间,曾举办第1届语义出版研讨会,就语义出版诸多技术进行热烈交流。[2]
目前,国外大型出版机构、学术组织、研究中心在语义出版方面不断开拓创新,已经开始了商业运用。英国皇家化学学会(RSC)成立于1841年,目前出版38种期刊,其技术编辑通过语义标注所有文章,2004年起发布,使其成为科技期刊语义出版的范例。[3]爱思唯尔(Elsevier)采用结构化的数字摘要,对海量医学内容进行深度标引,2012年发布医学信息平台ClinicaKey,以期保证用户快速获取最新临床资料。[4]美国公共科学图书馆和国际计算生物学协会共同发布的《PLOS计算生物学》,可自动链接外部数据库。汤森·路透集团将拥有的资料进行语义注释,推出“Open Calais”服务,供第三方企业实现商业利用。维基百科使用97种不同的语言为多达350万个条目设置语义标注,为用户提供在线链接服务。微软设计出本体识别插件,可自动识别文档语义信息。微软联合谷歌、雅虎、Yandex已经推出网页语义化处理标准。
国内出版界与学术界也已经着手语义出版。中国知网、万方数据、读秀学术搜索、高等教育出版社、中华书局等依靠拥有的数据库开展语义技术的应用。[5]中国科学院国家科学图书馆张晓林教授于2009年提出Journal 3.0模型,从语义标注增强、链接重组发现、公开合作交流三个维度构建期刊数字化发展模型,并启动“Journal 3.0研究与示范平台”项目(1期),仅限于论文摘要而不是全文范围。人民出版社研发出语义自动识别工具,集成语义查询、自动对比、概念关联等功能,可有效处理汉语知识资源。《解放日报》报业集团建立基于语义的新闻采集和分析系统,可一次采编、持续追踪、多次使用。商务印书馆在2013年将自主研发的项目“百种精品图书数据库”(1期)投入市场。汕头大学出版社研发语义编辑技术,开发复合语义系统,搭建基于大数据语义分析的复合出版平台,让客户以结构化方式获得信息。
安徽师范大学出版社牵头与汕头大学出版社共同设计开发的2014年安徽省省级文化强省建设专项资金资助项目“科普读物语义导航阅读”,在图书语义出版方面进行了积极而富有成效的探索。[6]
该项目通过计算机语义自动标注15个系列121本科普图书。注册用户阅读模式有五种:单本书顺序、系列图书顺序、索引词顺序、知识点顺序、知识网顺序。打开图书页面,除了可以按照文本顺序阅读外,点击某一分词,可内链这一本书所有相关信息,或内链这一系列图书所有相关信息,或内链这121本书所有相关信息,或外链百度百科、维基百科等的相关解释。用户可由被动阅读转为主动阅读:点击“知识点”,显示该知识点的“摘要”,可外链相关内容,进行扩展阅读;点击“知识网”,显示该文章各知识点的词条网络,词的圆圈越大表示该词在121本书中相关知识越多,点击词条即可阅读。
该项目出版方面的独特之处在于,通过词条搜索,进行内容按需重组,可用于出版新书。例如,打开页面,阅读《地球的变脸:天气与气候》一书的文本,发现词条“天气”,搜索该词条,则显示“天气”在书中的知识点;点击“‘天气’的内容重组成书”,则显示出“内容整合”,左栏生成“天气”的“目录”,有“天气谚语”“天气与生理健康”“天气与心理健康”“健康天气预报”“冷锋天气”“准静止锋天气”“锢囚锋天气”“霜是怎样形成的”“气候和天气的区别”“‘厄尔尼诺’的影响”等篇章,右边生成篇章的相应内容。这样一来,原来121本书,通过词条搜索而按需重组内容,则可生成几百本、几千本新书!
根据上述探索实践,可初步判断出语义出版这个概念具备以下特征:计算机语义标注文本;依据语义标注,可实现分类呈现;利用网络,文本之内知识点可链接文本之外知识点;一次投入,可多次产出;既可提供传统阅读服务,又可实现个性化订制服务。
二、语义出版的若干可行性项目
语义出版正在深刻地改变着传统出版观念和传统出版模式。就国内图书语义出版来说,除“科普读物”外,我们认为以下若干项目都具有可行性:
第一,电子书包。学生的课本、辅导资料、课外读物,目前是纸质出版、传统出版的主阵地,但也是最适合做语义出版的项目。不仅环保、经济,而且可推出个性化图书服务,从而实现个性化教学,这将掀起教育界向往已久的技术革命。这个项目需要出版界与教育界联合开发。
第二,具有学科性质、专业性质的研究型丛书。将语义出版引入学术研究之中,不仅可以展示、检验作者的学术研究能力,而且可以参照其他学者的诸多研究成果,从而真正拓展与提升学术原创能力,有效揭发与遏制学术剽窃行为。这个项目需要出版界与相应学科、相应专业的学术委员会联合开发。
第三,古籍整理丛书。校对原文,汇评注释,展示其接受历程,增添读者最新感悟,这是语义出版的强项。从一定角度来说,古代种类繁多的纸质注释本,恰恰就是语义出版绝佳的原始素材。例如,一个《孙子兵法》语义出版项目,完全可以将《孙子兵法》古往今来的研究容纳其中,而且可以增添最新研究心得;而与《孙武兵法》等其他兵法语义出版项目融合,则构成中国兵法语义出版项目,再进一步扩大为世界兵法语义出版项目,这样发展前途更为远大。
第四,农家书屋、社区书屋、老年读物、儿童读物、女性读物等普及型工程。推介知识、链接搜罗、归纳整理、标记读书心得、统计读书习惯等,这也是语义出版的强项。
第五,字典辞典与语言学习项目。语义出版除了有文字,还有声、有色,可引进多媒体,开发读者与文本的信息互动,具有强大的搜索例句功能、翻译转换功能、检索记录功能、比对纠错功能,等等。
事实上,上述列举的项目有的已经开始进入电子书、数字出版的视野,已经具备语义出版的部分特征,但是限于技术或者思维的制约因素,并不具备比较完整的语义出版特征,不能成为真正意义上的语义出版。近年来国内电子和数字出版的图书在急剧增加,传统出版的数量也在不断增加,“十二五”期间如此,在“十三五”期间,这两个增加仍将延续下去,就科技方面来看,语义出版正是可以同时实现这两个增长的有效途径。
三、语义出版的现存问题及解决思路
语义出版的理想前提是,对拥有的资料库和使用的软件拥有足够的版权,语义标注内容够用、格式统一,有充足的资金和时间让技术编辑从事语义出版研究与创新工作,有足够的读者使用语义出版产品以便收回成本、持续发展。但是,事实却难尽如人意。
第一,版权购买与输出的问题,需要政府大力扶持。
语义出版因购买版权而涉及付出成本。语义出版是以有限的语义资源生成无限的语义资源。有限的语义资源必须买断版权,以便内链;无限的语义资源需要妥善解决版权问题,以便外链。语义资源扩大,就是无限向有限转变的过程,就是不断买进版权的过程。图书方面,必须买断版权,以便内链全书;若想扩大内链对象,可分批分期买进图书版权;外链的内容一般是互联网其他资源的摘要或者标题。
语义出版依赖版权保护而获取利润。语义出版产品属于电子出版物,具有版权,可实行用户收费制度。就图书语义出版来说,可实行分级阅读、分级下载、分级使用以便实行分级收费,又可计时收费、计流量收费、打包收费等。总的来看,目前语义出版一般入不敷出,能够做到收支大体平衡已经相当不错了,因此需要政府大力扶持,政府可以按出版项目直接资助或者采购,同时出版社需要探索赢利模式。
第二,语义标注分类和标准的接口问题,需要政府或行业指导。
将自然语言文本经过碎片化处理,将语义数据嵌入碎片内部,即形成语义标注。计算机标注什么样的语义特征,究其本质就是语义标注的分类问题。分为哪些类,分到哪些层,既要考虑目前够用,又要考虑可持续研究。以前缺乏语义标注的大量信息资料,现在需要补上;现在新生的海量资料,需要落实语义标注。在可预计的范围内,语义标注分类的颗粒度肯定会再次细化,因此现在就要尽可能细化。
学科不同,场景不同,划分的类别与层次不同,因此不同学科语义标注也就不完全相同。跨学科语义出版需要攻克跨学科语义标注的可兼容性问题。语义出版机构一般根据自己的需要各自开发语义标注分类,不同的语义出版机构沟通交流时就面临多种语义标注分类之间的转码,因此需要政府或者出版行业拿出行之有效的语义标注的统一标准,并且迫切需要加强国内外的语义标注的标准接口,以期使得汉语文本与非汉语文本一起融入语义出版中。
第三,传统内容与先进技术融合的问题,用推陈出新的办法解决。
传统科技期刊出版以“篇”为单位呈现知识,一篇论文记录某一方面的知识;传统图书出版以“书”为单位呈现知识,一本书记录某一方面的知识。这种以特定文献为载体记载着特定知识的出版方式,比远古时期口耳相传、结绳记事要先进得多,可克服时空制约,可扩大受众数量。但是,随着信息大爆炸,特定文献往往解决不了问题,人们迫切需要特定文献的相关文献,从相关文献中寻找答案。有的不满足于既有文献而重组或者添加文献,这种以“知识点”为单元呈现、发现与创新知识的需求,与当代计算机技术结合,产生语义网最终乃至语义出版。由此可见,语义出版产生之际,与传统出版的关系,就不是非此即彼的关系,而是推陈出新的关系。传统出版物经过语义标注成为语义出版的基础资源库,可以说,没有传统出版物就没有语义出版物,传统出版物的质与量决定着语义出版物的品质,传统出版物与语义出版物在质与量上都呈现出正相关关系。
语义出版作为新生事物,发展迅猛,其功能包括呈现“既有特定的文献”——这本来是传统出版的功能。现在生活中仍然有众多新知识需要众多新文献加以记载,传统出版本来肩负此重任现在仍然可以肩负此重任,所以目前传统出版仍可生存。但是,新生的语义出版同样可以肩负此重任,而且一旦将新文献经过先进技术的改造融入语义出版的基础资源库,就可以产生独特功能——将既有特定的文献内容(还可以增添新的文献内容)按需重组,以满足读者新的需求。就目前发展来看,当代出版机构在从事传统出版的同时要考虑向语义出版转型,才能紧跟科技前进的步伐,满足时代发展的需求。
第四,制作与发布的问题,用不断开发新产品来解决。
语义出版具有“一次制作,多元多次发布”的特点。“一次制作”指技术编辑对原文献进行一次语义标注。“多元多次发布”含义丰富:除以原文献形式发布外,还可以知识单元为着眼点,以词条形式发布,以知识点、知识网形式发布,以索引、摘要形式发布,以扩展性阅读、关联性阅读形式发布,还可对原文献内容按需重组而以新书形式发布,对内容重组的要求予以一定设置,可以发布普及型、研究型、热点型、辩论型、年份型、地域型等不同类型的新书,还可增加新的文献而以修订版形式发布,可处理读者读书笔记、研究心得等反馈意见而以私人版、珍藏版形式发布。
语义出版还可以记录、统计、分析读者的阅读内容和习惯,为读者量身定制阅读内容:为同一读者内链相近文献,为不同读者内链相关文献。语义出版外链互联网诸多信息,这种外链同样是基于读者阅读内容和习惯的记录、统计和分析,可向不同的读者提供不同的外链。无论内链还是外链,这种链接功能在使用中发生,越用越强,越强越有用,甚至可以强大到帮助读者发现自己都不知道而应该阅读的内容。但是,内链外链和“多元多次发布”一样,本质上、主体上是对原文献内容按需重组,是形式上的“乾坤大挪移”。更新原文献内容,增加新的文献,吸纳原创,都需要返回“一次制作”,才能使语义出版基础资源库产生变化,才能满足读者对语义内容的创新需求。
四、传统编辑如何面对语义出版
语义出版正在深刻地改变着传统出版的观念和模式。编辑如何应对?
第一,在思想上,传统出版编辑要高度重视,来一次“革命”。必须意识到传统出版正在向数字出版转型,传统出版以及其他数字出版正在向语义出版过渡,语义出版正在以势不可挡的力量发展壮大,语义出版是可预见的将来主流的出版模式。换句话说,现在谁漠视语义出版谁就在断送自己的未来,这关乎有没有未来的问题。
第二,在行动上,传统出版编辑要迈出步伐,切切实实地“补短”。接触、了解语义出版模式,学习、掌握语义出版流程,参观、访问语义出版机构,积极参与语义出版事务,努力申报语义出版项目。传统出版编辑一般熟悉传统出版流程和技术,粗通计算机办公软件,面对涉及诸多计算机语义处理软件往往不知所措。传统出版机构紧缺精通计算机语义处理软件的编辑,往往采用外包形式,将计算机语义处理的环节外包给相应的技术公司。中青年编辑需要迎难而上,努力掌握计算机语义处理的一般程序,参与各类技术的更新研发,深切领会读者对最新技术的需求,顺畅地与技术公司对话,确保出版机构在语义出版技术上拥有足够的话语权。
第三,传统出版编辑“补短”的同时要“扬长”。敏锐的策划能力、合格的编校能力、积累的销售能力,这些都是传统出版编辑的看家本领,也是传统出版编辑进入语义出版后的立身之本。传统出版物的策划,仅仅是一本书、一套书的构思;语义出版,本质上是资源库和出版平台的构建,除了呈现原始文献外,还可以持续增加、更新、修改文献,从而持续出版各类新书,语义出版的策划本质上就是可持续出版项目的策划。基础资源库的文献、按需重组的内容、读者反馈的意见、更新原文献的内容、增加新的文献,以及语义出版的工作流程监控、产品质量监控,需要传统出版编辑的编校由静态工作转为动态追踪。除了常规纸本销售外,传统出版编辑要学习流量监控、打包销售、分期收款、分级授权等诸多版权输出形式。面对语义出版诸多新情况、新要求,编辑要冷静对待,站稳脚跟,虚心学习,找准切入点,才能在语义出版的浪潮中发展自己、壮大自己。
五、结语
无论是传统出版编辑还是语义出版编辑,要意识到语义出版是一场“及时雨”。目前,国家将“数字出版”提升到“复合出版”“融合出版”的高度。2015年3月24日,国家发布《国家数字复合出版系统工程应用试点单位遴选结果公告》,批准确定59家新闻出版单位为复合出版工程应用试点单位;[7]4月10日发布《关于推动传统媒体和新兴媒体融合发展的指导意见》,致力于解决体制、机制、技术、产品、市场等方面的瓶颈,让传统媒体的强大内容生产能力,在新媒体里畅通无阻;[8]10月13日发布《关于征集专业数字内容资源知识服务模式试点工作技术支持单位的通知》。[9]国际出版咨询公司吕迪格·魏申巴特(Rüdiger Wischenbart)执笔的《全球电子书业报告(2015)》显示,与纸质书市场衰退相比,近年来世界主要出版市场电子书均呈现稳中增长的态势,2014年美国成人大众电子书市场同比增长4.7%达15.82亿美元,英国电子书市场销量增加15.3%而总营收达到3.726亿英镑,德国电子书占整个图书市场的4.3%,西班牙电子书占市场份额的4%,报告估计中国电子书市场占大众图书总市场份额1%即130亿元人民币。[10]
但要同时意识到,语义出版也是一把“双刃剑”。语义出版收费使用,键盘一敲即可制作新产品,一旦被学生用作写作业、被研究者用作出版,“机器”就代替“人”来“学习、工作”,文献材料的堆砌、综述和文学创作、考古发现、调查研究、实验记录、理性思辨等的内容原创要妥善区别认定,以免伤害教育和学术的正常发展。编辑在抓机遇的同时,要分清利弊,在发展中解决问题、克服弊端。
注释:
[1] Shotton D. Semantic Publishing: the Coming Revolution in Scientific Journal Publishing. Learned Publishing, 2009,22(2):85-94.
[2] 周杰,曾建勋. 数字环境下的语义出版研究.情报理论与实践,2013,36(8).
[3] 翁彦琴,李苑,彭希珺. 英国皇家化学会(RSC)——科技期刊语义出版模式的研究.中国科技期刊研究,2013,24(5).
[4] 翁彦琴,彭希珺. 爱思唯尔(Elsevier)语义出版模式研究.中国科技期刊研究,2014,25(10).
[5] 王晓光,陈孝禹. 语义出版的概念与形式.出版发行研究,2011(11).
[6] 安徽师范大学出版社.少儿科普图书语义导航阅读平台[EB/OL]. [2015-05-06]. http://ahnupress.stup. cn/static/ahsd/index.html.
[7] 国家新闻出版广电总局.国家数字复合出版系统工程应用试点单位遴选结果公告[EB/OL].[2015-05-13]. http://www.gapp.gov.cn/news/1663/247056. shtml.
[8] 国家新闻出版广电总局.关于推动传统出版和新兴出版融合发展的指导意见[EB/OL].[2015-05-13]. http://www.gapp.gov.cn/news/1663/248321. Shtml.
[9] 国家新闻出版广电总局. 关于征集专业数字内容资源知识服务模式试点工作技术支持单位的通知[EB/ OL].[2015-05-13].http://www.gapp.gov.cn/ news/1663/266174.shtml.
[10] 梅园. 2015全球电子书报告显示:市场份额持续增加增速明显放缓[EB/OL]. [2015-05-13]. http://www.sinobook.com.cn/press/newsdetail. cfm?iCntno=21399.
(作者单位:安徽师范大学出版社有限责任公司)