谷歌的图书扫描计划为何失败 图书扫描( 二 )


这些扫描仪是谷歌定制的 。与其说他们在扫描 , 不如说他们在给书拍照 。每台仪器可以在一小时内数字化约1000页的书籍 。要扫描的书会放在专门设计的自动支架上,可以适应不同的书脊,固定书 。仪器上方有一排灯,还有价值至少1000美元的光学设备 , 包括四个摄像头,其中两个分别照亮打开的书的左半部分和右半部分,还有一个负责确定扫描范围的光学雷达 。它会在书的表面生成一个激光网格,从而捕捉到纸张的曲率 。操作员负责手动翻页,因为没有机器能比得上人手的速度和温柔 。然后脚踏板触发相机拍照,一系列动作仿佛在弹奏一架陌生的钢琴 。
这个扫描系统非常高效的原因是软件完成了大部分工作 。在传统的书籍扫描系统中,在拍摄每张照片之前确保每一页都是直立和展开的,这是减慢扫描进度的主要原因 。然而,在谷歌的扫描系统中 , 每一页弯曲的书籍照片都会经过一种“除皱算法”的处理,该算法利用光学雷达的数据,最终使书中的每一行文字恢复到看起来水平和垂直的正常高度 。
在项目高峰期 , 大约雇用了50名全职工程师 。他们负责研发能把图像转换成文字的光学识别软件,编写去皱纹、色彩校正、对比度调整的算法,更好地处理图像 。他们还开发了算法,用于识别书中的插图和图表 , 提取页码,将脚注转换为引文,甚至根据布林和佩吉早期研究的思路 , 根据相关性对书籍进行排序 。丹·克兰西(Dan Clancy)是该项目最鼎盛时期的工程总监,他说,“书与书之间没有网络 。一个很大的研究挑战是理解书籍之间的关系 。”
当时,谷歌的其他部门痴迷于使各种应用程序更加社交化,如2011年发布的Google Plus , 而负责图书项目的人则认为图书扫描是与谷歌的搜索服务一样过时和传统的东西 。他们都呼应了谷歌的使命:“让世界信息有序,并跨越国界流通和运作 。”
图书扫描项目是谷歌有史以来第一个名为“moonshot”的项目 。在谷歌开发无人驾驶汽车、通过高空气球向非洲输送互联网的“Project Loon”之前,这个数字图书计划被外界认为是白日梦 。甚至一些谷歌员工也认为这个项目是在浪费时间和金钱 。克兰西告诉我,“当时我们在做这个谷歌图书搜索项目的时候,谷歌肯定有很多人在想,‘为什么我们要在这个项目上投入这么多钱?’一旦谷歌开始稍微小心一点,人们就会质疑,‘等等,你每年有4000万美元可以花,然后你居然花5000万美元在图书扫描上?那么这个项目总共将花费我们3亿到4亿美元?“你在想什么 , ”然而,拉里和谢尔盖一直忠实地支持这个项目 。"
2010年8月,谷歌在其博客上发布消息称,世界上有129 , 864,880本书,谷歌希望将它们全部扫描 。
【谷歌的图书扫描计划为何失败 图书扫描】当然,事情并不完全像他们说的那样 。这个探月项目比原计划少扫描了1亿本书 。该计划失败的整个过程很复杂 , 但起因很简单:谷歌的所作所为被认为是错误的,没有人愿意原谅它 。在得知谷歌从图书馆拿走了数百万本书,在本地逐一扫描,然后像什么都没发生一样归还后,各行各业的作家和出版商开始起诉谷歌,就像他们在最初的抗议中写的那样,指责谷歌“大规模侵犯知识产权” 。
可自动翻页的书籍扫描仪
谷歌图书扫描的初衷并不是要建立一个数字图书馆,让每个人都能完整地阅读电子书 。这个想法是后来才有的 。起初,他们的目标只是让用户能够搜索书籍 。对于那些有版权的书籍,谷歌只能显示书籍的片段,在搜索结果中只能显示你搜索的物品前后的几句话 。因此 , 谷歌将他们的图书搜索服务比作卡片型索引目录 。
谷歌以为建立卡片式索引目录属于“合理使用”的范畴,就像著作权法允许学者引用他人作品一样 。谷歌的律师大卫·德拉蒙德说,“合理使用和不合理使用的区别在于原文是否有改动 。是的 , 我们在书的数字化过程中做了拷贝,但显然,让用户在书中找到某个术语,并不等同于让用户阅读这本书 。这就是为什么谷歌图书提供的服务不同于图书本身 。”
杜蒙德肯定是对的,因为根据法律规定,故意侵犯配套产权的赔偿金额是每本15万美元 。如果谷歌真的侵犯了几千万本书的知识产权 , 需要赔偿的金额将是数万亿 。加州大学伯克利分校(University of California,Berkeley)的法学教授帕梅拉·萨梅尔森(Pamela Sameulson)在2011年写道:“谷歌确实有理由担心 , 他们正在孤注一掷,认为他们的行为是对知识产权的‘合理使用’ 。”版权所有者进行了反击 。

推荐阅读