谷歌的图书扫描计划为何失败 图书扫描

图书扫描(为什么谷歌的图书扫描计划失败了)
你离阅读到目前为止出版的所有书籍的电子版只有一步之遥 。如果你想读还没有出版的书,你可能还是要付一些钱,但所有其他已经出版的书可能在每个地方图书馆的阅读终端都是免费的 。这个电子书图书馆的藏书将比国会图书馆、哈佛大学、密歇根大学以及欧洲任何一个国家图书馆的藏书都要大 。
国会图书馆
在每个图书馆即将拥有的阅读终端上,你可以搜索成千上万的书籍,阅读你能找到的每一页书 。您可以突出显示段落,发表评论并分享它们 。人们第一次可以在所有印刷书籍中自由定位一个想法,然后直接将链接发送给其他人 。很快 , 书籍就可以像网页一样在一眨眼的时间里被获取、搜索、复制和粘贴 。
这曾经是一个要实现的夙愿 。牛津大学博德利图书馆馆长理查德·奥文登(Richard Ovenden)说 , “几千年来,人们一直梦想着一个世界级的图书馆 。文艺复兴时期 , 有人想象我们可以把世界上所有印刷的知识都储存在一个房间或者一个机构里 。”2011年春天,我们已经把世界上所有的书都储存在一个可以放在桌面上的小终端里了 。
2003年,美国国会图书馆的图书管理员(左)和2013年美国罗利市北卡罗来纳州立大学发明的自助图书检索系统 。
当时,一位密切关注此事的人士写道:“这是一个里程碑式的事件,可以促进教育、研究和人们智力生活的创新 。”
然而,当年3月22日,美国纽约南区地方法院根据《联邦民事诉讼规则》第23(e)(2)条,否定了这一将本世纪出版的所有图书向世界开放,并在所有图书馆安装图书阅读终端的计划 。
当亚历山大图书馆遭遇火灾时,人们说这是“全世界的灾难” 。而那一年,当我们这个时代最重要的人文计划被法院否决的时候,帮助阻止这个计划的学者、档案工作者、图书馆员们都松了一口气 , 因为他们觉得自己刚刚阻止了一场灾难 。
谷歌扫描全球所有书籍的秘密计划始于2002年 。该项目的名称是海洋工程 。那时,拉里·佩奇和玛丽莎·梅耶尔正坐在办公室里,手里拿着一本300页的书和一个节拍器 。佩吉想知道扫描一亿本书需要多长时间,所以他从手头的这本书开始 。他和梅尔用计时器保证速度,然后花40分钟一页一页翻书 。
佩吉一直想将书籍数字化 。早在1996年,当谷歌还只是一个学生项目 , 主要用于通过爬虫分析文件 , 并根据用户的请求对其相关性进行排名时,谷歌背后的想法是“开发技术,建立全球统一的数字图书馆 。”当时的想法是,在未来所有书籍都电子化的时候,人们将能够勾勒出每本书的引用网络,看到哪本书被引用的频率最高,然后利用这些数据为图书馆用户提供更好的搜索结果 。但纸依然是大部分书籍的载体 。佩吉和他的研究伙伴谢尔盖·布林(Sergey Brin)正在对万维网中的网页进行实验 , 并继续丰富他们通过引用来判断受欢迎程度的想法 。
到了2002年 , 佩姬觉得是时候重新关注书籍了 。当他脑子里有了“40分钟”的大致概念后,他又回到了自己的母校,也就是图书扫描世界领先的密歇根大学,看看大众数字化技术发展到了什么程度 。密歇根大学告诉佩吉,在那个时候,将密歇根大学的700万册图书数字化大约需要1000年的时间 。如果是现在的佩吉,她可能会稍微犹豫一下,但佩吉随后回答说 , 谷歌只需要6年左右的时间 。
密歇根大学图书馆
他向密歇根大学图书馆建议,图书馆将所有书籍借给谷歌,谷歌将为对方完成所有扫描 。最后,你可以获得你所有收藏的电子版,谷歌将获得海量的未曾被追捧的数据资源 。布林这样描述谷歌对图书馆收藏的渴望 。“人类的知识有几千年的历史,书籍可能承载着最优质的部分 。”想象一下,如果所有被困在页面中的知识都可以进入搜索引擎?
早在2004年 , 谷歌就开始扫描 。之后,谷歌与密歇根大学、哈佛大学、斯坦福大学、牛津大学、纽约公共图书馆等多家图书馆系统签约,以比佩吉预测的还要快十几年的速度扫描了约2500万册图书 。图书扫描花费了谷歌大约4亿美元 。这项工作不仅要靠技术,还要有强大的后勤保障 。
从周一到周五,装满书籍的半挂卡车会停在谷歌扫描中心的门口 。负责扫描斯坦福图书馆馆藏的中心是一栋改建的办公楼,位于谷歌山景城园区 。书籍从卡车上卸下后,会被放入图书馆常见的手推车中,然后推给人类操作员 。扫描中心大概有几十台扫描仪,整齐的排成一排,间隔大约2米 。操作员坐在明亮的扫描仪前工作 。

推荐阅读