靜網PWA視頻評論

谷歌是怎樣掃描2500萬本書的?出錯圖片揭開了谷

2023年09月10日

- txt下載

本文由《萬物》雜誌官方微信 「把科學帶回家」 提供
撰文 七君
我們想要搜索某個網站、某條新聞,在搜尋引擎里輸入幾個關鍵字就可以了,很方便。一些軟體甚至可以通過拍照識別題目,然後給出解答。但是,在網上搜索某本書里的內容卻很難,除非這本書已經被轉成了電子版。
如果能把市面上的書都變成電子版,那麼幾千年前古人的思想也能上線,TA的言論和當代明星的發言一樣可以通過網絡被搜索到。古往今來的思想家一下子就在網絡上「重生」,魯迅曰沒曰過什麼搜一下都能知道,這是一件利在千秋的好事呀。
谷歌創始人也有這個心愿,聯合創始人之一的謝爾蓋·布林曾說:「人類幾千年的知識,或許是最高質量的知識都在書本里。」
2002年,谷歌啟動了雄心勃勃的書籍數字化項目 Project Ocean,想要創立一個全球最大的數字圖書館。谷歌的設想是,只需要一台能聯網的電腦,你就可以搜索和閱讀數千萬本書籍,就和瀏覽網頁一樣方便。
2004年,谷歌開始正式掃描。密西根大學、哈佛大學、史丹福大學、牛津大學和紐約公共圖書館紛紛加入了進來。
2010年,谷歌宣布要掃盡全世界的1.2億本書。根據2015年10月28日《紐約時報》的報道,谷歌已經掃描了超過2500萬冊書籍了。
為了掃描這些書,谷歌年支出4億美金,設立了專門的掃描中心。在這些掃描中心裡,設置著專門的掃描架子,上面配有上千美元的光學鏡頭,還有用來探測書頁曲率的光學雷達LIDAR。
谷歌的7508978專利里採用的掃描技術。
為什麼不用傳統的掃描儀呢?
因為一些書比較老舊,也比較厚,不能暴力壓在掃描儀上掃,更不能拆開,只能自然攤開。因為這個原因,掃描完的書頁其實是彎曲的,為了自動把頁面捋直,谷歌還自主研發了一套技術,並申請了專利7508978。
這個技術屬於光學字符識別(Optical Character Recognition),可以理解為一種後期技術。谷歌的這個專利可以把彎折的書頁自動鋪平,並把圖片里的文字轉化為字符,讓我們能夠用關鍵詞搜索到。隨著這個項目技術的進步,一開始一本300頁的書要40分鐘掃完,現在已經可以做到一小時掃6千頁了。
看起來谷歌的掃書技術非常高大上,是嗎?
其實,谷歌掃書設備並不是完全的自動化,有一個步驟還是需要手動,那就是翻書。人類操作員翻一頁書,踩一下踏板,掃描設備就掃一次。
本來這件事兒是谷歌的商業機密,但是後來被一位叫做 Andrew Norman Wilson 的藝術家曝光了。
Wilson 說,他曾在2007年在谷歌加州的 Mountain View 園區工作過,那些負責書本掃描的員工的工牌顏色和正牌員工不一樣,也不能享受他們的福利,比如騎谷歌自行車,免費員工餐,還有公司的班車。後來,他還專門把谷歌圖書里出現的戴著套子的手指書頁截圖收藏了起來,大家來看看——
當然,谷歌也不是沒試過全自動掃描。從公開的專利記錄來看,谷歌的一個叫做 Dany Qumsiyeh 的工程師就曾設計了一款價格很並夕夕的全自動掃描儀。
這個小哥造的自動掃描儀原型機只需要1500美金的材料費。使用的字符數字轉化軟體也都是開源的,意思就是不要錢。
它工作起來是這樣的——
書被架在一個三角形的金屬架上面來回運動。在經過這條縫的地方,下方傳感器會掃描頁面——
在書經過這個開口的地方,就會翻頁。
這個翻頁的技術看起來也很簡單,就是用吸塵器一樣的裝置把一頁紙吸住,然後讓它自動滑到三角架的另一邊去。
小哥用了50來本不同類型的書做了測試,其中60%的書都能用這款掃描儀掃。整體來看300頁的書只要半小時就能掃好。
不過可惜的是,這款原型機在掃描時,45%的書出現了折頁或撕破的情況。
雖然小哥的全自動掃描儀在2011年被谷歌申請了專利(US8711448B1),不過谷歌允許任何人無償使用這種設計,看來是不太看好它的前景了。
谷歌允許無償使用這種全自動掃描儀設計。圖片來源:archive/p/linear-book-scanner/
難道說都2020年了,世界上還沒有真正的全自動掃描儀嗎?
有是有,但是賊貴,而且出錯率未知。世界上第一台全自動掃描儀是瑞士4DigitalBooks 公司製造的DL scanner,史丹福大學在2001年入手了一台。
4DigitalBooks 公司製造的全自動掃描儀
Kirtas 公司也有全自動掃描儀,是靠一個類似人手的機械臂上的真空吸口翻頁的。
但是,Kirtas 家的掃描儀可不便宜,價格最低的型號也要9千美金一台,家用是不太可能了。約翰霍普金斯大學在2008年購入了 Kirtas 家出的一台APT 2400。上海商學院的古籍部也曾入手一台用於無接觸掃描古籍。
另外一家比較大的自動掃描儀公司出品的 Treventus ScanRobot 也是一頁一頁吸紙,邊吸邊掃描。這個機器剛上市的時候價格達到了10萬美金。
2012年,東京大學的 Ishikawa Oku 實驗室也研發了一款更為華麗的全自動掃描儀 BFS-Auto。
它每分鐘最多只能掃300頁,尚未達到量子波動速讀的水平

但是,它卻可以實時追蹤頁面的3D形態,頁面色彩和曲度可以自動數碼矯正。
東京大學的這款全自動掃描儀翻書不是靠吸,是靠吹,機器吹,不是嘴巴吹。
根據該實驗室的測量,這個翻書儀的成功率達到了100%。希望這種自動掃描儀能早日平民化,這樣學生黨就不需要扛著一手提箱的書上學了,複習查資料也會更方便。
當然,以上都是技術層面的探討,數字化書內頁還有很大的法律風險。
因為動靜太大,2011年谷歌陷入了和出版商以及作者的官司,原告們不希望谷歌將自己的作品無償地公開化,供人免費搜索和瀏覽。
雖然2013年谷歌贏了官司,但看起來這個圖書項目陷入了死胡同,總之現在我們不清楚谷歌是否還在繼續掃書,新掃的書是否能被大家看到。其他財力和技術沒這麼雄厚的搜尋引擎就更不用提了。
諸子百家的肉身雖然已經上了天,他們的思想什麼時候才能全體上「雲」端呢?
- 請介紹一下你在谷歌的工作。
- 我就說3點:一,我做的是谷歌工程師也無法解決的事;二,和程式設計師一樣,我用的是人類區別於其他動物的最重要的解剖結構;三,我的工作是保密的,谷歌不希望別人知道。

收藏

相關推薦

清純唯美圖片大全

字典網 - 試題庫 - 元問答 - 简体 - 頂部

Copyright © cnj8 All Rights Reserved.