Google曾經(jīng)承認(rèn):她并不會總是懂你。如果在搜索欄中輸入“the 10 deepestlakes in the U.S”(美國深的10個湖)時(shí),她將優(yōu)先向你展示基于這些單詞或者詞組權(quán)重最高的句子和網(wǎng)站,Google的同事和其高級副總裁Amit Singhal說Google不明白那是一個問題。我們能做的只有交叉雙手然后祈禱有個家伙曾經(jīng)在網(wǎng)上寫過一些關(guān)于這個問題的文章或者話題。
但是Goolge的未來搜索技術(shù)將完全是另外一番面貌。在一次開放的座談會上,Singhal,一個在搜索領(lǐng)域工作了20年之久的人,曾經(jīng)大概描繪過將來的搜索將不僅僅是文字檢索,而是要理解每一個字節(jié)的意思和他們之間的關(guān)系。這也就是說,Goolge的未來搜索引擎將不僅僅理解你的關(guān)于湖的問題,而且明白湖是什么意思(有水的地方),甚至?xí)嬖V你每個湖的更多細(xì)節(jié),例如深度,表面積,溫度或者是鹽濃度。
要想理解Google的未來會是什么樣,必須先懂得她過去是什么樣。
Singhal說搜索以前是基于語義,然后進(jìn)行關(guān)鍵詞索引,這種情況一直到20世紀(jì)中葉的后期也沒多大改變;ヂ(lián)網(wǎng)的出現(xiàn)才使她發(fā)生一些改變。突然,搜索有了一個新的朋友:鏈接。Amit說Google是第一個把鏈接看作“推薦代理”的。在早些年,Google的搜索結(jié)果是基于鏈接的數(shù)量和這些鏈接的權(quán)重的。現(xiàn)在,Google增加了內(nèi)容和關(guān)鍵詞的比重,或者是一個準(zhǔn)確的問答也是能增加權(quán)重的。
最終,Google將從單純的檢索關(guān)鍵詞變成解釋關(guān)鍵詞。Google能夠意識到單詞“New”和“York”出現(xiàn)在一起的時(shí)候,會突然改變他們單獨(dú)的意思。Google發(fā)展統(tǒng)計(jì)部門把這種詞組看成是一個新單詞。然而,Google現(xiàn)在還不能理解New York是一個有地域有人口的城市。
詞序和詞義是現(xiàn)在Google能夠識別的,但是這對于剛剛被選為國家工程院士的Singhal和Google都是不夠的。
大的改變
--------------------------------------------------------------------------------
Google想要把文章里面的句子變成單個字節(jié)來理解它們的意思甚至是引申含義,這正是我們的大腦經(jīng)常做的。但是對于計(jì)算機(jī)來說,這還屬于人工智能的范疇。
Singhal說Google將要建立一個巨大的內(nèi)部知識庫,來儲存世界上每一個字節(jié)和詞組,然后理解你搜索這些字節(jié)的目的。這是一個相當(dāng)有挑戰(zhàn)性的任務(wù),但是這項(xiàng)工作已經(jīng)開始做了。
Google在2010年收購了Freebase,它是一個社區(qū)共同創(chuàng)建知識的網(wǎng)站,包含了12000000個權(quán)威的詞條。一千兩百萬是一個好的開始,但是Singhal說Google已經(jīng)投巨資建立一個更龐大的知識庫,包含了相關(guān)的字節(jié)和他們的引申含義。
基于單詞的檢索變成這種基于知識圖表的檢索是一個根本性的轉(zhuǎn)變,這將急速增大搜索結(jié)果的威力,當(dāng)然也增加算法的復(fù)雜程度。Singhal解釋說單詞的檢索從本質(zhì)上來講就同你在印刷書的后面找到的檢索一樣,而基于知識圖標(biāo)的檢索要比單詞檢索龐大的多而且將不斷更新和改進(jìn)。
Singhal告訴我現(xiàn)在Google正在建設(shè)基礎(chǔ)設(shè)施和購置更多地計(jì)算機(jī)以應(yīng)對將來更為復(fù)雜的搜索。這些計(jì)算機(jī)幫助這個搜索巨人建立知識庫,它包含了多達(dá)2億條字符,對于這個你只能表示很無語。
起初,大部分只是知道一點(diǎn)點(diǎn)。雖然這種人工智能已經(jīng)開始在Google的搜索結(jié)果中開始顯示,但是大部分人沒有注意到過它。
知識庫
--------------------------------------------------------------------------------
在Google搜索框中輸入“莫奈”,在以往的標(biāo)準(zhǔn)結(jié)果下面你會發(fā)現(xiàn)一小塊新區(qū)域:“克勞德·莫奈的藝術(shù)作品”。這里有他的五個或者是六個代表作的縮略圖。Singhal說這表示Goolge已經(jīng)開始懂得莫奈是一個畫家而且對一個畫家而言最重要的是他的繪畫作品。
當(dāng)我說道這個新的搜索結(jié)果并沒有使整個搜索變得面目全非也沒有被置于普通搜索結(jié)果之前時(shí),Singhal謹(jǐn)慎的說判斷這種搜索結(jié)果的權(quán)重就像判斷一個畫家一兩歲時(shí)的作品一樣難。
這也可以被看作是Google對她的主要競爭對手——微軟的必應(yīng)——的反擊。這個軟件巨人有一套嚴(yán)苛的商業(yè)法則,他們批評某搜索公司顯示的結(jié)果缺乏內(nèi)容相關(guān)性,大部分人都知道這個批評是針對Google的,而Google現(xiàn)在正努力提高的她的搜索結(jié)果的質(zhì)量。
當(dāng)我問Singhal他是否曾經(jīng)考慮過必應(yīng)的批評,或者意識到必應(yīng)一直宣稱他們的搜索結(jié)果與有用的答案關(guān)聯(lián)度更高而不是鏈接。他拒絕回答,說他不會對必應(yīng)也許做了或者也許沒做的事情做出評論。
值得注意的是數(shù)以百萬的人認(rèn)為他們通過蘋果的iphone 4S和Siri接觸到了人工智能,它通過手機(jī)和互聯(lián)網(wǎng)能夠回答人的語音問題。不管Google的知識圖標(biāo)能做什么,她都必須超越Siri才行。
集中精力瞄準(zhǔn)未來搜索也許對于Singhal來說有點(diǎn)難,他說我們也在制造大型強(qiáng)子對撞機(jī),我現(xiàn)在不能預(yù)測他將來會產(chǎn)生什么樣的粒子。
Singhal在另一方面也承認(rèn)建立星級迷航式的計(jì)算機(jī)是他的夢想。在上世紀(jì)六十年代科幻電視播出的《星際迷航》中的電腦就像Siri,你可以問它任何問題然后獲得一個正確的答案。他說建設(shè)這個龐大的知識庫和基礎(chǔ)設(shè)施能夠幫助他們更好的處理搜索問題,這也將是他們建立星際迷航式計(jì)算機(jī)的重要一步。
超越搜索
--------------------------------------------------------------------------------
說到星際迷航,Singhal說有另外一個科技前沿將受益于Google的知識庫:機(jī)器人學(xué)。他說現(xiàn)在還沒有任何專家注意到機(jī)器人學(xué)雖然處于機(jī)械工程和計(jì)算科學(xué)的交叉路口,但是即將引來語言功能的巨大轉(zhuǎn)變。他說我相信我們正處于機(jī)器人學(xué)習(xí)語言合作的時(shí)期,而這在將來會變成人機(jī)交互合作。
作為一個機(jī)器人的狂熱愛好者,對我來說這是一個令人興奮的想法。我開始描繪一幅雖然Singhal并不認(rèn)同的畫面:未來的機(jī)器人將會配置Google的這種基于字符的搜索功能,他們甚至能夠理解他們照顧的小寶寶(什么?你不準(zhǔn)備把小寶寶留給機(jī)器人照看?)很小,很脆弱而且總會感到饑餓。機(jī)器人能夠知道什么時(shí)候喂小寶寶,因?yàn)樵谒麄兊睦斫庵小靶殞殹焙汀翱偸丘囸I”是聯(lián)系在一起的,而且它們將組成一個知識庫中的一個字符,這個字符還有一些屬性,例如“不包含固體食物”。
在我們的談話中,我意識到2億個字符雖然很多,但是全世界的知識卻更為廣博。究竟Google的知識庫要存儲多少字符才能回答所有問題呢?Singhal沒有給出具體數(shù)字,而是笑著用另外一種方式回答了這個問題:
人類思想的美在于它能夠制造出我們認(rèn)為不存在的東西,而我認(rèn)為這個問題最好的答案是人類將不斷創(chuàng)造新的知識,我們建立的知識庫也能幫助人類創(chuàng)造新的知識。創(chuàng)造是一個數(shù)量無限的循環(huán)。
本信息由重慶網(wǎng)站建設(shè)公司提供。http://www.xinkangbao.net/index.asp |