簡體版 繁體版 第21節:神奇的Google(4)

第21節:神奇的Google(4)


我在日本當助教 倒黴天師 強寵新妻,總裁好粗魯 渣受救攻記 星河九轉 代嫁王妃 新閃電俠漫威重生 離地獄最近的人 攜手天涯 無上真

第21節:神奇的Google(4)

“他們非常看不慣商業化的美國社會中存在的一些現象,而且他們從來都不會出於謹慎而向人們掩飾他們的不滿。”阿利森說道。

當佩奇開始做報告的時候,阿利森還是很受震動。拉里是個非常出色的教師,他可以找到某個問題的關鍵,然後以非技術性的、人人都能夠理解的方式解釋它。在阿利森看來,拉里是個頭腦清晰的人,而且很清楚自己在做什麼。

“每次當你建立一個連結的時候,”拉里對教室裡鴉雀無聲的聽眾說道,“你就建立了一個引用。但是如果你像搜尋引擎那樣開始計算網路上引用的數量,你就會遇到新的問題。網路不像科學文獻,任何人都能夠製作網頁。”

“一種看待PageRank的方式,”他解釋說,“就是把它當成一個使用者模型。假設有一個隨意的網路衝浪者,從某種意義上來說,它就是一隻猴子,每天到處地跑,點選一個又一個連結,但這種亂點行為卻不包含智力成分。你也可以說,這與人們在網路上的行為類似。”佩奇停頓了一下,聽眾們發出竊笑聲,然後他又接著講。

“從根本上講,PageRank演算法假設,如果有人用連結指向你,那麼你就可以分得一部分屬於他們的重要性。具體來說,如果一個非常重要的人指向你,這就比一個無關緊要的網站的主人指向你要有價值得多。比如,假如雅虎的主頁指向你的網頁,這就是件非常了不起的事。即使你只有一個在雅虎主頁上的連結,這就已經很好了。要讓重要的網站連結你,你要麼付很多錢給別人,要麼你的網頁本身非常不錯。而如果你在我的主頁上有一個連結,估計沒有人會把它當做一回事。”然後,佩奇解釋了他是怎麼找到產生分等級的搜尋結果的配方的。“我們大體上根據那些網頁的重要性,為他們賦值。一張網頁的等級就由指向它的所有網頁的重要性數值的總和來決定。”

搜尋引擎的另外一個重要挑戰,佩奇說,就是人們會想方設法地欺騙它來使自己的網站在搜尋結果列表中得到一個更高的評級。因此,要贏得這場網路戰爭,搜尋引擎必須要比那些惡意操縱它的網站更高明才行。

“人們會試圖誤導搜尋引擎,”佩奇說,“有多少人曾經在搜尋結果中看到色情內容和其他東西一起出現呢?看到的請舉手……OK,我們看到有不少人承認他們看到過。這個問題對於搜尋引擎來說非常嚴重。從根本上講,人們試圖透過讓他們的網頁出現在每個搜尋結果中來賺錢,他們根本不在乎你在搜尋什麼,他們根本就是什麼都不在乎。他們只想為他們的網頁爭取訪問流量,這是個非常嚴重的問題。”

在提出問題之後,佩奇解釋說,他正在尋求解決的方法。他說,問題的答案就在於充滿活力的、不斷更新的衡量網站真正重要性的方式,它使網站經營者鑽系統空子的難度加大了。而Google總是將終端使用者的利益擺在第一位,它一定會做好這項工作的。

這時,佩奇忍不住又指出了其他搜尋引擎技術的另外一個令人遺憾的缺點。“搜尋引擎的執行不盡如人意。”佩奇說,“如果你把AltaVista輸到另外一個搜尋引擎中搜索,你能看到AltaVista的主頁嗎?很可能不會。而我們很好地解決了這個問題。我們完全依靠自己的力量來解決這些問題。這的確是個非常艱鉅的任務。”

Google運作方式的核心是將複雜的任務分解成小塊,然後同時處理它們。憑藉正確的數學方程,加上多臺個人電腦,布林和佩奇可以創造出一個現代的流水線來處理資訊的收集、索引和呈現。同時,根據摩爾定律,他們將來能夠以更低的成本獲取更強大的計算機處理能力。

“我們在網路中捕獲網頁,也就是說,我們走出去下載整個網路。大概每秒鐘我們可以下載100張網頁,”佩奇說,“要想可靠地完成這個任務是非常複雜的。事實上,我們儲存了我們下載的所有資訊,因為這對於研究工作非常有價值。我們將整個網路儲存在硬碟上,擁有這些資訊對於科學研究很有用處。”

拉里 · 佩奇進一步解釋是什麼使得Google搜尋引擎比其他搜尋引擎效能更優越,在座的斯坦福的學生和教授們都聚精會神地聽著。

“當某搜尋語句的搜尋詞數量大於1時,我們會關注網頁上這些詞之間的距離。”他說。為了實現這個目的,需要由一系列方程式構成的複雜的軟體。其他的搜尋引擎使用更簡化的方式,所以追趕不上網路成長的步伐。Google擁有強大的數學方程式,下載了儘可能多的網頁,還非常複雜,這些都使得它與眾不同。

“如果你想要得到更多的資訊,你就必須捕獲更多的網頁,”佩奇說,“這是解決這個問題的簡單方式。”

拉里和謝爾蓋非常謹慎,儘量不洩露PageRank和Google的所有祕密。在這間教室裡,也許就有來自其他公司的間諜,他們不希望有人趁機偷走自己辛勤工作的成果。

此時,布林決定要活躍一下會場氣氛。他說,也許聽起來網頁捕獲和索引的技術性很強,但這些工作仍很有風險,有時甚至是危險的。謝爾蓋解釋說,在一些網站管理員的眼中,網頁捕獲爬蟲是他們不樂見的入侵者。

“在進行網頁捕獲時,”布林說,“我們遇到了很多有趣的事。聯絡上百萬家的網站,就等於聯絡上百萬名網站管理員。這就像是挨家挨戶地敲上百萬戶人家的門,然後把你的電子郵件地址留給他們。要在這個過程中倖存下來,機率有多大呢?我估計,在奧克蘭的某些地方你就會受點挫折。”

布林說,有一小撥“瘋狂”的網路管理員認為Google的網頁捕獲器干擾了自己網站的正常運營,並深受其擾。他們透過規模龐大的電郵攻擊來反擊,或者威脅要採取法律行動。“他們向我們抗議,試圖起訴我們,最後我們不得不放棄在蒙大拿的所有網站。現在,我們又放棄了新加坡的所有網站……時不時地,還會有人聯絡斯坦福大學的風險管理官員,而在那之前,你甚至不知道世界上有這樣一個人存在。不過,當然,現在我們知道了,他聯絡我們了。所以麻煩總是無休無止的。”