admin |
|
等級:版主 |
積分:1786分 |
注冊:2004-1-8 |
發(fā)貼:521(346主題貼) |
登錄:1042 |
|
|
alexa 網(wǎng)站排名與作弊 |
alexa 作弊,無非那么幾種方式,有人說什么世界排名可以任意設(shè)置到任何一名,有人說你的世界排名高了就會怎么怎么樣,其實,做網(wǎng)站,千萬不要陷得太深,不要追求那些不著邊際的東西,互聯(lián)網(wǎng)上所有的名站,都是以內(nèi)容致勝的。但是,沒見過豬跑也不行,中推這里總結(jié)一下,大家一起研究,就是不去騙人,總不能讓人家騙了。
1、欺騙型作弊:
這種形勢,就是某些人張揚的,可以隨意提升你的世界排名到任意一位,這種欺騙的方式?jīng)]有任何的實際價值和意義,只能讓看到的人恥笑,實現(xiàn)的方式,就是編幾句代碼,讓 alexa 誤認為這是其他的網(wǎng)站,你編程設(shè)置為yahoo,你的世界排名就是1
2、代理服務(wù)器點擊型作弊:
ALexa Booster、 Ranking Booster 等軟件是這方面的代表,無非人為利用代理服務(wù)器增加點擊量 和 PV,在 alexa 經(jīng)常改變算法并防止作弊的年代,這個落后了,而且,效果不高。
3、破解 Alexa Toolbar型作弊:
這是國內(nèi)幾個高手在做的事情,他們在電腦上安裝toolbar 之后,用嗅探器嗅探toolbar發(fā)送的網(wǎng)絡(luò)數(shù)據(jù),發(fā)現(xiàn)并分析 toolbar 向 data.alexa.com 發(fā)送的數(shù)據(jù)包,數(shù)據(jù)包都是帶固定參數(shù)的,把 toolbar 脫殼并改動里面的二進制代碼,就可以做到想發(fā)什么就發(fā)什么了。破解了toolbar之后,更高的辦法是再做個軟件,利用這個toolbar。這種是中推認為比較牛的方式。
4、黑客入侵,利用肉雞型作弊:
黑掉人家,裝上 toolbar,訪問自己 帶 meta 刷新的頁面,對有大堆肉雞的人來說,他們有優(yōu)勢
5、DIY,設(shè)置自動刷新頁面,間隔刷新型:
這種方式就是在單機上裝上toolbar,訪問自己網(wǎng)站或者目標網(wǎng)站帶有自動刷新的頁面,基本上,是作弊的初級階段,至于是否有效,大家試試即可,有很多人反映說這樣會突然讓自己的世界排名數(shù)據(jù)消失掉一天,因為中推不是amazon,不知道alexa的服務(wù)器端的作弊審核算法,所以,不予以評論,總之我們不建議用。
*******************************************************
要想徹底搞清楚Alexa排名是否可信,必須從技術(shù)上對Alexa的全球網(wǎng)站流量監(jiān)測進行全面的解剖,當然,Alexa從來沒有公布自己的技術(shù)細節(jié),記者決定“以彼之道,還施彼身”,既然Alexa聲稱其數(shù)據(jù)來源就是那個工具條,記者決定首先從破解工具條入手。
受記者委托,圈內(nèi)著名的Web技術(shù)專家小林,用了近一個晚上的時間,對Alexa工具條及其向Alexa返回的數(shù)據(jù)進行了細致的分析,得出了很多寶貴的第一手資料。多年前對Alexa就做過研究的小林認為,最近的這次分析揭示了一些Alexa更隱秘的技術(shù)細節(jié)。
小林告訴記者,現(xiàn)在最新版本的Alexa工具條的運作機理與以往沒有太大的改變,每當用戶以裝有Alexa工具條的IE瀏覽器打開新頁面時,Alexa的一臺服務(wù)器(data.alexa.com)都會收到加密的數(shù)據(jù)包,這個數(shù)據(jù)包中的核心信息就是十幾個參數(shù),這些參數(shù)包括當前網(wǎng)頁地址、頁面打開時間、用戶端顯示分辨率、Alexa工具條版本號、該用戶是否為“亞馬遜”的用戶等,其中有一個重要的隱含參數(shù),經(jīng)小林分析,認為是Alexa為每個已安裝的工具條自動生成的ID號碼,這個號碼應(yīng)該是全球惟一的。Alexa可以通過這個ID對每個反饋數(shù)據(jù)包的發(fā)出者進行惟一標識,這是解決PV重復(fù)計算問題和防止同一用戶多次刷新作弊的一個重要手段。
小林告訴記者,從目前研究的結(jié)果來看,任何一個匯編高手都可以很容易地掌握Alexa工具條返回的數(shù)據(jù)包中的秘密,如果這個人同時也是一個網(wǎng)絡(luò)編程高手,那么要針對Alexa作弊就比較容易了。從記者后來對一位上海的Alexa作弊高手的采訪來看,小林的分析完全正確。該作弊者正是一位資深的Web開發(fā)工程師,其采用的手段與小林的分析也基本吻合——編寫一個Alexa工具條返回碼生成器,批量產(chǎn)生Alexa能夠辨識的代碼串,然后用虛擬多用戶的方式發(fā)回data.alexa.com,這樣就可以欺騙Alexa的服務(wù)器,讓它誤以為這些數(shù)據(jù)是不同用戶發(fā)來的(征得該作弊者本人同意,本專題在最后公開了記者與該作弊者的網(wǎng)上聊天實錄)。
小林認為,這種以編程方式模擬多用戶訪問的作弊方式的實現(xiàn),最重要的環(huán)節(jié)就在于對那個Alexa用來惟一標識用戶身份的ID號的生成算法的破解,這需要對足夠多的Alexa工具條進行嗅探,抓取其數(shù)據(jù)包進行定量的算法分析。但小林同時也指出,這些工作對于一個編程高手來說,確實不算什么,只是最終作弊的實現(xiàn)仍需要模擬一個足夠快的ID號生成程序,這可能會比較困難,不過據(jù)小林估計,國內(nèi)能做這些事情的人不在少數(shù),只是互聯(lián)網(wǎng)這個圈子里的高手們很少去做罷了。
從以上的技術(shù)分析來看,Alexa的服務(wù)器每天所做的工作就是不斷接收全球用戶傳回的數(shù)據(jù)包,提取其中的那十幾個參數(shù)并寫入專門的數(shù)據(jù)庫,然后在某個特定時間對當天收集到的這些數(shù)據(jù)進行分析計算,并以新的計算結(jié)果去更新當日的網(wǎng)站排名。據(jù)記者觀察,這個數(shù)據(jù)庫的分析結(jié)果至少會保存三年之久,因為在Alexa網(wǎng)站上對每個網(wǎng)站的Rank排名變化趨勢圖最多能提供三年來的數(shù)據(jù)變化。
在破解了工具條的DNA之后,記者還與一些朋友探討了Alexa工具條在全球的分布情況。按照Alexa的說法,工具條是它惟一的信息獲取來源,那么工具條在全球用戶中的分布也就成了另一個可以影響Alexa排名的重要因素。如果工具條真的是Alexa數(shù)據(jù)的惟一來源,可以想象,當中國網(wǎng)民都沒有安裝Alexa工具條的時候,新浪搜狐這樣的門戶網(wǎng)站恐怕在Alexa排名中都見不到影子,可是今年下半年以來,新浪和搜狐就已經(jīng)緊隨Google排在全球第四和第五的位置了,這似乎說明了Alexa工具條已經(jīng)在中國具備了較高的普及率,否則,新浪、搜狐以及緊隨其后的占領(lǐng)了Alexa全球500強中近1/3份額的中國網(wǎng)站就都有作弊的嫌疑。
幸好記者的一位朋友曹政提供了令人欣慰的數(shù)據(jù)。作為網(wǎng)站流量分析專家,曹政在www.tong123.com上為多達2000家國內(nèi)各...率在1.5%左右。
就在發(fā)稿前,曹政還給記者發(fā)來了對這一結(jié)果的補充說明,他認為,由于tong123的系統(tǒng)采用累計平均值的計算方法,Alexa工具條的實際安裝比例應(yīng)該比現(xiàn)在得到的數(shù)據(jù)更高,因為這個監(jiān)測項剛加進去不久。
由于tong123.com的監(jiān)測范圍是2000家各類網(wǎng)站,基本上排除了由于監(jiān)測對象較少可能造成的用戶選擇傾向性,其可信度比較高。即使以1.5%這個被低估的安裝率來衡量Alexa在國內(nèi)用戶中的影響,也已經(jīng)十分驚人了,若國內(nèi)互聯(lián)網(wǎng)用戶以總數(shù)9000萬計算,則其中安裝了Alexa工具條的用戶可能已超過130萬。按照Alexa聲稱的1000萬左右的工具條全球下載總量來看,中國網(wǎng)民對Alexa的熱衷似乎顯得更為突出,這或許也可以作為國內(nèi)網(wǎng)站今年在Alexa排行榜中整體排名提高的一個解釋。
既然工具條的分布會從很大程度上影響Alexa的監(jiān)測結(jié)果,那么Alexa的排行榜就可能出現(xiàn)很大的地域相關(guān)性,如果確實如此,Alexa的權(quán)威性就真值得懷疑了。事情遠沒有這么簡單,在Alexa網(wǎng)站上,記者看到全球網(wǎng)站前10萬名排行榜的報價是499美元,顯然,在大洋彼岸,還是有人認可Alexa的排名數(shù)據(jù),甚至?xí)ㄥX去買那個排行數(shù)據(jù)。
在Alexa各種公開的資料或是網(wǎng)友對它的討論中,都沒有人明確提出過Alexa除工具條以外是否還有其他能夠獲取公網(wǎng)流量的監(jiān)測手段,而長期為多個著名網(wǎng)站提供技術(shù)支持的小林,通過對這些網(wǎng)站的日志分析,認為Alexa還有很多技術(shù)隱私。由于無法得到Alexa的官方回應(yīng),我們只好說這些可能被采用的技術(shù)手段是“莫須有”的。
為了進一步探尋Alexa的隱私,我們還要先看看Web瀏覽的過程。當用戶打開IE瀏覽器,在地址欄中輸入一串網(wǎng)址并回車后,一些包含了http請求的數(shù)據(jù)包就被發(fā)送出去,與其他流量一樣,這些數(shù)據(jù)包也要經(jīng)過用戶所在內(nèi)網(wǎng)的網(wǎng)關(guān),被路由到公網(wǎng),經(jīng)過一個個電信機房,最終傳送到某個提供DNS解析的服務(wù)器上,在獲得目的網(wǎng)址的IP地址后再被放到一個可以最終路由到目的IP的路徑上傳送過去。從http請求的發(fā)送過程來看,如果Alexa對全球所有的DNS解析服務(wù)器進行嗅探,將有可能得到一份非常接近事實的全球http請求數(shù)據(jù),由此就可以非常清晰地勾勒出哪些網(wǎng)站被哪些用戶所關(guān)注。
不過,要嗅探全球的http請求,對Alexa來說幾乎是天方夜譚。退一萬步,即使Alexa能抓取到這些數(shù)據(jù),它也不可能有以這些數(shù)據(jù)為基礎(chǔ)進行計算的能力。但是,Alexa排名所顯示出的一些“抖動”跡象似乎在告訴人們,除工具條之外,Alexa確實有使用其他技術(shù)手段的嫌疑。
2004年夏天,小林發(fā)現(xiàn)中國香港的網(wǎng)站排名出現(xiàn)異常的提升,像“太陽報”這樣的小網(wǎng)站,居然能超過很多內(nèi)地大網(wǎng)站的排名。由于電信網(wǎng)關(guān)和簡繁體系統(tǒng)的原因,內(nèi)地與香港網(wǎng)民一般是不做“跨地區(qū)互訪的”,而香港網(wǎng)民安裝Alexa工具條的絕對數(shù)也不會比內(nèi)地用戶高。從前文的分析和計算來看,內(nèi)地網(wǎng)民中Alexa工具條的安裝量恐怕比全香港網(wǎng)民的數(shù)量都不低,這樣的情況下,香港網(wǎng)站在Alexa排名的普遍大幅度提升就顯得毫無道理。
經(jīng)過兩個月的高排名期后,香港網(wǎng)站的排名開始逐漸回落,但至今仍有部分網(wǎng)站的排名高出其實際應(yīng)處的名次。小林認為,這個現(xiàn)象與韓國網(wǎng)站在2003年出現(xiàn)的情況有很大相似性,而韓國的很多網(wǎng)站目前仍有偏高的排名。這種現(xiàn)象如果用Alexa工具條的普及率來解釋是不合情理的,但如果用Alexa增加了其他采樣機的說法來解釋,就很容易說得通。
據(jù)小林推斷,Alexa可能在全球不同地方設(shè)置了一些采樣機,通過與一些電信機構(gòu)進行或明或暗的合作,甚至在臨近電信網(wǎng)關(guān)的節(jié)點進行網(wǎng)絡(luò)嗅探,得到一些“彌補性”的采樣數(shù)據(jù)。而尋求這些采樣數(shù)據(jù)的目的恰恰是為了照顧Alexa所認為的“工具條低安裝率”地區(qū)的抽樣效果。打個比方,如果Alexa認為韓國互聯(lián)網(wǎng)已經(jīng)非常普及,而韓國用戶卻一直沒有安裝Alexa工具條的習(xí)慣,它就可能會設(shè)法在韓國安插一些采樣機,以彌補在韓國用工具條采樣的不足。同樣的情況,也可能導(dǎo)致香港在剛剛設(shè)置采樣機時網(wǎng)站排名的猛增。而經(jīng)過一段時間的考察,Alexa就會逐步調(diào)整在每個地區(qū)的采樣數(shù)量,以得到它所認為的最合理的結(jié)果。
甚至小林還認為,今年內(nèi)地網(wǎng)站排名的大規(guī)模提升也有采樣機在作怪,而國慶后內(nèi)地網(wǎng)站排名的普遍下降也許就是因為Alexa在經(jīng)過一年的考察后,重新調(diào)整了在中國內(nèi)地采樣比重的結(jié)果。
當然,Alexa要維護其排名的權(quán)威性和公正性,不僅要完善流量數(shù)據(jù)的采樣過程,更要在防止作弊方面做出巨大努力,那些防作弊的技術(shù)也都是Alexa的不宣之秘。那么Alexa到底是用什么辦法來防止作弊呢?事實上,對于前文中記者提到的以編程模擬Alexa工具條返回數(shù)據(jù)包的作弊方式,Alexa幾乎沒什么好辦法去防范,甚至要探測到這樣的作弊手段都比較難。
其實,對于現(xiàn)在網(wǎng)上常見的作弊手段,Alexa都已經(jīng)有了足夠的免疫力。一般來說,由于現(xiàn)在多數(shù)搜索引擎都無法處理JS腳本,所以針對搜索引擎的作弊往往都是用JS腳本編寫惡意代碼來實現(xiàn),而Alexa和Google采用的爬行程序則是目前僅有的可識別JS腳本的此類程序。
小林在對幾個大型網(wǎng)站的流量監(jiān)測中發(fā)現(xiàn),Alexa啟用了一個叫做IA_Archiver的機器人程序,這個機器人程序類似Google等搜索引擎使用的蜘蛛程序,專門在互聯(lián)網(wǎng)上爬行,刺探每個Web頁面的流量信息。尤其是當某個網(wǎng)站的流量超過Alexa設(shè)定的閾值時,IA_Archiver就會馬上爬到該網(wǎng)站的服務(wù)器上,分析此網(wǎng)站的流量是否正常,有沒有作弊行為。據(jù)小林對IA_Archiver的監(jiān)測,該機器人程序已經(jīng)可以識別大部分基于網(wǎng)站服務(wù)器端的流量作弊行為。但現(xiàn)在業(yè)內(nèi)對IA_Archiver的認知普遍不足,記者也只是在Alexa網(wǎng)站的一個幫助頁面上看到有關(guān)IA_Archiver機器人程序的簡單介紹,而國內(nèi)知道這個機器人程序的人不多,更缺乏相關(guān)的技術(shù)研究。
信任Alexa?
針對Alexa排名的可信度,不同的人有不同的看法,從事Web技術(shù)研究與應(yīng)用的業(yè)內(nèi)人士多傾向于這樣一個說法:Alexa排名不一定是絕對準確的,但卻是相對可信的。下面記者舉出的一些例子,將從不同方面對Alexa排名的可信度進行對比。
必須承認,盡管Alexa用很多技術(shù)手段提高了網(wǎng)站流量監(jiān)測數(shù)據(jù)的有效性,但由于其固有的一些技術(shù)上的瑕疵,難免使少數(shù)網(wǎng)站的排名結(jié)果出現(xiàn)一些問題,盡管這些問題在很大程度上要歸咎于網(wǎng)站域名結(jié)構(gòu)的不合理性。
比如,Alexa排名是針對URL地址的,并沒有考慮IP地址的因素,這在很大程度上降低了Alexa排名計算的難度,但是也不可避免地產(chǎn)生了偏差。一般而言,Alexa只對二級域名感興趣,而針對三級域名的流量都被納入了上一級域名的統(tǒng)計,對于比較規(guī)范的大型網(wǎng)站而言,這是完全正確的策略,但是對于一個向不同用戶分發(fā)了三級域名的網(wǎng)站來說,它的流量統(tǒng)計是否應(yīng)該將所有的子用戶的流量加起來呢?這顯然要因情況而異,一個很明顯的此類不合理統(tǒng)計的例子就是cninfo.net,相信國內(nèi)老網(wǎng)民都還記得這個域名后綴,這是全國各省市公眾信息港通用的二級域名,比如,sh.cninfo.net和gd.cninfo.net分別是上海和廣東的兩個網(wǎng)站,而Alexa則將其統(tǒng)一算做www.cninfo.net的子域。于是,www.cni... 對于Alexa排名可信度的另一種質(zhì)疑來自不同類型網(wǎng)站的流量特征的巨大差異性。比如,門戶網(wǎng)站與專業(yè)網(wǎng)站或?qū)I(yè)論壇的流量就幾乎沒有可比性,因為不同類型的用戶在不同時間不同場合訪問不同類型的網(wǎng)站時,其瀏覽習(xí)慣會有極大的差異。
即使兩個網(wǎng)站按照Alexa算法得出的綜合流量評估值完全相同,那也不能把兩個網(wǎng)站的影響力劃等號。比如,一個Reach值為1000,PV值為1的網(wǎng)站與一個Reach值為100,PV值為10的網(wǎng)站的Rank應(yīng)該是相同的,但大部分情況下,后者的內(nèi)容會比前者更有價值。因為瀏覽前一個網(wǎng)站的用戶都是只看了一個頁面就走掉了,說明該網(wǎng)站可能沒什么吸引力;而后一個網(wǎng)站的用戶平均要看十個頁面才會離開,這些用戶都很認可該網(wǎng)站的內(nèi)容。當然,更極端的情況也會出現(xiàn),比如前者只有一個頁面,但該頁面內(nèi)容非常豐富,而后者的每個頁面內(nèi)容都很少,或是給用戶設(shè)置了很多不必要的跳轉(zhuǎn),甚至后者也可能就是一個小說連載站。
這些復(fù)雜情況的存在讓人很難相信Alexa可以只用Reach和PV這兩個值就把所有互聯(lián)網(wǎng)上的站點劃分出三六九等。不過,如果我們換一個角度來看Alexa,就會發(fā)現(xiàn)它的存在也是有理由的,甚至也可能是確實值得網(wǎng)民信賴的。
如果我們只把Alexa當做一個流量分析服務(wù)工具,它的價值就凸現(xiàn)出來了。Alexa網(wǎng)站上提供了非常直觀的流量變化趨勢統(tǒng)計圖功能,這在其他很多情況下是要付費才能獲得的服務(wù),而Alexa只是將其作為免費的公眾服務(wù)。
圖1是Alexa上提供的計世網(wǎng)(ccw.com.cn)一年來的流量排名(Rank)走勢圖,從圖上可以清晰地看出,該網(wǎng)站2003年11月3日~2004年11月3日的排名從7500名左右上升到2000名以內(nèi),而其中三次非常突然的下降曲線所對應(yīng)的日期分別是春節(jié)、五一、十一這三次長假。眾所周知,計世網(wǎng)的用戶主要集中在IT行業(yè)中,這三次長假導(dǎo)致的下降曲線非常忠實地記錄下當時的網(wǎng)民瀏覽情況——因為放假,大多數(shù)用戶去旅游或在家休息,上網(wǎng)用戶大大減少,所以流量降低,網(wǎng)站的排名也隨之降低。而長假過后,IT人回到單位,頭一天上班總會想到網(wǎng)上去看看業(yè)界的最新資訊。所以長假之后,ccw.com.cn的流量反而都比放假前有不同程度的提升,反映在Rank曲線上,就是三個大的波谷之后曲線高度的恢復(fù)與持續(xù)攀升。
事實上,如果能夠詳細分析網(wǎng)站流量變化的趨勢,人們也可以分辨出那些作弊的網(wǎng)站,因為作弊網(wǎng)站流量的變化往往是非正常的,其與正常網(wǎng)站的流量變化曲線肯定有不同之處。圖2和圖3分別是265.com和dsdiy.com的半年來的流量排名趨勢變化圖,265.com是國內(nèi)著名的網(wǎng)址導(dǎo)航站,最近半年的全球排名一直穩(wěn)定在70~120名以內(nèi)。反觀dsdiy.com的Rank變化曲線就頗值得懷疑,9月的第一周,該網(wǎng)站的排名就從全球10萬名之外一躍至200名左右,其后的一個月內(nèi),該網(wǎng)站的排名一直在100~400名之間徘徊,而就在國慶長假的第一天,該網(wǎng)站的排名竟然躥升至30名左右,到了10月的第二周,該網(wǎng)站的排名又迅速回落至10萬名開外,在Rank曲線圖上再也看不到了,擁有類似排名曲線的網(wǎng)站還有sinapet.com和haohz.com等等。
作為Web訪問情況的監(jiān)測工具,Alexa在記錄了網(wǎng)站的真實訪問量的同時,也同樣記錄了那些作弊網(wǎng)站的流量變化情況。從這個意義上說,Alexa顯然也是可信的,關(guān)鍵是我們選擇的視角必須能恰到好處地發(fā)揮Alexa的作用。
無論出于什么樣的目的,人們出賣Alexa總是希望能從中得到利益,對Alexa的研究越深入,對Alexa的價值理解得越深刻,就越能從中獲益。
|
|