當前位置： 首頁 >> 資訊動態(tài) >> 網(wǎng)站建設(shè) >> 查看詳情

看起來不復(fù)雜的網(wǎng)站淘寶、騰訊為何要大量頂尖高手來開發(fā)？

來源： 湖南三好網(wǎng)絡(luò)科技有限公司 日期：2017-11-07 16:56:50 點擊：4454 屬于：網(wǎng)站建設(shè)

阿里巴巴員工 2 萬，百度技術(shù)人員超過6000，京東也有三四千攻城獅。

6362387419967629801808749

　　子柳：

　　就拿淘寶來說說，當作給新人一些科普。

　　▼先說你看到的頁面上，最重要的幾個：

　　【搜索商品】這個功能，如果你有幾千條商品，完全可以用select * from tableXX where title like %XX%這樣的操作來搞定。但是——當你有10000000000（一百億）條商品的時候，任何一個數(shù)據(jù)庫都無法存放了，請問你怎么搜索？這里需要用到分布式的數(shù)據(jù)存儲方案，關(guān)注公眾號：程序員大咖，另外這個搜索也不可能直接從數(shù)據(jù)庫里來取數(shù)據(jù)，必然要用到搜索引擎（簡單來說搜索引擎更快）。好，能搜出商品了，是否大功告成可以啵一個了呢？早著呢，誰家的商品出現(xiàn)在第一頁？這里需要用到巨復(fù)雜的排序算法。要是再根據(jù)你的購買行為做一些個性化的推薦——這夠一幫牛叉的算法工程師奮斗終生了。

　　【商品詳情】就是搜索完畢，看到你感興趣的，點擊查看商品的頁面，這個頁面有商品的屬性、詳細描述、評價、賣家信息等等，這個頁面的每天展示次數(shù)在 30 億以上，同樣的道理，如果你做一個網(wǎng)站每天有 10 個人訪問，你絲毫感覺不到服務(wù)器的壓力，但是 30 億，要解決的問題就多了去了。首先，這些請求不能直接壓到數(shù)據(jù)庫上，任何單機或分布式的數(shù)據(jù)庫，承受 30 億每天的壓力，都將崩潰到完全沒有幸福感，這種情況下要用到的技術(shù)就是大規(guī)模的分布式緩存，所有的賣家信息、評價信息、商品描述都是從緩存里面來取到的，甚至更加極致的一點“商品的瀏覽量”這個信息，每打開頁面一次都要刷新，你猜能夠從緩存里面來取嗎？淘寶做到了，整個商品的詳情都在緩存里面。

　　【商品圖片】一個商品有 5 個圖片，商品描述里面有更多圖片，你猜淘寶有多少張圖片要存儲？ 100 億以上。這么多圖片要是在你的硬盤里面，你怎么去查找其中的一張？要是你的同學(xué)想拷貝你的圖片，你需要他準備多少塊硬盤？你需要配置多少大的帶寬？你們的網(wǎng)卡是否能夠承受？你需要多長時間拷貝給他？這樣的規(guī)模，很不幸市面上已經(jīng)沒有任何商業(yè)的解決方案，最終我們必須自己來開發(fā)一套存儲系統(tǒng)，如果你聽說過google的GFS，我們跟他類似，叫TFS。順便說一下，騰訊也有這樣的一套，也叫TFS。

　　【廣告系統(tǒng)】淘寶上有很多廣告，什么，你不知道？那說明我們的廣告做的還不錯，居然很多人不認為它是廣告，賣家怎么出價去買淘寶的廣告位？廣告怎么展示？怎么查看廣告效果？這又是一套算法精奇的系統(tǒng)。

　　【BOSS系統(tǒng)】淘寶的工作人員怎么去管理這么龐大的一個系統(tǒng)，例如某時刻突然宣布某位作家的作品全部從淘寶消失，從數(shù)據(jù)庫到搜索引擎到廣告系統(tǒng)，里面的相關(guān)數(shù)據(jù)在幾分鐘內(nèi)全部消失，這又需要一個牛叉的后臺支撐系統(tǒng)。

　　【運維體系】支持這么龐大的一個網(wǎng)站，你猜需要多少臺服務(wù)器？幾千臺？那是零頭。這么多服務(wù)器，上面部署什么操作系統(tǒng)，操作系統(tǒng)的內(nèi)核能否優(yōu)化？Java虛擬機能否優(yōu)化？通信模塊有沒有榨取性能的空間？軟件怎么部署上去？出了問題怎么回滾？你裝過操作系統(tǒng)吧，優(yōu)化過吧，被 360 坑過沒，崩潰過沒？這里面又有很多門道。

　　不再多寫了，除了上面提到的這些，還有很多很多需要做的技術(shù)，當然并不是這些東西有多么高不可攀，任何復(fù)雜的龐大的東西都是從小到大做起來的，里面需要牛叉到不行的大犇，也需要充滿好奇心的菜鳥，最后這一句，你當我是別有用心好了。

　　蔡正海：

　　剛看了一篇很有意思的文章，講的很清楚——《你剛才在淘寶上買了一件東西》

　　你發(fā)現(xiàn)快要過年了，于是想給你的女朋友買一件毛衣，你打開了http://www.taobao.com。這時你的瀏覽器首先查詢DNS服務(wù)器，將http://www.taobao.com轉(zhuǎn)換成ip地址。不過首先你會發(fā)現(xiàn)，你在不同的地區(qū)或者不同的網(wǎng)絡(luò)（電信、聯(lián)通、移動）的情況下，轉(zhuǎn)換后的IP地址很可能是不一樣的，這首先涉及到負載均衡的第一步，通過DNS解析域名時將你的訪問分配到不同的入口，同時盡可能保證你所訪問的入口是所有入口中可能較快的一個 (這和后文的CDN不一樣)。

　　你通過這個入口成功的訪問了http://www.taobao.com的實際的入口IP地址。這時你產(chǎn)生了一個PV，即Page View，頁面訪問。每日每個網(wǎng)站的總PV量是形容一個網(wǎng)站規(guī)模的重要指標。淘寶網(wǎng)全網(wǎng)在平日（非促銷期間）的PV大概是16- 25 億之間。同時作為一個獨立的用戶，你這次訪問淘寶網(wǎng)的所有頁面，均算作一個UV（Unique Visitor用戶訪問）。最近臭名昭著http://12306.cn的日PV量最高峰在 10 億左右，而UV量卻遠小于淘寶網(wǎng)十余倍，這其中的原因我相信大家都會知道。

　　因為同一時刻訪問http://www.taobao.com的人數(shù)過于巨大，所以即便是生成淘寶首頁頁面的服務(wù)器，也不可能僅有一臺。僅用于生成http://www.taobao.com首頁的服務(wù)器就可能有成百上千臺，那么你的一次訪問時生成頁面給你看的任務(wù)便會被分配給其中一臺服務(wù)器完成。這個過程要保證公正、公平、平均（暨這成百上千臺服務(wù)器每臺負擔(dān)的用戶數(shù)要差不多），這一很復(fù)雜的過程是由幾個系統(tǒng)配合完成，其中最關(guān)鍵的便是LVS(Linux Virtual Server)，世界上最流行的負載均衡系統(tǒng)之一，正是由目前在淘寶網(wǎng)供職的章文嵩博士開發(fā)的。

　　經(jīng)過一系列復(fù)雜的邏輯運算和數(shù)據(jù)處理，用于這次給你看的淘寶網(wǎng)首頁的HTML內(nèi)容便生成成功了。對web前端稍微有點常識的童鞋都應(yīng)該知道，下一步瀏覽器會去加載頁面中用到的css、js、圖片、腳本和資源文件。但是可能相對較少的同學(xué)才會知道，你的瀏覽器在同一個域名下并發(fā)加載的資源數(shù)量是有限制的，例如IE6- 7 是兩個，IE 8 是 6 個，Chrome各版本不大一樣，一般是4- 6 個。我剛剛看了一下，我訪問淘寶網(wǎng)首頁需要加載 126 個資源，那么如此小的并發(fā)連接數(shù)自然會加載很久。所以前端開發(fā)人員往往會將上述這些資源文件分布在好多個域名下，變相的繞過瀏覽器的這個限制，同時也為下文的CDN工作做準備。

　　據(jù)不可靠消息，在雙十一當天高峰，淘寶的訪問流量最巔峰達到871GB/S。這個數(shù)字意味著需要 178 萬個4Mb帶寬的家庭寬帶才能負擔(dān)的起，也完全有能力拖垮一個中小城市的全部互聯(lián)網(wǎng)帶寬。那么顯然，這些訪問流量不可能集中在一起。并且大家都知道，不同地區(qū)不同網(wǎng)絡(luò)（電信、聯(lián)通等）之間互訪會非常緩慢，但是你卻發(fā)現(xiàn)很少發(fā)現(xiàn)淘寶網(wǎng)訪問緩慢。這便是CDN(Content Delivery Network)，即內(nèi)容分發(fā)網(wǎng)絡(luò)的作用。淘寶在全國各地建立了數(shù)十上百個CDN節(jié)點，利用一些手段保證你訪問的（這里主要指js、css、圖片等）地方是離你最近的CDN節(jié)點，這樣便保證了大流量分散在各地訪問的加速節(jié)點上。

　　這便出現(xiàn)了一個問題，那就是假若一個賣家發(fā)布了一個新的寶貝，上傳了幾張新的寶貝圖片，那么淘寶網(wǎng)如何保證全國各地的CDN節(jié)點中都會同步的存在這幾張圖片供用戶使用呢？這里邊就涉及到了大量的內(nèi)容分發(fā)與同步的相關(guān)技術(shù)。淘寶開發(fā)了分布式文件系統(tǒng)TFS(Taobao File System)來處理這類問題。

　　好了，這時你終于加載完了淘寶首頁，那么你習(xí)慣性的在首頁搜索框中輸入了'毛衣'二字并敲回車，這時你又產(chǎn)生了一個PV，然后，淘寶網(wǎng)的主搜索系統(tǒng)便開始為你服務(wù)了。它首先對你輸入的內(nèi)容基于一個分詞庫進行分詞操作。眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞，但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。我是一個學(xué)生，分詞的結(jié)果是：我是一個學(xué)生。

　　進行分詞之后，還需要根據(jù)你輸入的搜索詞進行你的購物意圖分析。用戶進行搜索時常常有如下幾類意圖：

　?。?）瀏覽型：沒有明確的購物對象和意圖，邊看邊買，用戶比較隨意和感性。Query例如：” 2016 年 10 大香水排行”，” 2016 年流行毛衣”， “zippo有多少種類？”；

　　（2）查詢型：有一定的購物意圖，體現(xiàn)在對屬性的要求上。Query例如：”適合老人用的手機”，” 500 元手表”；

　　（3）對比型：已經(jīng)縮小了購物意圖，具體到了某幾個產(chǎn)品。Query例如：”諾基亞E71 E63″，”akg k450 px200″；

　　（4）確定型：已經(jīng)做了基本決定，重點考察某個對象。Query例如：”諾基亞N97″，”IBM T60″。通過對你的購物意圖的分析，主搜索會呈現(xiàn)出完全不同的結(jié)果來。

　　之后的數(shù)個步驟后，主搜索系統(tǒng)便根據(jù)上述以及更多復(fù)雜的條件列出了搜索結(jié)果，這一切是由一千多臺搜索服務(wù)器完成。然后你開始逐一點擊瀏覽搜索出的寶貝。你開始查看寶貝詳情頁面。經(jīng)常網(wǎng)購的親們會發(fā)現(xiàn)，當你買過了一個寶貝之后，即便是商家多次修改了寶貝詳情頁，你仍然能夠通過‘已買到的寶貝’查看當時的快照。這是為了防止商家對在商品詳情中承諾過的東西賴賬不認。那么顯然，對于每年數(shù)十上百億比交易的商品詳情快照進行保存和快速調(diào)用不是一個簡單的事情。這其中又涉及到數(shù)套系統(tǒng)的共同協(xié)作，其中較為重要的是Tair，淘寶自行研發(fā)的分布式KV存儲方案。

　　然后無論你是否真正進行了交易，你的這些訪問行為便忠實的被系統(tǒng)記錄下來，用于后續(xù)的業(yè)務(wù)邏輯和數(shù)據(jù)分析。這些記錄中訪問日志記錄便是最重要的記錄之一，但是前邊我們得知，這些訪問是分布在各個地區(qū)很多不同的服務(wù)器上的，并且由于用戶眾多，這些日志記錄都非常龐大，達到TB級別非常正常。那么為了快速及時傳輸同步這些日志數(shù)據(jù)，淘寶研發(fā)了TimeTunnel，用于進行實時的數(shù)據(jù)傳輸，交給后端系統(tǒng)進行計算報表等操作。

　　你的瀏覽數(shù)據(jù)、交易數(shù)據(jù)以及其它很多很多的數(shù)據(jù)記錄均會被保留下來。

　　使得淘寶存儲的歷史數(shù)據(jù)輕而易舉的便達到了十數(shù)甚至更多個PB(1PB=1024TB=1048576GB)。如此巨大的數(shù)據(jù)量經(jīng)過淘寶系統(tǒng)1: 120 的極限壓縮存儲在淘寶的數(shù)據(jù)倉庫中。并且通過一個叫做云梯的，由 2000 多臺服務(wù)器組成的超大規(guī)模數(shù)據(jù)系統(tǒng)不斷的進行分析和挖掘。

　　從這些數(shù)據(jù)中淘寶能夠知道小到你是誰，你喜歡什么，你的孩子幾歲了，你是否在談戀愛，喜歡玩魔獸世界的人喜歡什么樣的飲料等，大到各行各業(yè)的零售情況、各類商品的興衰消亡等等海量的信息。

　　說了這么多，其實也只是敘述了淘寶上正在運行的成千上萬個系統(tǒng)中的寥寥幾個。即便是你僅僅訪問一次淘寶的首頁，所涉及到的技術(shù)和系統(tǒng)規(guī)模都是你完全無法想象的，是淘寶 2000 多名頂級的工程師們的心血結(jié)晶，其中甚至包括長江學(xué)者、國家科學(xué)技術(shù)最高獎得主等眾多大牛。同樣，百度、騰訊等的業(yè)務(wù)系統(tǒng)也絕不比淘寶簡單。你需要知道的是，你每天使用的互聯(lián)網(wǎng)產(chǎn)品，看似簡單易用，背后卻凝聚著難以想象的智慧與勞動。

標簽：阿里、淘寶、拼多多代運營抖音代運營及培訓(xùn) SEO 長沙網(wǎng)站建設(shè) 長沙網(wǎng)站制作長沙手機網(wǎng)站模板長沙微信開發(fā) 長沙網(wǎng)站模板長沙小程序開發(fā)

本文來源：三好網(wǎng)絡(luò)，轉(zhuǎn)載請注明出處！如果需要阿里、淘寶、拼多多代運營、抖音代運營及培訓(xùn)、SEO、長沙網(wǎng)站制作、長沙網(wǎng)站模板、長沙手機網(wǎng)站模板、長沙微信開發(fā)、長沙小程序開發(fā)，請聯(lián)系：

劉經(jīng)理龔經(jīng)理
聯(lián)系方式：手機：13787053962 座機：0731-85537802 QQ：395939909 聯(lián)系方式：手機：14789924025 座機：0731-85537801 QQ：196983821

或掃一掃下面二維碼我們將提供上門服務(wù)！