2014年3月11日 星期二

2014西湖品學大數據峰會 - 重點摘錄

2014年3月7日,阿里巴巴對外開放的數據峰會「2014西湖品學大數據峰會」在杭州召開。會上,阿里巴巴方面披露了目前該公司的數據儲存情況。

目前在阿里數據平台事業部的服務器上,攢下了超過100PB已處理過的數據,等於104,857,600個GB,相當於4萬個西雅圖中央圖書館,580億本藏書。僅淘寶和天貓兩個子公司每日新增的數據量,就足以讓一個人連續不斷看上28年的電影。而如果將你代入成服務器,你處理的數據量則相當於每秒鐘看上837集的《來自星星的你》。

目前全球僅有兩三家公司計算技術達到單集群規模5,000台服務器,阿里位列一席。隨著數據量的繼續增大,即使單集群到10,000台,也依然會觸碰到天花板。而阿里做到的是跨機房運算。這也意味著,服務器突破了機房的空間限制,可以無限延展。這一技術也讓佔據另一席位的facebook前來求教經驗。

會上阿里巴巴集團商業智能部副總裁、數據委員會會長車品覺作了名為《大數據這三年》的主題演講。他認為,2011年的時候,大數據概念興起。2012年,商業開始嘗試如何運營大數據。而如今,大數據進入了DATA時代,也就是所謂的數據工程化時代。 在數據工程化時代,首先要學會運營大數據,其次是大數據需要開放出來,運用到行業乃至整個社會,這樣形成一個正循環,數據產生數據,循環反覆,充分運營後,價值就會被不斷地挖掘出來,讓整個社會受益。

所以,大數據已經從4個V的年代,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)延伸至三個維度,可實時性、可解釋性、數據準確性穩定性。這三個維度是現在到底數據能不能用上的很重要的三個維度。

他認為大數據目前最大的障礙是,做業務的人不知道數據怎麼用,做數據的人不知道別人怎麼用。以控制為出發點的IT時代正在走向激活生產力為目的的DT(data technology)數據時代。這不僅僅是技術的升級,更是思想意識的巨大變革。

因此,之前想使用數據卻無力購買服務器和增添技術人員的中小企業,可以獲得數據存儲、數據處理服務,也可以構建他們自己的數據應用;在這裡,線上線下所有數據都能串聯起來;在這裡,所有人都是數據的提供方,也是數據的使用者;在這裡,數據變成一種普及,就像語言一樣,成為人人可用的東西,每個人都能享受數據成果。數據者的思維,將不再被應該怎麼拿數據,應該怎麼用數據所束縛;而普通人,也不會再被「今天吃什麼」這樣的問題所糾結。一切,都是數據化的。

在分享中,他還闡述了自己的數據十誡:

1.好的問題,答案就在裡面。
2.在實踐中提煉數據
3.讓數據變成Technology,Enable更多人
4.讓數據跟著「人」走
5.木有數據質量,神馬數據都是浮雲
6.以假設數據都能獲取去思考問題
7.大數據安全,不是監管
8.利用數據拿到更有用的數據
9.建立數據的數據,才有進步
10.讓人做人擅長做的事,讓機器做機器擅長做的事.

阿里小微金服集團首席風險官胡曉明也做了名為《商業驅動下的大數據》的分享,他指出:數據沒有大小之分,數據只有是否被商業認知之分。數據是一種信仰,只有讓數據產生商業價值,數據才能變大,數據才能真正的為社會、為消費者、為製造業產生力量。據他介紹,阿里小微金服已經通過數據為70多萬小微企業貸款,而且沒有一家企業是實地考察,只通過數據的分析,就實現了良好的風險控制。同時,他認為當數據能夠變成數據科學和數據知識的時候,它跟計畫經濟配在一起可以讓計畫變得更科學,這種配置會優於通過競爭而導致的市場化最優配置。相信這個觀點會引來經濟學家的巨大爭論,這完全顛覆了西方主流經濟學的基礎理論。

來自安客誠(Acxiom)的首席分析官程傑則提出:大數據的價值在於連結。在他看來,公司網絡、互聯網以及網絡軟件,這三大領域的發展對於大數據有著至關重要的影響。同時又運用「盲人摸象」這一典故,形象地說明大數據在商業方面實現價值最重要的,也是最大的挑戰在於數據的連結。現在數據很多,但是數據的價值是不一樣的,尤其數據連結在不同的整合基礎上,他們表現的價值完全不一樣。數據如何連結?數據需要分解再整合,把一些複雜的現象分解成為單獨的要素以後,就能看到最基本的特徵,真正的理解了以後再把它重新組合。美國已經開發了4000個針對單個消費者的數據模型,使得廉價的數據使用之後價值成倍提高。

LinkedIn數據分析部資深總監張溪夢從數據分析與商業智能的角度提出數據分析的框架。他認為,商業分析就是用歷史來預測未來,需要著力五個點:1、以前發生了什麼?2、為什麼發生?3、當前正在發生什麼?4、未來會發生什麼?5、如何改變未來?從商業價值的產出來看,第一步到第四步基本的商業價值是零,而是要把未來變得更好,這才是分析本身產生價值最重要的一環。

大數據不是越大越好,大數據分析有三個原則:第一,簡單,分析出來的結果必須非常非常簡單,沒有任何花哨的東西,任何人都能夠看明白看懂。第二,迅速,分析速度越慢接受度越低,越快接受度越高。第三,規模化,希望公司內部所有的員工每一個人都能夠用數據來分析幫他們做決策,很快的做決策。


同時,他也提出了傳統分析向大數據分析進化需要經歷4個階段:1、打造數據分析大金字塔;2、數據分析的規模化;3、數據分析的產品化;4、分析產品矩陣化,網絡化,與合作化。