
從2011年至今,大數(shù)據概念火了五年,勢頭依然不減。從人人都在講概念,到商業(yè)化應用典型案例出現(xiàn),可以清晰地看到大數(shù)據在逐步落地。以Hadoop為代表的底層架構日趨成熟,處理數(shù)據的各項技術有了長足的進步,讓大數(shù)據開始在各個領域發(fā)揮價值。
我們認為,大數(shù)據產業(yè)仍在初級階段,商用價值仍未完整展現(xiàn),市場前景一片廣闊。一方面,國內企業(yè)IT投入占比低于全球平均標準,隨著企業(yè)對信息化意識逐步提升,整個IT市場的蛋糕有望繼續(xù)做大。
另一方面,企業(yè)客戶將大量IT預算投入到云計算等基礎設施建設上,隨著基礎設施逐漸成熟,企業(yè)會將更多預算投入到大數(shù)據、人工智能上,屆時大數(shù)據企業(yè)將迎來新一波發(fā)展浪潮。
大數(shù)據技術逐步提升,對大數(shù)據產業(yè)劃分也越來越細致。從基礎設施到行業(yè)應用,各個賽道都涌現(xiàn)出大量創(chuàng)新公司,有些代表著最新的技術和應用,有些則是借助大數(shù)據概念炒作。
如何識別有前景的賽道、找出有價值的公司,成為市場新的關注點,這也是愛分析大數(shù)據行業(yè)圖譜系列報告的主旨所在。
在發(fā)掘有價值的賽道之前,首先應該對行業(yè)進行劃分,從大到小逐步鎖定目標。從整個產業(yè)生態(tài)角度,大數(shù)據產業(yè)可以分為三層:

在上篇大數(shù)據行業(yè)圖譜(一)中,愛分析介紹了大數(shù)據行業(yè)中的底層基礎平臺,本文是大數(shù)據系列第二篇——通用技術,主要是基于Hadoop等底層基礎平臺的處理數(shù)據技術,包括數(shù)據采集、數(shù)據處理、數(shù)據分析、數(shù)據可視化等。
從數(shù)據流轉過程來看,底層基礎平臺主要解決了數(shù)據存儲問題,而通用技術則解決了從數(shù)據采集到數(shù)據分析的問題,有些技術只解決其中某一環(huán)節(jié),如數(shù)據采集、數(shù)據可視化,有些則同時覆蓋多個環(huán)節(jié),如廣告監(jiān)測同時覆蓋數(shù)據采集、處理和分析。

從數(shù)據采集到數(shù)據分析,通用技術包羅萬象
通用技術涉及到數(shù)據處理各個流程,上圖中只是列出目前主要賽道。隨著業(yè)務發(fā)展,更加細分的領域也開始冒出創(chuàng)新公司,如Kyligence專注于OLAP層數(shù)據分析,但這些細分賽道目前相對較小,單個賽道里面只有一兩家成立時間很短的公司,因此尚未列入其中。
在通用技術這個賽道之下,細分領域主要分為兩類:一類是傳統(tǒng)領域借助大數(shù)據煥發(fā)新春,大數(shù)據技術發(fā)展推動這些業(yè)務進一步發(fā)展,提升處理效率;另一類是隨著移動互聯(lián)網的興起,為互聯(lián)網企業(yè)客戶提供基于移動端數(shù)據服務。

文本挖掘主要應用于輿情監(jiān)控方面,大數(shù)據公司收集互聯(lián)網的各類文本信息,幫助企業(yè)更好地進行競爭分析、公關、用戶調研等流程,如智慧星光、波森數(shù)據、清博大數(shù)據等。
網頁爬蟲技術很早就出現(xiàn)了,早期百度、Google等搜索引擎都在使用。隨著大數(shù)據概念深入人心,數(shù)據價值被企業(yè)所重視,爬蟲技術有了更加廣闊的市場,八爪魚這類提供爬蟲技術的公司發(fā)展起來。
廣告監(jiān)測類公司主要服務品牌企業(yè)客戶,為企業(yè)提供廣告營銷全流程的數(shù)據分析,讓品牌客戶了解其廣告投放效率,更好地進行廣告優(yōu)化,這一領域秒針系統(tǒng)、AdMaster、TalkingData是領跑者。
BI商業(yè)智能公司與數(shù)據可視化公司,將報表等數(shù)據以圖像等形式呈現(xiàn),可視化更側重于數(shù)據呈現(xiàn),給企業(yè)客戶更加清晰地展示,BI更側重于人機互動,讓業(yè)務人員可以更好地在圖像上進行業(yè)務分析。
BI領域的有永洪科技和帆軟,數(shù)據可視化領域的海智BDP、海云數(shù)據、數(shù)字冰雹相對領先。
日志分析在早期主要應用在信息安全領域,隨著大數(shù)據技術發(fā)展,對日志數(shù)據處理更加迅速、精細,日志數(shù)據的價值被企業(yè)客戶認可,其應用領域也逐步延展到公司業(yè)務領域,如反欺詐等。這個領域有一些傳統(tǒng)安全公司在做,新公司主要有日志易和瀚思安信。
移動統(tǒng)計、用戶行為分析等領域是隨著移動互聯(lián)網的興起而得到快速發(fā)展的。移動互聯(lián)網時代,移動端軟件如雨后春筍般冒出,掘金者的出現(xiàn),勢必會出現(xiàn)一些為掘金者送水的人。
移動統(tǒng)計和用戶行為分析均是為這些互聯(lián)網公司提供服務,解決這些企業(yè)關心的客戶數(shù)、轉化率等問題。TalkingData和友盟+是移動統(tǒng)計領域的佼佼者,用戶行為分析領域呈現(xiàn)出GrowingIO、神策數(shù)據和諸葛IO三足鼎立之勢。
盡管各細分賽道的公司業(yè)務相差很大,但通用技術領域還是存在很多行業(yè)共性和未來趨勢,這些現(xiàn)狀和趨勢有助于我們去判斷通用技術類公司未來發(fā)展方向。
行業(yè)現(xiàn)狀一:大數(shù)據概念逐漸落地,各領域在逐步細化
大數(shù)據概念興起時,企業(yè)客戶最先想到將數(shù)據收集存儲起來,因此企業(yè)客戶都在建立自己的數(shù)據中心等基礎設施。數(shù)據存儲之后,如何使用這些數(shù)據成為企業(yè)新的痛點。
數(shù)據可視化是讓企業(yè)客戶感受到數(shù)據價值的直接體現(xiàn)。但僅僅是可視化呈現(xiàn)是遠遠不夠的,企業(yè)客戶希望能夠挖掘數(shù)據內在價值,于是數(shù)據分析領域逐步繁榮。
因此,伴隨著大數(shù)據概念的逐步落地,通用技術領域的公司得以快速發(fā)展。同時這一領域逐步細化,衍生出大量專注于某一細分領域的公司。
以數(shù)據分析為例,早期主要是網站流量分析,百度統(tǒng)計、CNZZ等。移動互聯(lián)網興起之后,TalkingData、友盟等基于移動平臺提供日活量等數(shù)據統(tǒng)計公司出現(xiàn)。
隨著業(yè)務的發(fā)展,僅僅是用戶數(shù)據統(tǒng)計已經不能滿足企業(yè)的需要,企業(yè)開始關注用戶的行為分析,希望可以進行更加精細化地分析,這時候GrowingIO、神策數(shù)據等公司出現(xiàn)。
據不完全統(tǒng)計,國內大數(shù)據公司有130多家,而國外大數(shù)據公司有7000多家。因此,盡管領域逐步細化,還是存在很多洼地,整個行業(yè)發(fā)展空間還很大。

行業(yè)現(xiàn)狀二:提供工具型服務,模式更偏向SaaS
底層基礎平臺公司,多以項目制服務客戶,人力依賴較重。通用技術類公司,更多是提供某一種工具類服務,更容易形成標準化產品,因此可復制性強,人力依賴相對較輕。
目前國內大型企業(yè)一般都實行預算制,服務大型企業(yè)時,形式上仍然為項目制,但交付時間相對較短,大數(shù)據公司仍然可以看做是輸出產品而非人力。
因此,通用技術領域公司的業(yè)務模式更偏向SaaS,可以用SaaS類企業(yè)的核心指標去分析其運營效率。
因為是工具類服務,客單價一般不高,集中在幾萬至幾十萬之間,上百萬的訂單鳳毛麟角。國外市場同樣如此,Tableau客單價平均在8000美金,Splunk的客單價在5萬美金左右。不過,國內大數(shù)據公司目前紛紛涉足傳統(tǒng)企業(yè)級市場,客單價有望逐步提高。
行業(yè)現(xiàn)狀三:開源社區(qū)興起,互聯(lián)網巨頭入侵
近年,隨著開源文化興起,越來越多的技術開源,很多大數(shù)據相關技術的使用門檻逐步降低,如可視化領域的eCharts,日志分析領域的ElasticSearch,這些工具方便IT人員開發(fā)相應的數(shù)據技術產品。
與此同時,BAT等互聯(lián)網巨頭不斷推出免費的大數(shù)據技術產品,如百度統(tǒng)計、友盟統(tǒng)計等,完全可以滿足企業(yè)一般需求。
以上這些因素,使得大數(shù)據公司的技術優(yōu)勢逐步降低,僅僅依靠大數(shù)據技術已經很難建立起足夠堅實的護城河。
垂直技術面臨挑戰(zhàn),通用技術平臺同樣面臨巨大沖擊。2016年,跟隨Google步伐,國內互聯(lián)網巨頭紛紛開放自己的大數(shù)據平臺,阿里云開放“數(shù)加”平臺,百度云開放“天算”,BAT已經形成中小企業(yè)的服務閉環(huán)。對大數(shù)據領域的創(chuàng)新公司而言,服務中小互聯(lián)網企業(yè)這條路幾乎被封死。

行業(yè)現(xiàn)狀四:客群轉向傳統(tǒng)企業(yè),集成商成強勁對手
對企業(yè)而言,接受大數(shù)據技術需要一段時間。互聯(lián)網企業(yè)對新技術的接受速度,要遠遠快于傳統(tǒng)企業(yè),因此大數(shù)據創(chuàng)新公司早期客戶多數(shù)為互聯(lián)網企業(yè)。但隨著業(yè)務不斷開展,大數(shù)據公司發(fā)現(xiàn)互聯(lián)網企業(yè)的付費意愿低于傳統(tǒng)企業(yè)。
一方面,習慣了互聯(lián)網免費紅利后,互聯(lián)網企業(yè)主更傾向于使用免費產品,相比之下,傳統(tǒng)企業(yè)用戶相對保守,對免費產品心存疑慮,付費購買產品的習慣從信息化時代延續(xù)至今。
另一方面,大型互聯(lián)網公司技術實力強,更傾向于內部研發(fā)滿足業(yè)務需要,不愿意使用外界產品,而傳統(tǒng)企業(yè)更樂意接受外界產品。
基于以上兩點,大數(shù)據公司將客戶群體由線上互聯(lián)網企業(yè)逐步轉向傳統(tǒng)企業(yè),如TalkingData早期服務移動端企業(yè),后期轉向服務金融、地產等傳統(tǒng)領域客戶。
不過,傳統(tǒng)企業(yè)服務市場盤踞著各類集成商,這些公司與客戶關系非常密切,已形成了強大的行業(yè)壁壘,創(chuàng)新型大數(shù)據公司切入并不容易。
技術優(yōu)勢和原有客群逐步被蠶食,打開新市場又面臨很大競爭。面對這種前有堵截、后有追兵的局面,大數(shù)據公司如何突圍?
愛分析認為,具備以下特點的大數(shù)據公司更容易突圍成功。
行業(yè)趨勢一:業(yè)務垂直化,聚焦細分領域
盡管企業(yè)客戶更希望得到一個整體解決方案,但對大數(shù)據公司而言,將業(yè)務聚焦在垂直領域更容易發(fā)展。
Tableau、Splunk早期都是聚焦可視化、日志分析細分領域,將產品打磨扎實,才向其他領域進行擴展,國內大數(shù)據公司應該更加專注一些,將某一領域做實。
專注單一領域,不盲目擴張,也有助于減少競爭,與更多企業(yè)合作。想切入傳統(tǒng)企業(yè)市場,僅憑大數(shù)據公司的商務拓展能力遠遠不夠,有些時候需要與集成商進行合作,借助集成商的渠道切入市場。
行業(yè)趨勢二:向上層應用偏移,做厚利潤空間
不管是開源社區(qū),還是互聯(lián)網巨頭開放平臺,輸出的更多是技術能力,并不能直接解決企業(yè)需求。以Hadoop為例,盡管Hadoop社區(qū)技術已經相對成熟,但Cloudera這樣的公司仍然有很大市場。
通用技術領域同樣如此,對企業(yè)級客戶來說,他們不關心使用什么樣的技術,能夠解決業(yè)務問題才是關鍵。
對大數(shù)據公司而言,繼續(xù)向底層偏移,強化技術實力這條路會非常艱難,等同于以一己之力對抗整個社區(qū)。逐步偏向上層應用,開發(fā)具備行業(yè)屬性的產品才是更好的選擇。
這樣做更貼近客戶需求,客戶付費意愿更強,同時客單價更高,利潤空間更大。

行業(yè)趨勢三:對接多方數(shù)據源,實現(xiàn)數(shù)據互聯(lián)
通用技術公司在服務客戶過程中,會積累大量數(shù)據,經過脫敏處理后,這些數(shù)據可以用于服務其他客戶。
如TalkingData就在服務移動端中小企業(yè)過程中,積累了大量移動設備數(shù)據,將這些數(shù)據用于為線下金融類客戶提供包括精準營銷在內的多項服務。
目前大數(shù)據公司主要是以自身技術服務于客戶的第一方數(shù)據源,隨著業(yè)務發(fā)展,大數(shù)據公司慢慢會形成自己的第三方數(shù)據源,可以將第三方數(shù)據源與第一方數(shù)據源打通,實現(xiàn)數(shù)據互聯(lián),將大大增強大數(shù)據公司的競爭力。
除TalkingData之外,廣告監(jiān)測領域的秒針系統(tǒng)和AdMaster,可視化領域的海云數(shù)據,都在積極建立自己的數(shù)據庫,將技術與數(shù)據結合,提供更貼近業(yè)務的服務。
廣告監(jiān)測領域機會最大,用戶行為分析需要打開更大市場
盡管通用技術領域整體前景廣闊,但各細分賽道情況或有不同,廣告監(jiān)測領域機會最大, 網頁爬蟲、文本挖掘領域機會不大。日志分析、用戶行為分析領域的問題是發(fā)展空間有限,需要將業(yè)務開拓至新行業(yè)才有更大的機會。
廣告監(jiān)測領域機會最大,秒針系統(tǒng)、AdMaster占據前端廣告曝光市場95%份額,形成雙寡頭局面,兩家都在積極布局后端監(jiān)測市場。此外,移動端TalkingData將中小企業(yè)一網打盡,為中小APP軟件提供包括廣告監(jiān)測在內的多項運營服務。
同時,這些廣告監(jiān)測公司已經開始尋找數(shù)據變現(xiàn)路徑,幫助企業(yè)客戶建立第一方和第三方DMP,建立更緊密的合作關系。
BI商業(yè)智能與數(shù)據可視化領域,單純提供BI與可視化工具,競爭力并不凸顯。因為這類開源技術發(fā)展很好,開發(fā)成本較小,無法建立技術壁壘,需要向上層應用偏移,將技術與行業(yè)應用結合,形成業(yè)務壁壘。永洪科技、海云數(shù)據等公司都在積極對接業(yè)務,重點布局公安、電信等行業(yè),加強客戶黏性。
日志分析領域同樣面臨開源技術沖擊,業(yè)內一類公司采取ElasticSearch技術,基于開源技術開發(fā)相應產品,競爭力有限。另一類公司自主研發(fā)底層技術,碰到的問題是如何在與開源社區(qū)競爭中保持技術領先性。
單純是日志分析市場,空間有限,但隨著物聯(lián)網的發(fā)展,這類公司可將日志數(shù)據延伸到機器數(shù)據,在物聯(lián)網領域發(fā)揮更大價值。
用戶行為分析領域市場仍處于早期階段,如果只服務于互聯(lián)網客戶,市場空間有限,競爭激烈,加上百度統(tǒng)計、友盟等分析平臺,如何讓企業(yè)付費是最大問題。這領域公司需要積極探索如何將業(yè)務轉到傳統(tǒng)企業(yè)級市場,拓寬發(fā)展空間。
網頁爬蟲、文本挖掘領域機會較小,一方面,百度、Google等搜索引擎公司技術積累遠超于新興企業(yè),后者很難形成足夠的技術壁壘,另一方面,通過這類技術采集到的數(shù)據價值非常有限,很難利用這類數(shù)據為傳統(tǒng)企業(yè)提供價值。
至此,通用技術篇暫時告一段落,愛分析會持續(xù)關注該領域,不定期進行公司調研和提供行業(yè)洞見。
下一篇,將是大數(shù)據應用篇,大數(shù)據與垂直行業(yè)深度融合后將產生哪些機會?大數(shù)據在金融、電信、公安領域的典型應用案例有哪些?都會在應用篇中揭曉,歡迎各位讀者持續(xù)關注。