首頁 > 業(yè)界

新一代數(shù)據(jù)庫「偶數(shù)」獲紅杉中國、紅點(diǎn)中國投資,開源技術(shù)商業(yè)化是個(gè)好方向

時(shí)間:2017-10-31 15:56:46 來源:36氪 作者: 徐寧

1509436918590611.jpg

偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。

“偶數(shù)”成立于2016年底,是一個(gè)基于HAWQ的新一代數(shù)據(jù)庫項(xiàng)目,目前團(tuán)隊(duì)在30人。今年4月份公司獲得紅點(diǎn)中國的天使輪投資,又于近期完成了紅杉中國領(lǐng)投、紅點(diǎn)中國跟投的A輪融資,兩輪共計(jì)數(shù)千萬元。

我們先來看一下數(shù)據(jù)庫的發(fā)展歷程。

數(shù)據(jù)庫承擔(dān)的功能是存儲(chǔ)和計(jì)算,可分為交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)兩類:

交易型OLTP是最穩(wěn)定的,主要是針對(duì)基本的、日常的事務(wù)處理,銀行交易就是一個(gè)典型的應(yīng)用場(chǎng)景,由于不能出紕漏,大企業(yè)基本都選用Oracle的產(chǎn)品,該市場(chǎng)80%已飽和,并且增長(zhǎng)緩慢。

分析型OLAP是數(shù)據(jù)倉庫系統(tǒng),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,像現(xiàn)在智能交通中識(shí)別車牌就是典型應(yīng)用,需要分析大量數(shù)據(jù),以及現(xiàn)在正火熱的AI都需要分析型數(shù)據(jù)庫做底層支撐。分析型數(shù)據(jù)庫是創(chuàng)業(yè)公司的機(jī)會(huì),存量市場(chǎng)在200億美元,目前還在保持高速增長(zhǎng)。

分析型數(shù)據(jù)庫目前已經(jīng)歷三代,正朝著第四代演變。

Oracle做為數(shù)據(jù)庫的巨頭,產(chǎn)品即有OLTP,也有OLAP。第一代分析型數(shù)據(jù)庫/OLAP,代表有Oracle的Exadata,缺點(diǎn)是只能儲(chǔ)存在EMC這樣的高端專有硬件上,每個(gè)節(jié)點(diǎn)要花費(fèi)400多萬,并且,多節(jié)點(diǎn)共享一個(gè)存儲(chǔ)設(shè)備,導(dǎo)致可拓展性差,往往只能支持10幾個(gè)節(jié)點(diǎn)。

接著,出現(xiàn)第二代數(shù)據(jù)倉——MPP大規(guī)模并行處理。這時(shí),數(shù)據(jù)已經(jīng)不需要儲(chǔ)存在專有硬件上,普通的x86服務(wù)器即可,成本自然下降。各個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù)獨(dú)立存在本地的硬盤上,互相之間不共享,計(jì)算時(shí)將任務(wù)并行的分散到多個(gè)服務(wù)器和節(jié)點(diǎn)上,在每個(gè)節(jié)點(diǎn)上計(jì)算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。代表產(chǎn)品有HP Vertica、EMC收購的Greenplum、IBM Netezza,雖然這種架構(gòu)下節(jié)點(diǎn)可拓展至幾十個(gè),但依舊不能滿足大規(guī)模的擴(kuò)展需求。

隨著Hadoop的發(fā)展,第三代數(shù)據(jù)庫崛起,數(shù)據(jù)存儲(chǔ)在HDFS上,HDFS是運(yùn)行在通用硬件上的分布式文件系統(tǒng)。此時(shí),存儲(chǔ)、計(jì)算分離,各節(jié)點(diǎn)之間能夠互相訪問,擴(kuò)展性強(qiáng),可以延伸到上千個(gè)節(jié)點(diǎn)。不過由于新產(chǎn)品的性能還沒能很好磨合,有些情況下,第三代數(shù)據(jù)庫不如第二代快速。

之后,在Hadoop上就長(zhǎng)出了很多開源技術(shù),用來更進(jìn)一步完善、優(yōu)化性能,HAWQ就是其中之一,此外還有Hive、Impala、Spark SQL等。

偶數(shù)的CEO常雷便是Apache HAWQ創(chuàng)始人,他告知,HAWQ數(shù)據(jù)庫可以比第二代快10倍,比第三代快30-50倍。

數(shù)據(jù)庫的性能取決于“優(yōu)化器”和“執(zhí)行器”,其中優(yōu)化器負(fù)責(zé)找出最佳步驟,執(zhí)行器負(fù)責(zé)控制硬件。而HAWQ的關(guān)鍵就在于執(zhí)行器。

例如,給一堆數(shù)據(jù)做排序,“先排序還是先篩選”是由優(yōu)化器決定,當(dāng)優(yōu)化器決定先排序時(shí),接下來由執(zhí)行器調(diào)配硬件。我們知道在冒泡排序的算法里,用一個(gè)數(shù)據(jù)跟其他比較然后插入位置,此時(shí)用兩個(gè)甚至多個(gè)同時(shí)計(jì)算就會(huì)快很多,而HAWQ就是用一種高級(jí)指令控制硬件,同時(shí)計(jì)算多條數(shù)據(jù)。

再比如,CPU有一定的緩存空間,計(jì)算時(shí)訪問距離最近、速度最快,但空間有限,磁盤存儲(chǔ)空間最大卻訪問最遠(yuǎn)、速度最慢,所以,怎樣分配指令,用最快的資源處理最實(shí)時(shí)的需求,就是HAWQ執(zhí)行器需要做的事情。

這樣看來,偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。

目前,偶數(shù)有兩款產(chǎn)品,一個(gè)是開源版的Apache HAWQ,另一個(gè)是商業(yè)版的Oushu Database(HAWQ++)。據(jù)常雷告知,剛發(fā)布的Oushu Database 3.0商業(yè)版比開源版快10倍,這樣算下來,就比Spark SQL等其他數(shù)據(jù)引擎快幾十倍。

至于應(yīng)用,偶數(shù)可以在數(shù)據(jù)庫內(nèi)做AI算法,效果會(huì)優(yōu)于TensorFlow,TensorFlow是獨(dú)立系統(tǒng),加在數(shù)據(jù)庫外,而偶數(shù)的算法可以做在數(shù)據(jù)庫內(nèi),訪問越近,速度越快。常雷告知,像是航母、銀行、電力運(yùn)維、金融、政府公安等行業(yè)目前都在應(yīng)用偶數(shù)數(shù)據(jù)庫,像是傳感器采集大量數(shù)據(jù)的場(chǎng)景,都需要快速處理。

收費(fèi)方面,偶數(shù)商業(yè)版根據(jù)CPU/節(jié)點(diǎn)/容量收取賬號(hào)年費(fèi)。

對(duì)于本次融資,紅點(diǎn)中國管理合伙人袁文達(dá)先生表示:“紅點(diǎn)中國本身是很看好大數(shù)據(jù)技術(shù)領(lǐng)域未來的發(fā)展趨勢(shì),在國內(nèi)外投資了不少大數(shù)據(jù)技術(shù)公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶數(shù)團(tuán)隊(duì)來自于Pivotal、IBM等著名軟件公司,對(duì)國內(nèi)和國際市場(chǎng)以及產(chǎn)品落地有豐富的經(jīng)驗(yàn),以及HAWQ++在MPP分析數(shù)據(jù)庫的技術(shù)處于國際領(lǐng)先水平。我們很高興跟這樣的團(tuán)隊(duì)合作?!?/span>

至于融資資金,常雷透露,將主要用于研發(fā)和市場(chǎng)。

----

附:以下是Oushu Database 3.O主要的革新點(diǎn)

1.   全新執(zhí)行器,性能提升10倍。

執(zhí)行器是數(shù)據(jù)庫最核心的部件之一,Oushu Database 3.0對(duì)執(zhí)行器進(jìn)行了完全重新設(shè)計(jì),充分利用了最新CPU的每一個(gè)特性,比如SIMD指令等,可以做到性能的極致。

2.   支持ORC外部存儲(chǔ)格式,結(jié)合新的執(zhí)行器,外部存儲(chǔ)的性能可以提升10-50倍。

這就使得外部存儲(chǔ)達(dá)到了內(nèi)部存儲(chǔ)的性能。

3.   支持新一代可插拔存儲(chǔ)框架,只需簡(jiǎn)單編寫幾個(gè)函數(shù)就可以添加一個(gè)外部數(shù)據(jù)源。

傳統(tǒng)數(shù)據(jù)倉庫連接外部數(shù)據(jù)往往都是使用Connector形式,性能很慢,從而導(dǎo)致用戶需要使用先導(dǎo)入外部數(shù)據(jù)再查詢的方式,數(shù)據(jù)需要在多個(gè)系統(tǒng)存儲(chǔ)多份,浪費(fèi)了多倍存儲(chǔ)空間。

結(jié)合新一代執(zhí)行器,Oushu Database可插拔存儲(chǔ)框架使得數(shù)據(jù)庫可以直接高性能訪問外部數(shù)據(jù),查詢外部數(shù)據(jù)的性能和查詢內(nèi)部數(shù)據(jù)類似。



智能界(jwnfls.cn)中國智能科技聚合推薦平臺(tái),秉承“引領(lǐng)未來智能生活”的理念,專注報(bào)道智能家居、可穿戴設(shè)備、智能醫(yī)療、機(jī)器人、3D打印、智能汽車、VR/AR/MR/、人工智能等諸多科技前沿領(lǐng)域。關(guān)注智能創(chuàng)新對(duì)人的生活方式、價(jià)值的改變,致力傳播放大這部分聲量。聚合品牌宣傳、代理招商、產(chǎn)品評(píng)測(cè)、原創(chuàng)視頻、fm電臺(tái)與試用眾測(cè),深入智能科技行業(yè),全平臺(tái)多維度為用戶及廠商提供服務(wù),致力成為中國最具影響力的智能科技聚合推薦平臺(tái)。


智能界【微信公眾號(hào)ID:znjchina】【新浪/騰訊微博:@智能界】


評(píng)論列表(已有條評(píng)論)

最新評(píng)論

智能界

智能界(jwnfls.cn)

中國智能科技聚合推薦平臺(tái)

視頻

專題

試用眾測(cè)

申請(qǐng)中 【免費(fèi)試用】雷柏右手王牌VT3雙高速系列雙模無線游戲鼠標(biāo)
【免費(fèi)試用】雷柏右手王牌VT3雙高
數(shù)量:6 申請(qǐng)人數(shù):211 申領(lǐng):100積分