PingCAP黄东旭:让拆库拆表见鬼去吧!MySQL扩展新玩法

IT168老鱼 2017-05-04 11:49 工具软件 来源:思达派 查看原文

作者:ZoeyZhai
链接:https://zhuanlan.zhihu.com/p/26710202
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,而通常的做法是业务层要把代码改个遍,如果业务上已经用了MySQL,没有办法,只能去拆库拆表,动中间件,而这个过程对DBA是痛苦的,就算不死也要脱层皮。

  最近,一款国人主导开发的开源数据库项目在国内外混的风生水起,不仅在GitHub上被推到了Go Trending的头条,并且累积 Star 数已近 10000。而在国内,它在被技术爱好者模仿DB-Engine制作出的国产数据库排行榜中,位居第二,它就是开源分布式关系型数据库TiDB。


▲PingCAP联合创始人兼CTO黄东旭

本期访谈嘉宾:PingCAP联合创始人兼CTO黄东旭。热爱画画,美剧,摇滚乐,但更爱写代码的狂热开源爱好者,知名开源软件作者,代表作品分布式 Redis 缓存方案Codis,以及分布式关系型数据库 TiDB。

  与黄东旭的会面一波三折,因为各自时间原因及突发事件,最终采访约定在了PingCAP驻地,东升科技园晚上19点。其实,因为DTCC大会的关系,虽然很早,我就与作为大会嘉宾的他互添了微信,但与他真正见面,这却是头一次。

  夜幕下的园区少了些许喧嚣,清静了许多。刚走进入PingCAP公司的大门,我一眼就看到了横躺在地下摆弄手中平板电脑的他,身为CTO的他,似乎并不太在自己的形象,反而和员工打成一片。长发、T恤、牛仔裤,与微信中的照片一模一样,似乎任何时候,他都是这副打扮,识别率非常高。

  PingCAP公司并不大,工位也不多,虽然已经是晚上7点早该下班了,但还有些工位上依然还有人在办公,脸上还洋溢着笑容,丝毫看不出加班的郁闷与不爽,有的小声交谈,有的敲击键盘,有的在拨打电话订餐,似乎在家中办公那样轻松自在,一股非常纯粹浓郁的工程师文化向我扑面而来。

  黄东旭告诉我,公司目前大概有50多人,其中八成是工程师,并有三分之一的同事是分散在祖国各地,公司在北京、上海、广州均有办公室。作为崇尚开源精神的公司,上班不需要打卡,并允许员工在家办公,远程办公,氛围自由而开放。两个小时的采访过程中,爱写程序技术出身的他,在谈到数据库技术时,眼中充满了狂热的光芒。

TiDB诞生源自MySQL扩展的切肤之痛

  事实上,无论是在前东家微软、网易,还是豌豆荚,黄东旭一直都在从事与基础软件领域相关的工作,如分布式存储和分布式系统,在这个过程中他敏锐的观察到,传统关系型数据库扩展性痛点,而这源自经常拆库拆表的他,有着切肤之痛。

  随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。但在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,通常的做法是业务层要把代码改个遍,如果业务上已经用了MySQL,没有办法,只能去拆库拆表,动中间件,而这个过程对DBA是痛苦的,就算不死也要脱层皮。既然没有优雅的解决方案,那为什么我们不做一个?黄东旭反问自己。创业的动机由此而生,

  并与另外两个创始人刘奇、崔秋一拍即合,

  PingCAP的TiDB 在此基础上诞生了。

  TiDB最初的灵感来自于Google Spanner/F1论文, 有了理论基础,想法很快就落地成产品,并取名TiDB,Ti是元素周期表中的一种元素,高端金属材料,既轻又结实。在黄东旭看来,Ti能充分体现数据库很多特点,而且还很轻,不像Hadoop那样重。

  TiDB与MySQL完全兼容,MySQL应用无需修改便可直接运行。支持包括传统 RDBMS 和 NoSQL 的特性,可以随着数据增长而无缝水平扩展,只需要通过增加更多的机器来满足业务增长需求,应用层可以不用关心存储的容量和吞吐。用他的话说就是“会自生长”。

TiDB火爆开源社区,定位决定高度!

  技术出身的黄东旭,同时也具备产业判断的视野和格局。中国不缺好的工程师,中国人一样可以做出世界一流的产品。而其中的关键,在于切入方向的选择,而不是工程师的问题。他认为,眼光,一定要放眼全球。而最触动我的一句话:“定位,决定了你能达到的高度,当在这个领域已经有了很多非常强壮的竞争对手,而且成为了一个事实标准,你是很难搬搬倒对方的,先入为主,先得天下为王。”

  大数据时代到来,随着数据量爆发式的增长,数据库这层的基础设施却并没有跟上,这给了PingCAP一个很好的机会。分布式数据库技术由于其优良的线性横向扩展能力和良好的故障隔离性,近几年也受到了普遍关注。市场上不仅出现了很多新兴的分布式数据库引擎,老牌的数据库也在分布式技术上投入重兵,加紧部署。但这些分布式解决方案都是商业的,并且这一领域还没有形成一个事实的标准,除了积累外,这是PingCAP切入这一领域的主要理由,更为关键的是,优雅的开源分布式关系型数据库解决方案目前一个都没有,这在黄东旭看来就是填补空白的机会。

  而他与他的团队坚信,TiDB具备成为一个事实标准的潜质,其次是这个方向的用户足够多。他直言不讳道,MySQL的用户理论上都会是其客户,这个天花板足够高,市场足够大。

开源才是基础软件出路

  选择开源这条路,并不是赶时髦也不是一时冲动,黄东旭有着自己的理解和洞察,在谈到为何TiDB会选择开源这种方式时,他说。基础软件领域闭源并不是最好的选择,如果是闭源的,需要铺很大的销售团队,去让客户了解你。开源能让客户更容易了解你,更多地touch到你的用户,并在生产环境中去磨练你的产品。他特别强调,开源并不是等于免费,开源只是让用户能快速的了解我们的产品。

  TiDB能成为GitHub上的明星项目,似乎在黄东旭意料之中,较为淡然,之所以能在国内国外取得好的反响,他认为,不仅是TiDB本身理论比较新,解决了企业及广大传统关系型数据库扩展的痛点,更为关键的是,PingCAP是在认真的做这件事情。

  在谈到应用案例时,黄东旭说,目前,已经有上市游戏公司在大规模的采用TiDB来作为其游戏端存储和大数据分析的平台,在金融行业,如征信方面,也有客户大数据平台跑在TiDB上。但他并没有透露具体客户名称。

独家揭秘,TiDB今年2大重要更新!

  在谈到TiDB今年计划和重大更新时,黄东旭透露,大的功能特性主要有2个:

  一、TiDB将会深度对接Spark SQL,Spark SQL可以说是目前互联网数据实时分析标准方案,深度对接后,用户就可以用Spark SQL在TiDB上做数据的查询,这并不是把数据简单的倒腾到Spark里面,而是在存储引擎上,让Spark SQL把它的执行计划推下来,然后做分布式计算,这的好处在于,一份存储,多个可插拔查询引擎(TiDB / Spark SQL),既可以用TiDB这边MySQL协议查询,同时可以用Spark作分析,增强了TiDB在OLAP上分析场景上的能力。

  二、添加文档型数据的使用接口支持,MySQL在5.7.12的xplugin里面的document store,类似MongoDB访问MySQL,不需要建表,类似Schema特性,TiDB也将添加了类似的支持。


为您推荐: