Pivotal Greenplum姚延栋:开源之后Greenplum仍在持续稳定的发展

易观 2016-10-28 15:55:58   11

Pivotal Greenplum中国研发总经理姚延栋受邀出席“2016易观A10大数据应用峰会”, 并参与1028日技术主论坛,发表了Greenplum 5.0 Roadmap的主题演讲。

姚延栋介绍了Pivotal Greenplum主要研发优先级:关键数据仓库可操作性强PostgreSQL保持对齐,不断从PGSQL社区中提取思路和吸收PGSQL长处;支持云计算,能够集成AwsAzurealiyun等,很容易在云上使用;多元分析,更多的算法和更多的接口。

Greenplum从一款从熟的企业级商业软件到开源,已经累积了上千家的用户,并利用Greenplum 提供的解决方案取得了极大的性能提升和安全保障。Greemplum在开源后,正在和postgresql最新版本进行合并。5.0版本将于明年年初发布。Greenplum5.0在发布后,将提供更多postgresql中的新功能。包括json支持,xml增强,全文索引等。

以下是姚延栋演讲实录:

姚延栋:大家好!感谢王老师的介绍,非常高兴,也非常荣幸到易观大会来和大家介绍Greenplum,我是Greenplum中国的研发总经理,负责Greenplum在中国研发,我们有一个研发团队,差不多40多个人。今天为什么来讲一下Greenplum 5.0 Roadmap?我不知道多少人听说过Greenplum产品,如果听说的话请举一下手,还不错。Greenplum和前面几位老总讲的产品有点不同,它其实是一个企业级产品,已经做了十几年,我们在20151027号开源出来的,它在开源之前已经有了上千家客户,在他的企业级软件环境里面,企业级数仓里面,已经应用了Greenplum这样的产品。今天我们讲Greenplum5.0最重要的意义是自从开源之后我们第一个开源后的发布是5.0,这意味着5.0发布之后你会有开源版,从社区下载装到企业里面就可以用,这是稳定版,如果不是稳定版,下载任意一个的话,它是没有经过我们完整测试的,也是一个非常不完整的状态。

我们有些工作已经做完了,大家可以看到这些工作,你下载代码就包含我们已经做完的所有这些部署,对于计划要做的这部分我们可能会有变化,但基本上变化不大。

Greenplum这样一个产品从开源之后也有好多人说为什么企业级产品做的这么好还要开源,是不是投资策略有变化?我们整个公司策略是基于开源,我们希望通过“三驾马车”这样一个PaaS平台,帮助世界变革现有软件开发方式。所以我们整个开源是在这么大的战略之下而做出的,我们也可以看到开源之后Greenplum仍然在持续稳定的发展。现在我们在全球有34个国家有Greenplum团队,包含研发团队、销售团队、支持团队,我们在工程师方面的投资也在持续增长,我们的客户也在不断增长。

自从开源之后大家非常关心这样一个数据库产品,数据库本身是非常复杂的一个东西,分布式系统也是一个非常复杂的东西,分布式数据库这两个复杂的东西加在一块儿将会更复杂。所以这样一个产品能够有一些开源的项目技术难度和壁垒是非常高的。但我们非常高兴的是,开源之后开源社区里有上千个commits,也有20多个社区成员做contributors,非常高兴。在开源之后我们的releases也是非常持续的发布,在过去几个月之内,这里写的是8个releases。我们的主页Greenplum1600多个,透明的支持事物的线性数据库,这个成绩还是蛮好的。关于5.0什么时候releases,我们内部计划是明年年初,大概在第一季度。

Greenplum作为一个数据库产品,肯定所有的产品都想成为市场的NO.1Greenplum同样也是如此。怎么样帮助客户从现有的平台里面进行迁移,包含以前用的一体机,很容易down,我们帮助他们从现有平台迁移到分布式的数据架构上面。后面我们会提到Greenplum基于MPP postgre SQL一个开源数据库产品。

我们现在看一下Greenplum实际应用产品。第一个是欧洲非常大的保险公司,他最近刚刚把企业级仓库迁移到Greenplum,他之前写了大量的脚本,包含存储过程,这个量非常大,他需要做迁移。第二个,你迁移之后再写新的脚本变得更容易。还有一个,你迁移完之后我们期望你的性能会更好。解决方案是使用Greenplum数据库产品,Greenplum本身可以只买软件,也可以买DCA,所以这个公司用了DCA V2产品,使性能有了90%的提升。

第二个是用于欺诈检测,这是美国的一个公司。有一个内部平台防止识别欺诈性的报税信息,他现有平台无法满足对大量数据的快速分析以及他的性能,他现在用的是SaaS产品做他的模型构建以及数据分析,SaaS在他现有平台上变得非常慢,而且不能满足大量的政府员工运行查询,迁移到Greenplum里面去,性能非常快。除此之外,还有实时分析,他们同样也有这个需求,我们公司有另外一个产品叫GemFire,大家可能听说过12306使用GemFire来服务春节期间票务查询和订购,这个报道之后印度铁道部也采用了GemFire产品处理他们的票务信息。投资银行风控,这个是摩根斯坦利,摩根斯坦利是我们比较大的客户,解决了数据存储不了,存储之后不能分析的痛点,迁移之后它的性能有十几倍的提升。使得开发人员、BI人员,或者是数据科学家,可以用很多种语言写你的模型,最典型的是有R语言,PaaS语言,java等语言,然后来扩展GPDB的功能,实现自己的需求。

这是一个网络用户行为日常检测,这个客户他用了GPDB之后,使用了一些图的数据挖掘算法,用来构建图的模型和行为模型,我们用了MPP架构,他们使用了PL/R扩展语言,速度呈十几倍几十倍的提高。这个是阿里巴巴,阿里巴巴前几天把Greenplum放在阿里云上面提供数据分析服务,这个可以从网上看到消息。除此之外,易观也有一个产品易观方舟接入了Greenplum开源产品。

前面我们提了一下Greenplum这样一个产品在企业级是怎么用的一些场景,下面我们聊一下Greenplum研发主要的priorities。第一个,这样一个集群,或者说很多的集群,几百台机器,上千台机器,很容易管理和使用,出了故障很容易使用。第二个,和Postgre SQL的一致,我们现在的策略是持续保持和Postgre SQL社区保持一致,满足客户的痛点和最主要的需求。第三个,Cloud的支持也在发展中,从GPDB里面可以读写S3的数据,对External HDFS支持我们计划之中。第四个,怎么样做数据分析,后面会提到我们有一个产品,是开源的,可以使得你在内部做数据挖掘处理。前面提到我们是基于PG,而且是2015年欧洲PG大会里面我们正式宣布开源,我们一直和PG保持一致,这个一致我们有两个维度,第一个维度是横向一致性,PG8.38.49.19.2到现在的9.6,后面会有9.710.0的发展,我们从大的版本上横向和他保持一致,目前5.0已经是8.3,花了差不多一年时间,从8.28.3,看起来好像不是特别的大的区别,因为只有非常小的版本变化,但如果你想一想一个数据库产品七八年的开发,它的分歧是非常大的,贡献了差不多50万行代码在里面,这个代码是分散在非常多的核心代码之内。所以第一次的困难非常多,我们解决了这个问题,使得它更有模块化,为后面打下了非常好的基础。

除此之外,如果大家对PG熟悉的话,PG8.29.6,磁盘上存储格式一直没有发生变化,唯一例外是8.3他们改过一次,8.3之后磁盘上的数据文件和你9.6磁盘数据文件格式是一样的,这样的话也为我们以后打下了非常好的基础。除了横向我们还有纵向维度,根据我们主要的客户反馈,说PG里面这个非常不错,那个非常不错,你什么时候支持,等到那个版本就支持了,他们说时间太久了,我们根本不可能等到那个时间。我们决定提前做,不用等到未来真的出现PG版本,现在5.0里面我们已经实现了JSON,有一个非常重大的意义,以后不用考虑使用NoSQL,去替换以前的NoSQL数据库。第二个是全文检索已经实现了,不管是性能还是类型、函数的增强,以及UUID,还有地理信息数据,可以是图像数据加载到GPDB里面进行处理。还有你不用定义函数调用,可以直接定义并调用。

另外一个是PG CONF我们进行了增强,把性能增加部分引入到GPDB中去。

GBText,8.3全文检索是非常初级的检索模块,只能实现比较简单的IDF构建,简单的查询,有一些东西是做不到的,比如你如果是一个词组的话,它是检测不到的。GBText产品把两个非常好的开源产品结合在一块儿,第一个是DPDB,一个是ApacheGBText之后还有一个产品是madlib,是开源的Apache上的一个算法,当然,它要支持postgre sql,不需要你自己从头写算法,可以直接调用Python,直接对数据进行分析处理。另外一个产品是G2C,我们通过G2C项目,使得两个数据产品可以通用。可以从这里面非常方便的读写Greenplum数据,也可以在Greenplum里面非常方便的读写Gemfire数据。包括怎么样两个产品实时同步,这样的话你可以同一个产品线去满足APTP这两种需求。

还有High Available UI管理工具,可视化的监控和管理的工具,使得你通过通讯化界面看到整个集群的运行状态。

因为时间原因,后面有好多东西就没办法介绍了,如果大家对Greenplum产品感兴趣的话可以线下交流,我们计划12月份左右搞一个summit,如果对Greenplum技术感兴趣的话欢迎大家去参加,谢谢大家。