关于OLAP算法大赛 8问易观CTO郭炜

易观 2017-10-20 18:04:25   63

2017易观OLAP算法大赛自今年7月开通报名以来,已收到国内40多个技术强队和个人报名参加,其中不乏小米、美团等技术强队。而本次比赛主要是针对有序漏斗难题进行行业攻坚,目前赛程已经入到正式竞赛环节。

在参赛队伍巅峰角逐之际,我们采访到此次大赛主要负责人易观CTO郭炜,以下为采访实录:

 

Q1、易观为什么要举办这次算法大赛?

郭炜:随着互联网发展进入下半场,越来越多的企业进入到存量发展阶段,更了解自己用户的企业将会拥有绝佳优势,而精细化运营在这个阶段中起着举足轻重的作用,怎么能更好、更快地知道在哪一个环节的运营需要提升呢?

漏斗转化是其中很重要的一种手段,但现如今面临动辄百亿级海量数据和多维分析需要实时响应的情况下,市面上现有的技术解决方案常常捉襟见肘,为了更好的提升产品体验及降低实时数据分析行业的门槛,易观决定以漏斗为需求,广发英雄帖,号召国内数据大牛一起共同解决行业难题。

Q2、易观目前在算法技术方面的实力水平如何?

郭炜:截止2017年第3季度,易观覆盖21.9亿智能终端,监测超过251万款移动应用,数据储存容量5.8PB,每日处理数据达到261亿条。在这样的业务挤压背景下,技术团队不断升级,不断将业内前沿先进的算法技术或大牛引入易观,在易观发布的千帆、方舟、万象等产品里,处处有算法的深刻烙印,比如最新发布千帆产品中A3机器学习算法的成功应用,大大的提升指标数据的准确度。 但我给易观技术团队目前实现的漏斗算法打60分,我们希望通过本次大赛,引进更先进的算法和实现,使有序漏斗不再成为业内难题。

 

Q3、本次大赛参赛热情如何(报名情况)?

郭炜:老实说,大家对这次大赛的热情出乎我的意料,这次大赛吸引了很多业界数据大牛和技术强队报名参赛,其中包括想小米、美团点评、阿里云、LinkDocAggreDataKyligencehuluGBase、原速数据、热云数据、牛办科技、润乾、上海跬智、上海睿民、帆软软件、乐享天下、乐见科技等40多家知名企业和个人参加。

 

Q4、大赛进行过程中有什么有趣或者印象深刻的事?

郭炜:让我印象特别深刻的是有一组参赛伙伴在凌晨两点给我们的小伙伴发短信,还在积极的部署环境。还有,周末休息日的时候,小伙伴们也是会经常接到参赛伙伴的反馈信息:有的是反馈测试场景的结果信息,有的是反馈可以成功登陆;也有一些遇到了问题,比如硬件方面Ucloud工作人员都给予了高度配合,在此我也要感谢下Ucloud在周末也一直积极地支持。

此外,这次参加比赛也有一些在校大学生,为给他们提供方便,我们也会安排在周末两天进行比赛。整个过程中,伙伴们为比赛的速度拼尽全力和对比赛的热情,让我很期待大家比赛都能赛出好成绩。

 

Q5有序漏斗难题,到底有多难?

郭炜:现在针对OLAP,行业通常使用预建CubeROLAP并行化加速计算或者Search Engine等技术进行, 有序漏斗难在以下几个方面:

1、数据量巨大,达到几十亿量级;

2、漏斗是运营人员现创建的,不同的运营人员由于关注业务点不同,指定的事件发生的先后顺序也不一样,这就基本排除了预建Cube的可能性;

3、漏斗分析中包含时间窗口的概念,即需要保证所有事件在同一个窗口期内发生;

4、漏斗分析中可以设置事件属性。比如搜索商品事件,可以设置只计算搜索商品事件的属性中“content”字段为“computer”的用户。不同事件的属性不一、数量也不一样,这对数据的存储方式带来了不小的挑战。

以上4个方面都给有序漏斗的解决提出了巨大的挑战,特别是易观在本次比赛中为了更贴合实际场景,对硬件等资源也进行了严格限制(16核、16G内存、SSD数据盘300Gucloud云主机4)的情况下,难度可想而知!

 

Q6、算法升级,能带来什么重大变化和影响?

郭炜:在消费升级的大背景下,用户行为不断裂变,用户需求与行为也更加碎片化;同时二、三线及以下城市的网民快速增长,互联网网民结构正在发生变化,伴随着以上,市场竞争已经逐渐在存量市场中展开,愈发激烈。

有序查询的算法升级和开源,是希望可以给普通的企业也有BAT的数据分析能力,帮助普通企业深度查看用户的行为和转化情况,可以最有效率的评估企业渠道ROI以及企业互联网产品的关键路径。

 

Q7、算法大赛,最后将以什么形式来呈现结果?

郭炜:本次算法大赛分为两组,分别是开源组和商业组。所有提交的方案都必须可行,开源组须公开思路及源代码,商业组只须公开思路。最后的比赛结果,我们也将在1027-28日举行2017易观A10峰会上公布,获胜者将在峰会上分享成果,欢迎大家关注。

 

Q8、参赛者参加比赛将会获得什么回报?

郭炜: 虽然说算法大赛的最终目的是进行行业技术攻坚,但我们还是为参赛选手设置了奖金和荣誉证书。具体情况是:

开源组设置奖金池和排行榜,第1名现金人民币10万(税前)奖励, 前3名将获得易观证书;商业组设置排行榜,前3名获得易观证书。

 

据悉,此次算法大赛的颁奖仪式将于1027易观2017A10大数据应用峰会上进行,作为易观A10峰会的重要环节,OLAP算法大赛优秀案例将有机会在峰会上展示,与国内顶级技术大咖交流切磋。

这次查询算法大赛惊喜频出,特别值得一提的是,在近日开源组的小伙伴用了一个小众开源数据引擎,比主办方提供的60分的benchmark速度快了近10倍!想知道怎么做吗?扫描下方二维码随时关注大赛进程。