独家放送:2018易观算法大赛通关秘籍重磅来袭

A10峰会 2018-09-17 10:52:56   530

2018易观 A10峰会将于10月26日-27日在京举行,易观算法大赛也在如火如荼地进行中,本次大赛得到了选手们的踊跃参与。为了给认真准备大赛的选手们减减“压”,今天特地给诸位参赛朋友们发福利啦。易观算法大赛通关秘籍重磅来袭,还不赶紧来领!

 

赛题介绍

 

在了解通关秘籍前,当然要介绍下我们大赛的主角——比赛赛题。本次大赛共设置了两个赛题:漏斗计算和性别年龄预测。


什么是漏斗计算?漏斗计算是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户的转化率情况。漏斗计算目前广泛应用于各行业流量监控、产品目标转化等日常数据运营与数据分析的工作中。

 

例如在一个直播APP中,用户从激活APP开始到花费需要经过激活APP、注册账号、进入直播间、互动留言、礼物花费这5大过程,用户在每一个阶段都会有不同程度的流失,这就是一个漏斗模型。而漏斗计算就是统计分析整个过程中用户的转化率和留存率,从而更直观地发现问题所在,明确优化方向,及时提升产品用户体验。

 

上届算法大赛以“有序漏斗”作为挑战赛题,而今年的赛题相比去年则更具挑战性。在技术层面上,今年的“漏斗计算”在算法上增加了关联属性、虚拟事件、重复事件、转换时间中位数等场景,更贴合实际的业务场景。

 

除了漏斗计算赛题,今年还新增设性别年龄预测赛题。相比广为人知的漏斗计算,性别年龄预测赛题反而得到了更多选手的青睐。原来利用大数据可以预测用户性别和年龄,这简直让人不敢相信!


通关秘籍


说完赛题介绍,接下来进入重头戏部分,本次大赛到底有何通关秘籍呢?

 

秘籍1:开始比赛前,游戏规则你get到了吗?

 

如果想打开算法大赛的晋级大门,那肯定要先读懂本次大赛的游戏规则,即大赛数据。数据是成为优秀技术人才的基础,是机器世界沟通交流的必备语言,是成功开启算法大赛的第一步。关于大赛数据,你读懂了多少呢?


秘籍2:站在风口上,猪都能飞起来

 

我能取得今天的成功都是因为站在了巨人的肩膀上。”上届易观算法大赛冠军的实战分享对你绝对有帮助。他建议选手们要认真研究大赛赛题,注意细节点。此外,在测试数据时选好合适的数据库。ClickHouse数据库就是一个不错的选择,它是目前CPU领域最快的OLAP开源数据库,系统架构非常灵活,性能稳定优越,非常适合大数据下需要极致性能的应用场景。


秘籍3:临时抱佛脚,谁说没有用


算法大赛火热进行中,如何夺冠你想好了吗?在此小编特地采访了易观资深技术专家代立冬老师。


代老师提到,本次比赛添加了模拟实时数据流入部分,建议选手们对这部分数据使用HBase、Kudu等做为实时数据缓存区,比赛前提供的更大量的数据做为历史数据沉浸区。当然数据格式遵循Common Data Model,为了更快速查询,最好在Common Data Model基础上建立相关索引。

 

此外,为实时数据缓存区和历史数据沉浸区建立联合视图,用Presto自定义UDAF查询联合视图,或者利用Spark等技术自定义相同逻辑。


最后,代老师友情提示,去年易观的OLAP算法大赛漏斗代码放在github上,选手们可以参考修改。同时选手们亦可参考去年夺得开源组冠军使用Clickhouse技术的实现(https://github.com/analysys/olap)。

 

总之,对于漏斗计算,选手们需要思考如何通过设计合理的数据存储结构和较好的匹配查询方式得出计算结果。易观方舟在漏斗实践中使用了IOTA架构,关于IOTA架构的更多介绍请参考:Lambda架构已死,去ETL化的IOTA才是未来。也欢迎选手们进入易观“数据工会”群,大家共同交流。


最后,希望以上3个通关秘籍能助你一路狂奔,勇夺算法冠军。未来的算法之星,期待你的精彩表现。10月26日-27日,在易观A10大数据应用峰会上,我们不见不散!

易观算法大赛期待你的参与,详情请前往官网:http://ds.analysys.cn/sf.html


2018易观A10峰会

 

单日票新鲜出炉

26日,旅游、金融、零售行业大咖齐上阵

27日,国际国内技术大牛同台切磋

随心组合

共享年度大数据巅峰盛典

这里,参与优惠活动吧~