文章详情

新闻列表

饿了么、美团大数据团队为何自愿加班?原因只有一个!

  • 作者: 303
  • 时间: 2018-04-13 17:21:50
  • 关键词: 美团/饿了么/大数据

饿了么、美团大数据团队为何自愿加班?原因只有一个!

饿了么大数据平台解析

饿了么累计已经为中国近十分之二的人口提供过自家的外卖服务,为300万+的商户创造了可观的收入。预计在2020外卖用户用户规模达到6亿、外卖O2O商户规模达到540万。

数据存储与计算的需求也越来越多样化,同时业务飞速发展,集群的规模也急速扩大。如何在这样的场景下通过大数据平台,稳定支撑住业务的发展是一个不小的挑战。

饿了么的大数据平台团队成立于2015年5月份左右,在16年4月份,Hadoop集群规模还只在100+节点数,而在一年时间里集群规模快速增长到1000+的水平,这还是在引入数据生命周期进行管控的情况下的规模增速;同样,流计算集群的规模虽然相对较小,但也经历了10倍的增长,一些topic的吞吐量已超过百万每秒。

当前平台部分的逻辑架构如图

当初面临的问题

饿了么已经成立9年时间,相对而言数据平台团队非常年轻,在加入团队之初面临了如下挑战:

·人少活多 积累不足

·内在质量 “差不多就行”

·故障处理 “千人千面”

因此,主要以效率、质量和持续扩展为核心来建设数据平台。

技术选型

大数据的技术栈非常多样化,对于团队很多初入大数据领域的成员来说很容易在尝新过程中消耗团队的生产力,因此在加入团队初期,首先就要确定在当时条件下的技术选型。

选型原则

在技术选型方面坚持的原则是“3T”:要解决什么样的问题和场景(Trouble),有哪些技术可供选择(Technology),以及团队技术栈与目标采用技术的匹配程度或者说掌控能力(Team)。

架构设计

技术选型确定了,接下来需要解决在业务急速增长情况下的架构设计问题。理想的架构是系统上线后尽量减少人的参与,通过简单的流程即可应对外部变化,这里通过一个具体案例来表达我们在设计时的关注点。

流入三个源数据流:用户行为、主站订单、以及开放平台订单的订单渠道,进行各种实时指标的计算,其中分渠道订单相关指标的计算和多维度组合下的UV计算场景是比较典型的流计算问题。

稳定性

对于稳定性主要通过事前、事中和事后三个方面来看,即执行计划、故障处理和事后复盘。

工具链

上文提到的技术选型及架构设计和稳定性保障通常依赖于人,我们更希望将人的经验构建在工具中,减少对人的依赖,提升组织的可扩展性。图7为工具链的架构图。

数据表管理

生产数据表是所有数据开发工作的源头,因此我们把生产数据表的创建及维护工作统一收到数据表管理系统中,除了建表的基础功能外,主要关注如下信息

·静态数据

·动态数据

有了这些信息,减少了大量后续维护的工作,降低交互成本。

报表开发平台

报表开发是数据应用非常常见的一个场景,在大数据部门成立初期有大量的报表开发工作需要消耗很多人力,虽然有很多成熟的商业产品,但是大多专注于交互可视化,对于已有系统和基础设施的接入成本很高,因此我们快速开发了报表开发平台(EMA)。

实时开发平台

让开发人员更多关注业务逻辑和架构设计,减少管理层面的投入。

面对如此复杂的技术,是什么支撑着他们每天熬夜完成如此庞大的平台系统?

没错!就是薪资!

现在无论是大型科技企业,还是初创公司都面临一个窘境:大数据人才极度紧缺。根据数据显示,目前全国的大数据人才只有40万,未来3-5年内大数据人才的缺口将高达150万多。大数据行业将面临“全球人才慌”

而市场需求在百万量级。其中,高校领域约 15 万人,产业界约 25 万人,远远不能满足市场对人才的需求。

从目前的人才需求来说,火多久不应该是你关心的,值得你关心的是如何进行,因为如今的社会发展之快速,是你无法想象到的。在n多年前谁能想到如今会有智能手机呢?在今天的你,也很难想象全球数据如此庞大,未来又会有什么新的产物,谁也不知道。但值得相信的就是各大企业都在重视这一部分。

不要让你的犹豫,耽误了你前进的脚步。

市场需求如此多,薪资如此高。小编怎么可能不给大家送资源福利呢!

3节课大数据入门

【责编:执瑞】