0%

企业数据体系建设

数据体系建设是企业的眼睛。当企业规模越来越大时,人的肉眼所能看到的事情是有限的,企业的健康度要通过各种数据彰显出来。

image-20191106115215612

大数据技术是通用的数据能力,它能服务于企业的5个层次:

  • IaaS层:比如机器或容器的CPU使用率、内存使用率、磁盘使用率或IO速度、网络带宽、TCP连接数、重传数、JVM的内存分布和GC活跃度等。
  • PaaS层:我们说程序=数据+算法。代表数据的,有关系型MySQL、缓存KV的Redis、全文检索的ElasticSearch、文件存储S3等。代表算法的,RPC同步通信、MQ异步通信和Nginx的Proxy机制。当然在数据侧,还有辅助两种数据结构做冗余备份的MQ和Jobs,负责两种数据的最终一致性。这些基础的服务,都需要监控TP99和TPS之类的。当然也有专项监控,比如Redis的缓存命中率。
  • SaaS层(中台): 以电商为例,有账户、商品、营销、交易、财务(含支付)、物流、售后、评论等领域建模的中台。在这个层面除了监控系统层面的各个指标,还要监控业务指标和系统间的调用关系。
  • 扩张层(前台业务): 如今企业都通过大中台、小前台的方式,提高敏捷性,既做到复用中台,又能快速响应市场新场景。这个层面也要监控各种业务指标,诸如GMV、订单量和渠道比之类的。
  • 财务层: 商业公司,终归是要回归价值创造的。这些价值最终会体现在财报里面,包括收入、成本、费用、毛利、利润、毛利率、利润率等。

企业数据化的应用场景很多,那如何让通用的数据能力平台能很好的服务于它们呢?需要做到6点要求:

  1. 自助接入:数据的采集埋点、指标设定、结果反馈,都需要做到自助化,不需要跟数据部门打招呼,数据部门应该做到工具化。其中结果反馈,应该尽可能实时化。
  2. 多维透视:一个指标可以按维度拆分,多角度去看。比如网站流量,可以按地域、时间、渠道等多个维度及其组合进行透视。
  3. 可视呈现:为了让人能够更加直观看懂数据,我们往往需要趋势图、立方图、分布图、气泡图、地图等来呈现。
  4. 智能监控:当数据多了的时候,图表虽然直观,但是人类的肉眼已经看不过来了,我们更多需要在数据出问题的时候,能被检测出来,而不是人类肉眼去发现问题。这里面可以用到机器学习或手工预先设置阀值。
  5. 多端触达:当产生一个数据事件时,比如波动太剧烈,会有邮件、短信、内部IM、工单等触达。
  6. 安全审计:数据是企业的一种资产,要合理的使用,防止泄露等,需要做到安全。比如数据加密、数据水印、权限管控和事后审计。甚至包括数据独立机制,以免人为造假。

关于数据给企业带来的价值,我们以DataDriven方法论的鼻祖Google简单说明下:

google-ctr-datadriven

在这个模型里面,当一个“80后,北京的女性”,访问Google时,Google的广告引擎会按CTR排名给出广告,为了让新广告能试探(新广告尚未有CTR历史统计数据),在排名中会有试探特例,上图所示展示ad1,ad2和ad4三个广告。该用户看到广告后,作出的反应是点击了2和4,这个行为被数据系统实时采集并计算,重新计算CTR,其中2和4排名上升,1的排名下降。这样下次再对“80后,北京的其他女性”,就会按新排名出广告。要知道,Google的广告展示了并不收钱,要用户点击了才收钱。所以,数据的价值显而易见。

除了Google,抖音的信息流,本质上也是搜索排序,只不过它是不输入任何关键字的隐形搜索,也是这套数据驱动和智能排序的方法论。谈到抖音,会想起张一鸣的经典名言Develop a company as a product。我们前面说的数据体系建设,都是围绕着事情展开的,实际上,当公司有成千上万人的时候,如何看团队人员的效能,如何帮助大家在这个平台发挥更大价值,是非常需要研究的。比如我们会看人才梯度结构,会看离职率,还会深入一点看不同梯度的离职率。