0%

这是一篇视频AI的科普教程。视频AI有什么用呢?

举个例子,比如用摄像头来看门,通常情况下无人打扰时,摄像头画面是相对静止的,如果突然出现运动的人或物,就会在画面中标记出来或者短信通知工作人员。如下图所示:

image-20190530232600655

本文将用一个Java程序来展示这个功能,并详述其原理,让每个小伙伴们都能入门视频AI。

阅读全文 »

分析一个行业的时候,通常都会借助波特五力图分析框架。结合互联网行业大概从这几个角度:

  • 玩家: 行业内主要玩家?竞争情况和差异化情况?
  • 资本: 每个玩家背后的资本市场?
  • 用户需求: 用户/客户的需求性质和场景。刚需?高频?稠密?标准?
  • 产业链: 产业链上下游的供给结构和谈判能力。
  • 咨询机构: 第三方市场调研机构的分析报告。

用这个分析下即时物流行业。

商业困境

即时配送发源于外卖。从外卖企业自营物流来说,这个商业模式跑通,需要平衡三方利益:

即时物流

阅读全文 »

电子发票样例

一张真实的电子发票(图片来自网络):

image-20190116143656530

从上而下,我们大概可以票面划分4组信息:

  1. 发票标识信息:用来唯一的标记出一张发票的信息。主要包括右上角的“发票代码”和“发票号码”,还有“开票日期”和“校验码”。当然左上角的“二维码”只是“发票代码”等信息的另一种表现形式,其内容是一样的,后文会专门讲解这里的二维码信息。除了唯一性信息外,还有个最重要的就是“防伪安全信息”,右上角的“密码区”一大块密密麻麻的数字和符号串。
  2. 交易双方信息:票面左上角的“购买方”和左下角的“销售方”,交易双方的“纳税人识别号”,这个识别号是企业在注册之初就必须从主管税务部门登记申请的唯一编号。也就是说,任何一个企业都在税务部门开了一个“账户”(可以想象下银行)。
  3. 交易明细信息:中间栏有项目明细,每一项有具体的金额(不含税价)、税率和税额。也就是说,如果一次性购买了多个东西,不同的东西税率可能不一样(比如图书是免税的、粮油类是10%、家电类是16%、香水之类的高达30%),也可以开在同一张票上。但打印时可能空间不够,所以一个票面上最多只能打印8条项目,超过了的可以附一个附件清单,如下图京东商城开具的。最后有一个“价税合计”,也就是大家常说的“含税价”。上图不含税价是286.23元,税率=3%,税额=286.23*3%=8.5869=8.59元,最后含税价=不含税价+税额=286.23+8.59=294.82元。这里顺便说一下,我们国家商场里卖的东西,标价都是含税价,标价100元,消费者只要付100元,但显示在发票里,会按不含税价+税额拆开呈现。而在日本、美国等商场里标价都是不含税价,标价100元,消费者最后要支付100+税额(当然日本对外国游客有退税的优惠政策)。
阅读全文 »

在企业经营活动中,经常需要观察一组数据的分布情况。比如一个视频网站的VV(视频播放量),观察它到底表现出二八原则,还是长尾效应。所谓“二八原则”就是头部几个视频占据了全站80%以上的流量;所谓“长尾效应”就是每个视频的播放量都差不多,甚至都很小,但是许多“蚂蚁视频”聚合起来,播放量就特别大。

从产业链的角度看,一个视频网站,呈现“长尾效应”更能凸显网站的价值,因为这样它对上游的内容供给谈判能力就更强,但同时它对技术的要求就更高,因为每个视频内容都是“小微”,必须通过技术手段才能大规模降低运营成本。相反,如果表现出“二八原则”,也就是“头部效应”显著,这样网站的内容成本会很高,因为相对上游失去了谈判能力;而且这时候内容运营靠技术,不如靠资深专业人士,因为人的手工水平很大程度上优于机器。

举个例子,《延禧攻略》爆款热播剧,一度占据国内各长视频网站的排行第一的流量,而且假设占据全站50%的流量,那么钱基本上都被制片方挣去了,播出方(诸如爱奇艺、腾讯视频、优酷等)付的版权成本很高。但抖音和快手这类短视频UGC网站就不一样了,它们的内容创作相对来说就比较分散,比较草根,这样平台相对内容供给就占据优势地位。

再比如蚂蚁金服,它的贷款客户全是小微,多数人贷款金额就几万元,但是人数很多,必须依靠技术做风险决策,不能像传统银行那样依靠专业人士做尽职调查,必须把每笔贷款的管理成本降到很低。而有些地产商也东施效颦,玩起来互联网金融,但是他们只敢公布贷款金额,不敢公布贷款客户数量,因为他们骨子里依然是传统银行那种做法,给少数大客户贷款,这种模式的创业公司估值会很低。

好了,回到数据分析上来。在统计学里,我们都用什么数学工具,来度量一组数据,到底是偏向“二八原则”,还是偏向“长尾效应”呢?最基础的当然是最大值、最小值、平均值、距和标准方差等。但这些往往不够直观,本文介绍三种方法:

  1. 频率分布: 简单说就是先对这组数据找出最大值和最小值,然后等分(也可以不等分)若干份,或说“段位”,或者有点像社会学里划分个“阶层”的意思,然后统计每个“段位”里数据个数,最终求解每个“段位”的占比。
  2. 头部占比: 简单说就是先对这组数据从大到小排序,然后依次求解Top(i)的累计占比。这里解释下什么叫“累计占比”,比如第1名占比25%,第2名占比18%,第3名占比12%,那么Top(2)累计占比=25%+18%=43%,Top(3)累计占比=Top(2)累计占比+第3名占比=43%+12%=55%。
  3. 基尼系数:简单说就是用来表征“二八原则”的。“二八原则”说的是20%的元素,占据了80%的数值。更一般的说,要提到基尼系数背后的“洛伦茨曲线”,这条曲线就表征了x%的元素占据了y%的数值,然后基尼系数只是在“洛伦茨曲线”上求了面积差。看到这读者会发现,基尼系数跟“头部占比”很相似,的确本质上就是一样的,而且“头部占比”是笔者为了大家更容易理解基尼系数引入的中间阶段,“基尼系数”相对“头部占比”就是在“元素个数”维度“去量纲”了,更具数学价值。当然,还有个不同就是“基尼系数”不是看头部累计占比,而是反过来,看尾部累计占比的。但“头部占比”更具交流价值,因为能理解它的人更多。
阅读全文 »

用户思维是老生常谈的话题。简单说就是站在用户的角度思考问题。但要做到这点是非常难的!因为客观上,用户(服务需求方)和企业(服务提供方)的位置和视角天然就是不同的,以致于企业看到的未必是用户看到的,用户看到的企业却看不到。不信,你瞧这幅漫画:

高清不三不四截图-压缩-宽图

阅读全文 »