1. 为什么需要DS?
随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(ata riven ecision making)。
比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。- 这个叫Preictive Analytics:分析数据来预测未来可能发生的事情。
超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low soium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。- 这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。
超市通过不同的组合和促销手段最大化了自己的利润。-这个叫Prescriptive Analytics – 分析数据来找出最佳措施、取得最优化的结果。
目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如 5%),大部分直接成了垃圾。
但是随着analytics/ata science的迅速发展,前三种场景,正在被逐步被实现。伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkeIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是ata science的产物。
另外,ata science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。只要某个职业的本质上是分析数量较大、不太规整的数据,crunch the numbers to support ecision making,那就是ata science;从事这类工作的人,就是ata scientist,不管你的具体job title是啥。