第一章 入门:数据分析思维
在过去15年里,商业基础设施的大量投入带来的结果是,整个企业内部的数据收集变得非常容易。实际上商业活动的每个层面都向数据收集开放,而且已经有相应的数据收集工具:运营、制造业、供应链管理、客户行为、市场推广业绩、工作流程步骤等等。同时,关于外部事件如市场趋势、业界新闻,和竞争对手动态等信息也变得非常容易获得。数据变得广泛可用,如何从数据提取有用信息和知识- 这些数据科学领域内的问题,就受到越来越多的关注。
无所不在的数据机遇
大量的数据变得唾手可得,几乎每个行业的公司都关注如何发掘数据,让公司更加有竞争优势。传统的商业数据处理模式,在大数据面前会力不从心。计算机和网络运算能力的大幅提升,让更广泛和深入了解商业数据成为可能。这就是数据科学和数据挖掘技术深入到商业领域的重要推动力。
数据挖掘广泛用于:
- 针对性营销
- 在线广告
- 推荐搭售
分析客户行为,最大化挖掘客户的价值。金融领域往往会借助数据挖掘进行信用评分和交易分析,以及虚假侦测等。从沃尔玛到亚马逊都在使用数据挖掘技术服务于他们的经营目的。
本书的目的就是,从数据的角度看业务。让您具备数据分析思维能力,进而更好的为商业运营服务。全书会涵盖一些基本数据可续原则,并且会介绍至少一种对应的数据挖掘技术/方法。
两个案例:
1. 弗朗西斯飓风
我们假定在飓风经过的地区,人们会增加对瓶装水的需求。或许这太显而易见了,为什么还要数据挖掘呢?不过,如果仔细研究,我们可以分析数据,来预测具体的需求数量,比如多少瓶,多少件,这样有利于沃尔玛有计划的提供水,有了具体的数量。或许人们对DVD播放器的需求增加了。只有去分析数据,才能看到这些趋势。
纽约时报2004年的研究表明,在飓风到来之前,最畅销的商品竟然是-啤酒。
2. 预测客户流失
假设您负责MegaTelCo公司的数据分析业务。这家公司目前面临的最大问题是,客户在无线上网领域内的不断流失。在亚特兰大中部地区,20%的客户在合同期满之后就离开了,同时公司也很难吸引更多新客户的加入。
第二章 商业/业务问题和数据科学解决方案 ...
本章节主要包括两方面内容,第一数据挖掘常见任务;第二数据挖掘的过程
CRISP数据挖掘过程/方法。
首先来看一下数据挖掘的常见任务:
1. 分类和类别概率估计,来预测总体中的每个体属于哪个类别。通常这些总体内的类别是独特分类互相排斥的。比如,一家商店的所有顾客中,哪些人会对折扣促销感兴趣。结果有两类人,一类积极反应,另一类置之不理。
具体到数据挖掘,分类任务就是去打造一个模型,来决定新的成员属于哪一类。最接近的两种任务是评分(scoring)和概率估计。
2. 回归(’数值估计’)就是去估计和预测每个个体,根据某些变量的数值来估计。具体的问题,比如:多大程度上这个顾客会使用此项服务?回归和分类二者在数据挖掘的时候有关系,但是二者的区别是什么呢?分类只告诉我们是否的问题,而回归则预测多大程度会发生。
3. 相似性匹配 根据已知数据,来确定相似的个体。这个任务在推荐系统中会用到,比如某甲和某乙都对某种商品有相似的兴趣。
4. 聚类,就是物以类聚,人以群分。
5. 同时分组(常见项目挖掘,相关规则,市场-篮分析),根据交易记录发现二者之间存在的联系。例如,超市里那些东西经常会一起同时买?聚类关注事物的相似性,而同时分组则关注同时发生了哪些事情,并将他们分为一组。
6. 画像(也称行为描述),描述个体,组,和全体最常见的特点。例如,这个客户群标配的手机是哪一款?画像可以针对全体或者具体到客户群或个人。通常可以通过画像建立常模,然后用常模来查找非正常数据。比如,欺诈检测和监控等,通常用于信用卡。
7. 联系预测,预测数据直接存在何种联系。并会描述联系有多远或近。比如facebook, linkein 给你推荐的朋友。
8. 数据降维- 或者在这里说数据瘦身,不过仍然保留重要的信息。不过这一过程,总是伴随着信息的丢失。
9. 因果模型,了解那些事情和行为的确在影响其他事或人。
监督和非监督方法
如果目标明确,标准清楚,那么这样的数据挖掘就是监督型的,而没有目标,只是了解分析数据,则是非监督的方法。
分类,回归和因果模型通常解决问题采用监督的方法。
聚类,同时发生分组和画像则属于非监督的方法。
第二 数据挖掘过程
CRISP 过程/方法 。基本过程:
了解业务-了解数据-数据准备-建模-评估-实施
第三章 预测模型:从相关性到监督划分
前一章节概括讨论了模型和建模。本章将深入数据挖掘的主要课题之一: 预测性建模。待更新。
第四章 模型数据拟合
第五章 过度拟合和如何避免
引言:
数据科学最重要的基本概念之一过度拟合和概化过程。通俗的说,过度拟合就像你让裁缝给你做了一套衣服,太合身了 - 数据模型完美拟合(overfitting)。可惜,这么合身的衣服无法量产,无法适合其他人,或其他人群推广(Generalization)。这么说来,二者是对立存在的。
基本逻辑:从总体获得一些样本数据, 这些样本数据按照比例抽取一部分作为训练数据,另一部分用作测试数据(Hol Out Data)。训练数据的目的是为了建模,而测试数据是为了检验模型是否可以推而广之去使用。如果这两个准确性值都很高,那么就可以去应用到其他真实数据集了。过度拟合发生在模型和训练数据,而无法推广generalization 可以通过模型和测试数据来反应。
第六章 相似性,相邻,和聚类