DS for Business 这本书！-金吉列留学官网

第一章入门：数据分析思维

在过去15年里，商业基础设施的大量投入带来的结果是，整个企业内部的数据收集变得非常容易。实际上商业活动的每个层面都向数据收集开放，而且已经有相应的数据收集工具：运营、制造业、供应链管理、客户行为、市场推广业绩、工作流程步骤等等。同时，关于外部事件如市场趋势、业界新闻，和竞争对手动态等信息也变得非常容易获得。数据变得广泛可用，如何从数据提取有用信息和知识- 这些数据科学领域内的问题，就受到越来越多的关注。

无所不在的数据机遇

大量的数据变得唾手可得，几乎每个行业的公司都关注如何发掘数据，让公司更加有竞争优势。传统的商业数据处理模式，在大数据面前会力不从心。计算机和网络运算能力的大幅提升，让更广泛和深入了解商业数据成为可能。这就是数据科学和数据挖掘技术深入到商业领域的重要推动力。

数据挖掘广泛用于：

针对性营销
在线广告
推荐搭售

分析客户行为，最大化挖掘客户的价值。金融领域往往会借助数据挖掘进行信用评分和交易分析，以及虚假侦测等。从沃尔玛到亚马逊都在使用数据挖掘技术服务于他们的经营目的。

本书的目的就是，从数据的角度看业务。让您具备数据分析思维能力，进而更好的为商业运营服务。全书会涵盖一些基本数据可续原则，并且会介绍至少一种对应的数据挖掘技术/方法。

两个案例：

1. 弗朗西斯飓风

我们假定在飓风经过的地区，人们会增加对瓶装水的需求。或许这太显而易见了，为什么还要数据挖掘呢？不过，如果仔细研究，我们可以分析数据，来预测具体的需求数量，比如多少瓶，多少件，这样有利于沃尔玛有计划的提供水，有了具体的数量。或许人们对DVD播放器的需求增加了。只有去分析数据，才能看到这些趋势。

纽约时报2004年的研究表明，在飓风到来之前，最畅销的商品竟然是-啤酒。

2. 预测客户流失

假设您负责MegaTelCo公司的数据分析业务。这家公司目前面临的最大问题是，客户在无线上网领域内的不断流失。在亚特兰大中部地区，20%的客户在合同期满之后就离开了，同时公司也很难吸引更多新客户的加入。

第二章商业/业务问题和数据科学解决方案 ...

本章节主要包括两方面内容，第一数据挖掘常见任务；第二数据挖掘的过程
CRISP数据挖掘过程/方法。

首先来看一下数据挖掘的常见任务：

1．分类和类别概率估计，来预测总体中的每个体属于哪个类别。通常这些总体内的类别是独特分类互相排斥的。比如，一家商店的所有顾客中，哪些人会对折扣促销感兴趣。结果有两类人，一类积极反应，另一类置之不理。

具体到数据挖掘，分类任务就是去打造一个模型，来决定新的成员属于哪一类。最接近的两种任务是评分（scoring）和概率估计。

2．回归（’数值估计’）就是去估计和预测每个个体，根据某些变量的数值来估计。具体的问题，比如：多大程度上这个顾客会使用此项服务？回归和分类二者在数据挖掘的时候有关系，但是二者的区别是什么呢？分类只告诉我们是否的问题，而回归则预测多大程度会发生。

3．相似性匹配根据已知数据，来确定相似的个体。这个任务在推荐系统中会用到，比如某甲和某乙都对某种商品有相似的兴趣。

4．聚类，就是物以类聚，人以群分。

5．同时分组（常见项目挖掘，相关规则，市场-篮分析），根据交易记录发现二者之间存在的联系。例如，超市里那些东西经常会一起同时买？聚类关注事物的相似性，而同时分组则关注同时发生了哪些事情，并将他们分为一组。

6．画像（也称行为描述），描述个体，组，和全体最常见的特点。例如，这个客户群标配的手机是哪一款？画像可以针对全体或者具体到客户群或个人。通常可以通过画像建立常模，然后用常模来查找非正常数据。比如，欺诈检测和监控等，通常用于信用卡。

7．联系预测，预测数据直接存在何种联系。并会描述联系有多远或近。比如facebook, linkein 给你推荐的朋友。

8．数据降维- 或者在这里说数据瘦身，不过仍然保留重要的信息。不过这一过程，总是伴随着信息的丢失。

9．因果模型，了解那些事情和行为的确在影响其他事或人。

监督和非监督方法

如果目标明确，标准清楚，那么这样的数据挖掘就是监督型的，而没有目标，只是了解分析数据，则是非监督的方法。

分类，回归和因果模型通常解决问题采用监督的方法。

聚类，同时发生分组和画像则属于非监督的方法。

第二数据挖掘过程

CRISP 过程/方法。基本过程：

了解业务-了解数据-数据准备-建模-评估-实施

第三章预测模型：从相关性到监督划分

前一章节概括讨论了模型和建模。本章将深入数据挖掘的主要课题之一：预测性建模。待更新。

第四章模型数据拟合

第五章过度拟合和如何避免

引言：

数据科学最重要的基本概念之一过度拟合和概化过程。通俗的说，过度拟合就像你让裁缝给你做了一套衣服，太合身了 - 数据模型完美拟合(overfitting)。可惜，这么合身的衣服无法量产，无法适合其他人，或其他人群推广（Generalization）。这么说来，二者是对立存在的。

基本逻辑：从总体获得一些样本数据，这些样本数据按照比例抽取一部分作为训练数据，另一部分用作测试数据（Hol Out Data)。训练数据的目的是为了建模，而测试数据是为了检验模型是否可以推而广之去使用。如果这两个准确性值都很高，那么就可以去应用到其他真实数据集了。过度拟合发生在模型和训练数据，而无法推广generalization 可以通过模型和测试数据来反应。

第六章相似性，相邻，和聚类

DS for Business 这本书！

第二章 商业/业务问题和数据科学解决方案 ...

第三章 预测模型：从相关性到监督划分

第四章 模型数据拟合

第五章 过度拟合和如何避免

第四章 模型数据拟合

相关推荐

第二章商业/业务问题和数据科学解决方案 ...

第三章预测模型：从相关性到监督划分

第四章模型数据拟合

第五章过度拟合和如何避免

第四章模型数据拟合