DS for Business 这本书!
首页 > 顾问主页 > DS for Business 这本书!

DS for Business 这本书!

2019-07-22...

阅读:115 收藏:0 评论:0 点赞:0

3秒免费留学费用评估

提前算一算,出国留学要花多少钱?

获取验证码

开始计算

总评: 2013年由O'Reilly 出版的这本书获得了一些好评: SAP全球副总裁说:“任何一位想要真正要迎接大数据机遇的人士,这是一本必读书目” 其他企业商业分析部门、统计部门、数据科学小组等部门负责人的评述略。 作者: Foster Provost 是美国纽约大学斯特恩商学院数据科学,信息系统等专业的教授 Foster Provost, 匹兹堡大学计算机科学硕士、博士。

第一章 入门:数据分析思维

在过去15年里,商业基础设施的大量投入带来的结果是,整个企业内部的数据收集变得非常容易。实际上商业活动的每个层面都向数据收集开放,而且已经有相应的数据收集工具:运营、制造业、供应链管理、客户行为、市场推广业绩、工作流程步骤等等。同时,关于外部事件如市场趋势、业界新闻,和竞争对手动态等信息也变得非常容易获得。数据变得广泛可用,如何从数据提取有用信息和知识- 这些数据科学领域内的问题,就受到越来越多的关注。

无所不在的数据机遇

大量的数据变得唾手可得,几乎每个行业的公司都关注如何发掘数据,让公司更加有竞争优势。传统的商业数据处理模式,在大数据面前会力不从心。计算机和网络运算能力的大幅提升,让更广泛和深入了解商业数据成为可能。这就是数据科学和数据挖掘技术深入到商业领域的重要推动力。

数据挖掘广泛用于:

  • 针对性营销
  • 在线广告
  • 推荐搭售

分析客户行为,最大化挖掘客户的价值。金融领域往往会借助数据挖掘进行信用评分和交易分析,以及虚假侦测等。从沃尔玛到亚马逊都在使用数据挖掘技术服务于他们的经营目的。

本书的目的就是,从数据的角度看业务。让您具备数据分析思维能力,进而更好的为商业运营服务。全书会涵盖一些基本数据可续原则,并且会介绍至少一种对应的数据挖掘技术/方法。

两个案例:

1. 弗朗西斯飓风

我们假定在飓风经过的地区,人们会增加对瓶装水的需求。或许这太显而易见了,为什么还要数据挖掘呢?不过,如果仔细研究,我们可以分析数据,来预测具体的需求数量,比如多少瓶,多少件,这样有利于沃尔玛有计划的提供水,有了具体的数量。或许人们对DVD播放器的需求增加了。只有去分析数据,才能看到这些趋势。

纽约时报2004年的研究表明,在飓风到来之前,最畅销的商品竟然是-啤酒。

2. 预测客户流失

假设您负责MegaTelCo公司的数据分析业务。这家公司目前面临的最大问题是,客户在无线上网领域内的不断流失。在亚特兰大中部地区,20%的客户在合同期满之后就离开了,同时公司也很难吸引更多新客户的加入。

第二章 商业/业务问题和数据科学解决方案 ...

本章节主要包括两方面内容,第一数据挖掘常见任务;第二数据挖掘的过程
CRISP数据挖掘过程/方法。

首先来看一下数据挖掘的常见任务:

1. 分类和类别概率估计,来预测总体中的每个体属于哪个类别。通常这些总体内的类别是独特分类互相排斥的。比如,一家商店的所有顾客中,哪些人会对折扣促销感兴趣。结果有两类人,一类积极反应,另一类置之不理。

具体到数据挖掘,分类任务就是去打造一个模型,来决定新的成员属于哪一类。最接近的两种任务是评分(scoring)和概率估计。

2. 回归(’数值估计’)就是去估计和预测每个个体,根据某些变量的数值来估计。具体的问题,比如:多大程度上这个顾客会使用此项服务?回归和分类二者在数据挖掘的时候有关系,但是二者的区别是什么呢?分类只告诉我们是否的问题,而回归则预测多大程度会发生。

3. 相似性匹配 根据已知数据,来确定相似的个体。这个任务在推荐系统中会用到,比如某甲和某乙都对某种商品有相似的兴趣。

4. 聚类,就是物以类聚,人以群分。

5. 同时分组(常见项目挖掘,相关规则,市场-篮分析),根据交易记录发现二者之间存在的联系。例如,超市里那些东西经常会一起同时买?聚类关注事物的相似性,而同时分组则关注同时发生了哪些事情,并将他们分为一组。

6. 画像(也称行为描述),描述个体,组,和全体最常见的特点。例如,这个客户群标配的手机是哪一款?画像可以针对全体或者具体到客户群或个人。通常可以通过画像建立常模,然后用常模来查找非正常数据。比如,欺诈检测和监控等,通常用于信用卡。

7. 联系预测,预测数据直接存在何种联系。并会描述联系有多远或近。比如facebook, linkein 给你推荐的朋友。

8. 数据降维- 或者在这里说数据瘦身,不过仍然保留重要的信息。不过这一过程,总是伴随着信息的丢失。

9. 因果模型,了解那些事情和行为的确在影响其他事或人。

监督和非监督方法

如果目标明确,标准清楚,那么这样的数据挖掘就是监督型的,而没有目标,只是了解分析数据,则是非监督的方法。

分类,回归和因果模型通常解决问题采用监督的方法。

聚类,同时发生分组和画像则属于非监督的方法。

第二 数据挖掘过程

CRISP 过程/方法 。基本过程:

了解业务-了解数据-数据准备-建模-评估-实施

第三章 预测模型:从相关性到监督划分

前一章节概括讨论了模型和建模。本章将深入数据挖掘的主要课题之一: 预测性建模。待更新。

第四章 模型数据拟合

第五章 过度拟合和如何避免

引言:

数据科学最重要的基本概念之一过度拟合和概化过程。通俗的说,过度拟合就像你让裁缝给你做了一套衣服,太合身了 - 数据模型完美拟合(overfitting)。可惜,这么合身的衣服无法量产,无法适合其他人,或其他人群推广(Generalization)。这么说来,二者是对立存在的。

基本逻辑:从总体获得一些样本数据, 这些样本数据按照比例抽取一部分作为训练数据,另一部分用作测试数据(Hol Out Data)。训练数据的目的是为了建模,而测试数据是为了检验模型是否可以推而广之去使用。如果这两个准确性值都很高,那么就可以去应用到其他真实数据集了。过度拟合发生在模型和训练数据,而无法推广generalization 可以通过模型和测试数据来反应。

第六章 相似性,相邻,和聚类

第四章 模型数据拟合

如果此文章对您有所帮助,是对我们最大的鼓励。对此文章以及任何留学相关问题有什么疑问可以点击下侧咨询栏询问专业的留学顾问,愿金吉列留学成为您首选咨询服务机构。
分享到
去主页浏览TA的更多精彩内容 >>
上一篇文章: 美国留学BA和DS专业有什么不同?
下一篇文章: 除了通过学校官网,竟然还能这样了解自己的梦校
相关推荐
免费领取留学手册
获取验证码
我已阅读并同意《隐私保护协议》
申请领取
温馨提示
我已阅读并同意《隐私保护协议》
确定
温馨提示
确定