资 源 简 介
IBM+SPSS数据分析与挖掘实战案例精粹 PDF版本 本书以 IBM SPSS MODELER 为工具,提供了医疗、金融、保险、汽车、互联网等多个行业的数据分析/数据挖掘案例分析IBM SPSS数据分析与挖掘实战案例精粹张文彤钟云飞编著清华大学出版社北京内容简介全书以 IBM SPSS Statistics20.0和 IBM SPSS Modeler 14l为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的局限,真正聚集于对数据分析精髓的领悟。本书所附光盘包括案例数捃和分析程序流文件,读者可完整重现全部的分析内容。本书适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员:在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:0106278298913701121933图书在版编目(c|P)数据IBM SPSS数据分析与挖掘实战案例精粹张文彤,钟云飞编著.一北京:清华大学出版社,2013ISBN9787-302-299547I.①…Ⅲ.①张…②钟…Ⅲ.①统计分析一软件包Ⅳ.①C819中国版本图书馆CIP数据核字(2012)第209359号责任编辑:李玉萍桑任松封面设计:杨玉兰责任校对:周剑云责任印制;沈露出版发行:清华大学出版社paytle:http://www.tup.comcn,http://www.wcbook.com地址:北京清华大学学研大厦A座邮编;100084杜总机:010-62770175邮购:010-6278654投稿与读者服务:010-62776969,service@tup.tsinghua,edu.cn质量反馈:01062772015, shiliang tup, tsinghua.edu.cn课件下载http://www.tup.comcn,010-62791865印装者:北京市清华园胶印厂经销:全国新华书店开本:185mm×260mm印张:32.25字数:783千字(附DVD1张)版次:2013年2月第1版印次:2013年2月第1次印刷印数:1~4000定价:64.00元产品编号:04454901前言所谓芝术,就是指如果只靠系统地学习既有知识体系,但自身不具备相当的天赋,或者没有经过长期实践以积累经验和激发灵感,始终难以登堂入室成为大师的那些学科;音乐、舞蹈、绘画等就是如此。大英百科全书就把统计学定义为:一门收集数据、分析数据,并根据数据进行推断的艺术和科学。显然,作为一门应用学科,统计学非常强调实战能力。名出色的统计师需要通过经历各种各样的实战分析项目来吸取经验、教训以便持续成长。光靠操作教科书上那些标准案例,他只能成为工匠,而不能成为大师。近年来,随着计算机技术的飞速发展,统计工具出现了日新月异的变化,大大提高了其可用性。统计学和数据库技术、人工智能技术的融合,更是进一步催生了数据挖掘这个目前炙手可热,也更强调实战能力的领域。具体到SPS系列产品,随着IBM的并购,原先的SPsS软件已经成为 IBM SPSS Statistics,它定位于标准的统计分析需求,而更贴近企业用户的数据分析与挖掘的需求则由 IBM SPSS Modeler来满足。分析工具的高度易用性和实战需求的同步发展,使得各行各业对统计分析和数据挖掘人员的需求呈现爆炸性增长,远远超过了正常培养周期能够提供的数量,而广大统计分析人员也迫切希望能够得到的是一本讲解提高实战操作技能的书,而不是单纯以介绍某一种统计软件为目的的参考书,以便帮助自己迅速提升实战能力。因此,笔者便有了编写这样一本书的打算笔者先后于2000年、2002年和2004年编写过三轮SPSS教程/参考书,均获得了读者的好评。作为在数据分析领域从业十余年的统计专业人员,本书的作者深知在漫长的经验积累阶段所需要付出的努力和汗水,更能体会到编写一本实战案例书的市场价值。虽然作者从业以来经手的分析案例有上千个,但很多优秀案例都因涉及相应公司的业务机密而无法和读者分享。而且案例的复杂程度和代表性也颇费思量,过于复杂会牵扯太多的具体业务细节,影响案例的可读性,而案例过于简单,则无法展示实战分析中可能遇到的各种情况,参考价值不大。在反复讨论之后,笔者最终决定编写此书,因为这件事情有利于推动数据分析行业的发展,非常值得去做。本书定位为实战类书籍,分为4个部分,共20章(不包括附录部分),以 IBM SPSSStatistics20.0和 IBM SPSS Modeler14.1为准,完全从实际案例的分析需求出发,讲解各类方法的综合运用和实战操作,本书的具体特点如下。行业实战:以案例集的方式提供医疗、电信、金融、零售、市场研究等行业的真实案例,完全从实际项目的分析需求出发,讲解各类方法的综合运用,使本书更贴近数据分析实战,更具参考价值。IBM SPSS数据分析与挖掘实战案例精粹■内容全面:同样是从实战需求出发,不再拘泥于常规统计方法,也不再拘泥于IBMSPSS Statistics个软件,而是基于实际应用的需求,随时使用各种SPSS软件中的新功能、新技巧,必要时进一步引入 Modeler来解决各种数据挖掘的具体应用,从而在实际案例的背景下,使读者充分了解 IBM SPSS系列产品的强大功能。易学易用:以实用性为唯一标准,结合笔者多年的统计教学经验和现在的商业应用经验,重点讲解实战分析应用,案例的安排顺序从简到繁,将软件操作的讲解自然融入案例分析过程中,使读者的学习过程更加自然流畅。案例重现:本书附带光盘中包含书中涉及的完整案例数据、案例实现程序和Modeler数据流,并提供 IBM SPSS Statistics和 IBM SPSS Modeler试用软件的下载网址,读者可以在学习时利用试用软件同步完整重现所有的分析过程和结果,彻底避免纸上谈兵的尴尬。对不同的读者群,他们可以从书中学到以下知识和技能■软件入门:对 IBM SPSS Statistics和 IBM SPSS Modeler新用户而言,本书显然是最佳的学习软件操作和实战技能的教科书。本书采用相应软件的较新版本,就统计分析和数据挖掘项目中的一些典型案例进行了深入浅出的介绍,读者只需要按照讲解顺序操作,就可以真正掌握相应的数据分析实战操作技能。■技能提升:对已经熟悉相应SPSS系列产品如何使用的老用户而言,本书则是读者渴望多年的专家教程。笔者在案例中真正展示的并非简单的软件操作,而是完整的统计思维和实战分析思路,已有数据分析基础的读者通过对这些案例的学习,能够更快地跨越从理论到实战的鸿沟,从而使自身对软件工具的掌握和实战操作能力都得到真正的提升。触类旁通:对资深的统计分析和数据挖掘人员而言,其对分析工具的应用早已超越了个别产品的层面,达到“不滞于物,草木竹石皆可为剑”的地步,但本书仍然具有很高的参考价值,因为软件仅仅是实现工具,其背后的统计思维、统计方法、基本原则等完全相同,但不同的人在面对相同问题时所采用的分析流程、处理方法等各有千秋,通过对书中案例的学习、参照和比较,分析人员能够举一反三,从而真正对实战操作达到“悟”的境界。本书第1章由张文彤和钟云飞共同编写,第5章和第17~20章由钟云飞编写,第4章和第16章由王清华编写,其余各章由张文彤编写。作者新浪微博:@文彤老师、@数里寻道、@ Allanvv。读者交流微群;htp:/weibo.com/749521。软件试用版下载:htp/ peIxun pInggu. org/SPSSCaseBookDVD zip。本书案例数据、内容更新下载:htp:/www.Statstar.com。前言在本书的写作、出版、发行过程中,我们得到了IBM大中华区业务分析软件总经理缪可延、IBM大中华区业务分析软件技术经理周庆伟、IBM大中华区商业智能及预测分析软件销售经理刘海亮、IBM华西区市场经理邓宏等多位IBM领导与同事的鼓励、帮助与支持,人大经济论坛则为本书提供了试用软件的下载空间,这里一并表示由衷的感谢。希望本书能够帮助读者更加深入地了解数据分析,进一步促进数据分析在国内的普及。也希望广大读者踊跃提出自己的宝贵意见和建议,使本书再版时能够更加完善。编者目录第一部分SPSS数据分析基础第1章数据分析方法论简介23.2单变量假设检验方法2623.3双变量假设检验方法……281.1三种数据分析方法论…324多变量模型.....…3111.1严格设计支持下的统计24.1方差分析/一般线性模型…方法论24,2广义线性模型和混合线性11.2半试验研究支持下的统计模型.32方法论…4243回归模型34L.1.3偏智能化、自动化分析的244其他常见模型.136数据挖掘应用方法论…52.5多元统计分析模型…381.2 CRISP-DM方法论介绍6251信息浓缩…13812.1概述,252变量间内在关联结构的122商业理解探讨381.23数据理解…253数据分类…391.24数据准备254分析元素间的关联125建立模型.2.6智能统计分析/数据挖掘方法……421.2.6模型评价….2.6.1树模型….421.2.7结果部署.…102.6.2神经网络…43第2章数据分析方法体系简介1126.3支持向量机43264贝叶斯网络4421统计软件中的数据存储格式…265最近邻元素分析……442.1.1二维数据表2.6.6关联规则与序列分析,……42.1.2变量的存储类型213变量的测量尺度第3章 BM SPSS Statistics操作入门…4622数据的统计描述与参数估计13221连续变量的统计描述.……,1331案例背景…中和书中:丰222连续变量的参数估计…1632数据文什的读入与变量整理…47223分类变量的统计描述和参数3.2.1SPSS的基本操作界面…47估计…183.2.2数据准备…49224统计图形体系……2133问卷数据分析…15323常用假设检验方法.243.3.1生成频数表…5323l假设检验的基本原理.2533.2计算均值BM SPSS数据分析与挖掘实战案例精粹333对多选题进行描述5552 IBM SPSS Modeler相关操作34项目总结和讨论…与技巧77第4章 IBM SPSS Statistics操作521 IBM SPSS Modeler的基本进阶,…57操作…++t甘 t c.""?--522 IBM SPSS Modeler中的4案例背景.7表达式…79项目背景…575.23 IBM SPSS Modeler的若干4.1.2分析思路使用技巧.…中使794.2问卷录入5953 IBM SPSS Modeler功能介绍814.2.1开放题的定义,4.2.2单选题的定义,……60531数据整理案例…814.2.3多选题的定义.…6053,2探索性数据分析案例…18243问卷质量校验……….625.3建立模型、模型检验与模型43.1去除重复记录62应用案例834.3.2发现异常值……6454案例分析:药物选择决策支持864.33逻辑校验……….65541背景介绍.…186444问卷数据分析…….67542数据说明…8644.1问卷加权….167543商业理解…8744.2业务分析.10544数据理解874.5项目总结和讨论545数据准备…第5章| BM SPSS Modeler操作入门…73546模型建立和评估…547模型发布…51 IBM SPSS Modeler概述7355如何进一步学习 IBM SPSS51.1 IBM SPSS Modeler的界面….73Modeler......4....9351.2 IBM SPSS Modeler的架构与产品构成日;和和和·:a;a76第二¨部分影响因素发现与数值预测第6章酸奶饮料新产品口味测试623均值的图形描述.101研究案例和和甲和平+出和世“丰和中中!63不同品牌的评分差异分析…10261案例背景97631单因素方差分析模型简介…10361.1研究项目概况63,2品牌作用的总体检验1046.1.2分析思路与商业理解633组间两两比较……10562数据理解.m目目634方差齐性检验62.1研究设计框架复查.…9864两因素方差分析模型分析108622均值的列表描述9964.l两因素方差分析模型简介…109Ⅵ目录642拟合包括交互项的饱83.3模型拟合效果的判断……146和模型11083.4存储预测值和区间估计值148643拟合只包含主效应的模型.11184曲线拟合…1148644组间两两比较………12841用曲线估计过程同时拟合64.5随机因素分析……114多个曲线模型…1496.5分析结论与讨论tmtt都tt道l1684.2模型拟合效果的判断,…1516.51分析结论…11684.3模型的预测652 Benchmark:用还是不用…1168.5利用非线性回归进行拟合l54第7章偏态分布的激素水平影响8.5.1模型简介154因素分析…………118852构建分段回归模型155853不同模型效果的比较…15771案例背景.…11886项目总结与讨论1587.11研究项目概况……118861分析结论…1587.1.2分析思路与商业理解119862行走在理想与现实之间…15872数据理解…-11197.2.1单变量描述第9章脑外伤急救后迟发性颅脑损伤7.22变量关联探索…影响因素分析案例167.3对因变量变换后的建模分析……1791案例背景…1607.3.1常见的变量变换方法……12791.1研究项目概况……l607.32本案例的具体操作91.2分析思路和商业理解16l74秩变换分析……1319.2数据理解…16175利用Cox模型进行分析……132921变量关联的图表描述…1617.5.1Cαx回归模型的基本原理13392.2变量关联的单变量检验曾虚1647.52本案例的具体操作……13493构建二分类 Logistic回归模型…16776项目总结与讨论……136931模型简介……16776.1分析结论…136932初步尝试建模169762如何正确选择分析模型…136933构建最终模型……17494利用树模型发现交互项……175第8章某车企汽车年销量预测案例…13894]模型简介……17681案例背景1389.4.2进行树模型分析1788.11研究项目概况…13895使用广义线性过程进行分析…1818.12分析思路和商业理解1399.5.1模型简介…….18182数据理解…9.52构建仅包括主效应的模型…18283变量变换后的线性回归…1429.5.3在模型中加入交互项…1858.3.1线性回归模型简介…14296项目总结与讨论186832变量变换后拟合线性回归961分析结论186模型….143962尺有所短,寸有所长…187