资 源 简 介
偏最小二乘法讲解最好的书,理论推导非常仔细,里面还有我自己做的笔记,,值得下载,强烈推荐、国防科技图书出版基金第三属评审委员会组成人员名誉主任要员怀国模主任發只黄宁主任委員殷鹤發商景德陈茅允曾秘书长崔士义于景元王小谟尤子平冯允成(以姓氏笔划为序)刘仁朱森元朵英贤宋家树杨星豪吴有生何庆芝何国节何新黄张立同张汝果张均或张涵信陈火范学虹柯有安侯正明莫梧生崔尔杰序言现代统计的发展离不开数学;但是统计思想不会从数学中自然产生。只有实际应用的需要才是产生新统计思想的原动力。偏最小二乘回归( partial least-squares regression)方法的产生也不例外。偏最小二乘回归方法是近年来应实际需要而产生和发展的个有广泛适用性的多元统计分析方法。在常见的多因变量对多自变量的回归建模中,特别是在观察值数量少以及存在多就相关性等间题时,该方法具有传统的回归方法所不具备的许多优点。它意义明确,计算简单、省时,蕉模效果好,解释性强。其应用范围远远超过工程技术及经济管理等领域。同时,它也为统计理论工作者提出了一些启发性和挑战性的新课题。本书是国内第一本全面阐述偏最小二乘回归理论、方法和应用的独具特色的论著。该书文字流畅内容由浅入深清晰易懂,可为各有关学科的本科生、研究生和实际工作者所用。偏最小乘回归最先产生于化学领域。在利用分光来预测化学样本的组成时,作为解秤变量的红外区反射光谱的波长常有几百个,往往超过化学样本的个数;所造成的多重相关性使得人们很难利用传统的最小二乘法。基于这个应用的要,S.Wod和C. albans在1983年首先提出了偏最小二乘回归方法通常,为绕过此类同题,人们往往仅选用少数解释变量;然面,这必然造成信的损失和难以估计预测精度的问魎。两个最常用的对付这类间题的传统方法为主成分回归( principal component regression)和岭回归( ridge regression)。当解释变量数目很大时,这两种方法要求的计算量都很大岭回归还有估计岭参数的间题;而主成分回归有如何决定哪些主成分要删去的问题。偏最小二乘呵归以类似于主成分呵归的方式克服共线性的问题。不同的是,它不仅吸取了主成分回归中从解释变量提取倍息的思路,同时还注意了主成分回归中所忽略的自变量对因变量的解释问题。例如在上面化学例子的建模中,偏最小二乘回归把化学和光谱两方面的数据都看成为些隐藏变量的函数,并以此为基础考虑如何提取最有解释性、同时又尽可能包含最大信息的成分。研究表明,偏最小二乘回归可以在比主成分回归少用因子的情况下达到最小的均方误差。其特有的选择因于的方式与主成分回归避然不同;而其订算量比主成分回归和岭回归都小。本书包括了作者的许多新思想和新方法。王惠文教授对许多偏最小二乘回归的统计概念做出了简明的解释。她们在研究中所提出的偏最小二乘回归的简化算法不仅大大改进了原有算法,同时也揭示了偏最小二乘回归的更深一层的性质。王惠文教授关于信息综合与筛选的分析以及相关例子的论述是独特的,揭示了偏最小二乘回归在多重相关条件下建模的机理,同时也展示了这一新型多元分析方法应用范的广泛性用非数学语言描述许多统计向题往往比单纯利用数学语言要因难得多。本书利用通俗易懂的统计语言而不是遵循纯粹数学推导的叙述模式,表现了作者对所涉及问题的深刻理解。本书内容的选取和组织体现了作者的持续创新精神和很强的应用意识,再现了一个统计新思想发展的典型模式。愿读者能从本书中不仅收获到鱼,而且学会如何捕鱼。在工程技术与经济管理的分析、预测研究中,多元线性画归分析是一种很常用的技术方法,然而其应用却受到许多限制。1983年由S.Wold和C、 Albano等人首次提出了偏最小二乘回归方法( partial least squares regressior),较好地解决了许多以往用普通多元线性回归难以解决的间题。(1)偏最小二乘回归提供了一种多因变量对多自变量的回归建模方法特别当变量之间存在高度相关性时,用偏最小二乘回归进行建模,其分析结论更加可靠,整体性更强。(2)偏最小二乘回归可以有效地解决变量之间的多重相关性问题,适合在样本容量小于变量个数的情况下进行回归建模。在多元线性回归的应用中,变量之间多重相关性的危害非常严重,但其存在却又十分普邀。事实上,许多技术、经济、社会指标郁存在同步增长的趋势在回归分析中,这种变量多重相关性常会严重危害参数估计,扩大模型误差,并砹坏模型的稳健性。偏最小乘回归采用对教据信息进行分解和师选的方式,有效地提取对系统解释性最强的综合变量删除多重相关信息和无解释意义信息的干扰,从而克服了变量多重相关性在系统建模中的不良作用。另一个在使用普通多元回归经常受到的限剝,是样本点数量不宜太少。然面,在一些工程试验中,常常会有许多必须考虑的重要变量,但由于经费时间等条件的限制,所能得到的样本点个数却小于变量的个数。这是普通多元回归不能解决的问题。而采用偏最小二乘回归方法也可以得到较好的解决。(3)偏最小二乘回归可以实现多种多元统计分析方法的综合应用。偏最小二乘回归可以将建模类塑的预测分析方法与非棋型式的教据内测分析方法有机地结合起来。在一个算法下,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关分析(典型相关分析)这给多维复杂系统的分析带来极大的便利,是多元数据分析中一个飞跃式的进展。此外,由于偏最小二乘回归在建模的同时实现了数据结将的筒化因此可以在二维平面图上对多继数据的特性进行观察,这使得偏最小二柔回归分析的面形功能十分强大,更利于工程人员的分析应用。本书本着从实用出发的原则,采用理论与实践相结合的方法重点介绍了偏最小二乘回归方法的基本功能、思据方法、应用技巧、偏最小二乘回归与其他多元分析方法的联系,以及它在SIMCA-P软件支持下的众多图示功,使这一新型的回归方法成为工程技术人员和经济管理工作者够熟禁掌据的实用工具。在与本书相关的研究工作中,曾受到国家自然科学基金项目编号79570002)航空基础科学基金项目〔编号96J51124)以及法国高等商业教育组织(HEC)的基金资助。国家自然科学基金委员会管理科学部的成思危主住对我们的研究内容给予了十分详细具体的指导,他提出关于偏最小二乘回归的最优子空间分析,为项目研究的深人发展指出了重要方向。本书的出版有幸获得国防科工委国防科技图书出版基金的资助,并承蒙评审委员会对本书的写作计划和一部分初稿提出十分重要的難议。作者借此机会,向他们表示衷心的感谢作者在偏最小二乘回归理论及应用的研兖中,一直得到M. Tenenhaus教授的热情带助。多乍来,他全力为我们的研究工作提供大量的前沿资料。1996年作者应邀在法国高等商业教育组织工作期间,又得到 Tenenhaus教授的许多具体指导。朱韵华、杨湘龙、哈保莹为本书的研究和写作做了许多工作,本书中包含着我们共同工作的成果。朱韵华在其碱士论文中首次提出了偏最小二维回归简化算法的基本思路;杨湘龙同学负责完成了本书第二、三X两章的案例计算工作;前本书第五章的第五节则全文摘自哈保莹、杨湘龙同学的科研报告。南开大学的吴喜之教授非常鼓励和支持我们的研究工作,他和周燕同学为本书审阅了部分章节内容,并提出了许多很有价值的建议。是喜之教授还在百忙之中欣然为本书作序。北京大学射耿直教授和原中国航空工业总公司科技委的王道荫研究员对本书的写作和出版给于十分重要的支持。在本书出版之际,作者愿向他们表示最诚挚的谢意作者还要特别感谢国防工业出版社的同起们为本书出版所付出的心血,没有他们的帮助以及细致严谨的工作,本书是不会以这样的形式面世的由于作者的水平有限,书中难免存在缺点和错误,敬谢读者批评指正。作者1998年4月目录第一章绪论■量■■1.1引亩1.2数据表的基本知识■画◆●中+山■中由■国■■一個昌1.2.1样本点空间中唱自『■■曾■■■督斷■■■■■1.2.2变量空间日昌日鲁b日中昌中甲自自即曾曾冒即冒即·■口■口■■十■■口口日甲↓孕中鲁卓电中卓咖P昏q1156781,2.3数据的标准化处理音口會■■·■血『导血阜鲁唱章中鲁噜■●第二章一元线性回归分析噜嚼·即甲『■■■■曾■昏■曾昏■昏一昏■■·■■福聊晶■d聊聊如·血■西122.1一元线性回归模型晋口■口日·■■甲■旱引旱●ψ如4中啁白号鲁山■■昏■中■■一■2.1.1回归分析所研究的间题…2。12一元线性回妇的总体模型2.2最小二乘估计方法2.2.1最小二飛估计方法的推导■·b●b【bψ自白■备自山烟□甲■■■烟口晶甲甲22.2高斯一马尔科夫定理■■■■國2.2.3其他性质242.3拟合效果分析52.3.1残差的样本方差………26232测定系数■一·會■·动即·282.4显著性检验鲁中◆中山冒■冒曾■■目■口·甲1甲鲁鲁自曹自中中昏自咱■322.4.1回归棋型的线性关系检验3224.2回归参数的显着性检验日暑日鲁日日曲↓●唱■●即一卧卧■斷■西■晶口4甲362,4,3残差分析●p●b●山电d〓■■画■口■39第三章多元线性归分析…………,,…,….423.1多元线性回归模型罾嘲鲁■罾号■■■卾■■■■画晶西昏昌血画●口423.1.1高斯一马尔科夫假定·…t"s42312最小二柔估计量““43X,1,3最小二乘估计量的几何意义上申。453.2模型效果分析453.2.1残差的样本方差453.2.2复测定系数463.2.3抽样测试法…■■v■■■■■■■個曾■t■t一■幽■■T■■■口53.2,4F检验学■日■■會斷■會■音·自早■冒■■日斷■·會■幽P會■■■會■·■曾■中音■日曾■■會■會■音曾■■口■325回归参数的显著性控验…523.3偏相关系数………“……………*533.3.1恼相关系数的定义543.32惭相关系数的枪验5634变量筛选方法5734,1F检验…573.4.2向前选择变量法↓_甲↓督『b■■十個十會T冒曾甲甲583.4.3向后删除变量法……………………………*……………5934.4逐步回归法…59算四章多相关性问题…………………………674.1多重相关性的含义血日■■早西号■■■■■当■■早罩■■早■西早旱■■a674.2多重相关性的危客….41204.3多章相关性的诊断…■ψ鲁自■■昏784.3.1经验式诊断方法…………M"44784.3.2方老影账因子814.4岭回归分析中中中自辛■甲■罾■4.4.1岭回归估计量…………824.4.2齡回归估计量的性质844.5其他补敦方法简介晶·气冒·电ψ·咖88第五章衰内成分的提取方法—主成分分折…44+*e915.1工作目标与计算方法915.1.主成分分析的工作日标·…9151.2挺取主成分的基本思路……會鲁『中會ψ■鲁中■曾鲁■申島即幽?1935.1.3计算方法音■甲■血會中喟個鲁鲁■幽■甲肀會噜ψ咱自屮ψ·中甲鲁自曾斗血自中曾中鲁鲁鲁曾自唱自自中中鲁国中督9451,4主成分的基本性质…*"95.2主成分分析的五个侧面…………………99