资 源 简 介
国内第一本信息几何书籍,详细介绍了信息几何的入门知识信息几何导引An Elementary Introduction to Information Geometry孙华飞张真宁彭林玉段晓敏著钭学出版社北京内容简介本书简要介绍经典信息几何与矩阵信息几何的基本内容及其应用.全书共八章:第1章概述信息的发展历史;第2章简要介绍作为信息几何理论基础的微分几何的基本内容,没有涉及太多复杂的定义;第3章介绍经典信息的基本内容;第4章介绍矩阵信息几何,着重介绍相关的李群、李代数以及一般线性群的重要子群和子流形的性质,而且介绍各种流形上的自然梯度算法;第5~7章介绍经典信息几何的应用;第8章介绍矩阵信息几何的应用本书可供从事数学、信息科学研究的研究生以及教师参考使用图书在版编目(c|P)数据信息几何导引/孙华飞等著.一北京:科学出版社,2016.3ISBN978-7-03-047435-3L①信…Ⅱ①孙…Ⅲ①微分几何Ⅳ.①O186.1中国版本图书馆CIP数据核字(2016)第046244号责任编辑:李欣/责任校对:钟洋责任印制:张倩/封面设计:陈敬磷馨幽出版北京东黄城根北街16号邮政编码:100717http://www.sciencep.com三河市印剥有限公司印刷科学出版社发行各地新华书店经销2016年3月第一版开本:720×10001/162016年3月第一次印刷印张:10字数:194000定价:58.00元(如有印装质量问题,我社负责调换)前言近年来,信息几何在统计推断、神经网络、随机分布控制、信息理论、密码学、物理学和医学成像等领域得到广泛应用,引起越来越多人的关注经典信息几何在处理随机的非线性问题时已经获得了很大的成功,成为解决信息领域中各种问题的重要工具之一.最近,矩阵信息几何的诞生极大地丰富了信息几何的内容,其中李群理论发挥了重要的作用.信息几何的理论基础是现代的微分几何理论,涉及诸多深刻的数学分支.我们撰写本书的宗旨是希望有更多人来关注信息几何,希望利用它来有效地解决信息领域的问题,诸如信号处理、图像处理、系统的稳定性与最优控制、流形上的优化等问题.同时,我们也期待人们能够将纤维丛、代数拓扑等深刻的数学理论引入到信息几何研究中来,给信息几何的发展带来新的方法,为信息几何的应用提供强有力的工具.本书分以下几个部分:首先概述信息几何的内容,然后介绍微分几何的基本内容,接下来介绍经典信息几何和矩阵信息几何的内容,最后介绍信息几何理论的一些应用.本书并不追求严格的数学定义,也没有概括信息几何的全貌,有兴趣的读者可以阅读各章所附的参考文献.建议侧重于应用研究的读者可以不必拘泥于一些抽象的数学概念,可以直接使用已有的理论来解决实际问题,而侧重于理论研究的读者可以仔细阅读参考文献的内容,力求在理论研究方面有所创新本书的主要内容来源于作者在北京理工大学授课的讲义,包含北京理工大学信息几何研究组的部分研究成果本书的出版获得北京理工大学数学与统计学院的资助.作者感谢国家自然科学基金委员会的大力资助(资助号:61179031,10871218,61401058,10932002)由于作者水平所限,书中不当之处在所难免,恳请读者批评指正作者2015年10月录前言第1章信息几何概述鲁·_,,想··,··世重世世进出·世世当世世参考文献第2章微分几何基础参考文献…………15第3章经典信息几何理论概述和·,··,·1731基本概念,……………………………1732带有复结构的信息几何303.3自然梯度算法31参考文献…………………,………32第4章矩阵信息几何3541矩阵指数与对数的性质……………………3542李群与李代数的基本内容…………43743矩阵信息几何的拓扑4544一般线性群的黎曼度量以及自然梯度4.5紧李群……514.5.1正交群…52452酉群564.6正定矩阵流形594.7一些重要李群…………………………………664.71辛群6647.2特殊欧几里得群…………………………………………684.73海森伯格群474特殊线性群70475广义正交群…非,70目录参考文献…………………………………………71第5章经典信息几何的应用世世世tt世世tttt进7451信息几何在神经网络中的应用74511 Boltzmann机….7451.2随机神经网络的em算法………7752线性规划问题的信息几何方法………………………………775.3热力学流形的信息几何结构………………………………7854熵动力模型的几何结构和稳定性80参考文献…86第6章信息几何与控制…896.1线性系统的几何结构………………896.1.1可逆线性系统的几何6.1.2带有反馈的线性系统的几何结构……………………9062随机分布控制系统的几何控制…93参考文献…………………104第7章统计流形的纤维丛结构以及李群结构1067.1主丛上的信息几何结构…1067.1.1主丛上的几何…7.1.2统计流形上纤维丛的a-结构11172统计流形的李群结构………………………………11773统计流形上的黎曼和乐群127参考文献:136第8章矩阵信息几何的应用…库.1非,非,,律1398.1黎曼流形上的广义 Hamilton算法1398.1.1算法模拟实现……………,14281.2广义 Hamilton算法与自然梯度算法的关系…………………1428.2 Lyapunov方程数值解的几何算法……1438.3代数 Riccati方程数值解的几何算法…………147参考文献149索引……………:152第1章信息几何概述信息几何是利用微分几何的方法来研究信息领域中的问题的学问.几何方法在处理非线性问题时往往发挥重要的作用,例如,利用微分几何建立广义相对论,以及利用微分几何把仿射非线性系统精确线性化等都是很好的例子.对于非线性问题,如果一味地线性化有时达不到所需的精度,所以可以考虑利用几何的方法来解决人们要研究的目标本身可能是非线性的,但是作为微分流形,其每一点的切空间都是线性的,可以像在欧氏空间那样在切空间上定义内积,从而获得需要的度量在经典信息几何理论中,Rao把概率密度函数全体看成统计流形,并用 Fisher信息阵来定义流形上的黎曼度量,从而构建了黎曼流形. Amari计算了正态分布流形在黎曼联络下的黎曼曲率,惊奇地发现它是带有负常曲率的双曲空间.既然概率分布全体是弯曲的流形,人们就设法研究各种概率分布的几何性质,并希望利用这些几何性质来研究各种随机问题流形的几何性质取决于所选取的几何度量及其联络(求导数的方式).保持无挠性和相容性的黎曼联络在微分几何理论中是最理想的联络,但是在经典信息几何中却“好得过火”,不太容易派上用场.于是人们设法定义新的联络来代替黎曼联络,获得“没那么好,但很有用”的联络. Chentsov引入了一族仿射联络, Efron给出了统计流形上的曲率.Amar引入了对偶联络的概念,这个概念是经典微分几何中所不具有的新内容.利用这个对偶联络,学者们已经获得了很多新成果.这种对偶联络本身既没有无挠性,与黎曼度量之间也没有相容性,对信息几何的研究没有直接的贡献,而 Amari由此提出的a-联络却是神来之笔,因为a-联络与-a联络是对偶联络,它们保证了∝-联络的无挠性,这对问题的研究带来了极大的方便众所周知,爱因斯坦的广义相对论的能量动量方程就基于无挠性的假设.那么,引入了无挠的α-联络究竟有什么好处呢?指数分布族和混合分布族是两大重要的分布族,它们包含了许多已知的重要的概率分布.利用a-联络可以计算指数分布族2第1章信息几何概述的几何量,计算结果表明:指数分布族的几何量由实数a和势函数完全确定,特别地,当a=±1时,指数分布族流形的曲率和挠率都为零,也就是说该流形为既不扭曲,也不弯曲的平坦的流形,但却不是欧氏空间,因为此时联络与度量之间没有相容性.在士1-平坦的流形上,可以找到对偶势函数,于是就可以引入散度作为距离函数,来测量流形上两点之间的差异.在信息几何中, Kullback- Leibler散度经常被用来测量统计流形上两点的差异虽然该散度只满足距离函数的非负性,不满足对称性和三角不等式,但该散度在研究具有统计特性的信息问题时却非常好用在实际问题中经常需要求目标函数的极值.在欧氏空间中求目标函数的最小值通常采用最速下降法,而在弯曲的黎曼流形中最速下降方向是由自然梯度给出的要得到自然梯度需借助于所研究的黎曼流形的几何结构,并可将自然梯度视为欧氏空间中的最速下降方向在黎曼流形中的推广上述的这些理论被成功地应用于统计推断、神经网络、信号处理、纠错码、量子理论、控制理论等领域.因此,利用这些理论解决信息领域中的问题时,首先需要把所研究的问题构建成微分流形,定义适当的黎曼度量,选择适当的距离函数,给出合适的算法.迄今为止,除了α=0对应着黎曼联络外,仅仅当=±1时获得了广泛的应用.另外,既然完备、单连通及带有常曲率的流形等距于欧氏空间、球面或者双曲空间其中之一,而且 Amari已经得到一元正态分布流形等距于双曲空间,我们希望分类统计流形,看看有多少统计流形是带有常曲率的.但这个问题至今没有解决,即便是对于比较特殊的指数分布族也没有得到完整的分类信息几何发展的时间较短,它的理论和应用研究在许多方面仍然处于起步阶段.毫无疑问,几何上的许多重要成果在信息几何理论中都应该有对应的结果,其应用的范围还远远不够广泛.迄今为止,人们在研究信息几何的过程中主要使用测地线、测地距离等概念,而几何的其他核心概念,比如曲率,却仅仅用于研究 Jacobi场的稳定性等,在许多实际问题的研究中曲率并没有派上用场.例如,当人们利用几何研究系统的稳定性时,最希望得到的结论是:当系统所构成的流形的曲率满足某种条件时系统就是稳定的.但遗憾的是,至今人们仍得不到这种理想的结论,期望有人能够做到这一点.另外,利用建立在纤维丛上的和乐群理论,我们已经获得第1章信息几何概述3了对指数分布族的一种分类,特别是给多元正态分布族一个完全的分类,对于其他的统计流形还没有结果.我们希望微分几何中深刻而优美的理论都能够在信息几何的研究中发挥作用我们称上述内容为经典信息几何的范畴.最近 Barbaresco, Nielsen, Pennec等提出了矩阵信息几何的概念,主要用来研究雷达信号处理、流形学习、系统的稳定性与最优化、图像处理等问题特别是一般线性群的子群,如正交群、酉群、特殊辛群、特殊欧几里得群,以及一般线性群的子流形,如正定矩阵流形、 Stiefel流形以及 Grassman流形等在信息领域中都有重要的应用.其中,左不变(或右不变)度量作为黎曼度量被采用,测地距离被用于定义距离函数,更重要的是测地线能够通过流形上的指数映射和对数映射有一个显式的表达,这在应用上很方便对于紧李群,比如正交群SO(m)、酉群U(m)以及特殊辛群Sp(n,R),它们上面任意两点都可以用测地线来连接,利用测地线的测地距离可以测量其上两点间的距离.紧李群上存在双不变的黎曼度量,这使得紧李群的截面曲率是非负的由n阶正定矩阵全体构成的正定矩阵流形SPD(m),其切空间为n阶对称矩阵全体Sym(m).首先在其上可以定义 Frobenius内积,但是此内积在实际应用中有时会有一定的局限性.同时,定义仿射不变度量,可以使SPD(m)构成完备的Hadamard空间,其上面的指数映射和对数映射是可逆的映射.SPD(n)上任意两点可以用测地线连接,由该测地线可以获得由特征值表示的测地距离.在研究线性系统稳定性和最优控制等问题时,经常需要在SPD()上求解 Lyapunov方程或代数 Riccati方程,利用测地距离和自然梯度我们给出了求方程数值解的自然梯度算法.另一方面,为了使计算变得简单,可以在SPD(n)上定义对数欧氏度量,通过引入矩阵乘法运算使得SPD(n)具有群的结构,在SPD()和它的切空间之间可以建立等距关系,使得SPD(m)是平坦的空间,此时测地线也变得简单.对于几何平均问题,在一般的流形上较难获得唯一解.但是由于SPD(m)在引入仿射黎曼度量后是 Hadamard空间,在其上求几何平均可以获得唯一解利用矩阵信息几何,有时可将所研究的问题转化为矩阵群或矩阵流形上的优化问题.具体地,可以用自然梯度给出解决方案,其好处就是自然梯度中已不再需要求度量矩阵的逆矩阵了.特别值得一提的是, Fiori提出了广义 Hamilton算法,在自然梯度算法的基础上加了动量项,使得在求黎曼流形特别是在SPD(n), Stiefel流