统计流形的对偶性研究--《湖北大学》2014年硕士论文

cdmd.cnki.com.cn/.../CDMD-10512-1015500145.htm - Translate this page

by 陈三龙 - ‎2014

统计流形微分流形散度指数族对偶联络. ... 4, 胡宏昌;半参数模型的估计方法及其应用[D];武汉大学;2004年. 5, 刘文军;基于粗糙集的数据挖掘算法研究[D];北京师范大

最近研究工作中涉及到一个新的数学方向，微分几何-》信息几何-》统计流形，而数学界华人的骄傲陈省身和丘成桐在此领域都很有建树，网上能够查到微分几何与广义相对论的关系。但现在我们应用的领域却是计算机视觉和数据库。
香农的信息论基础就是根据概率可以计算出信息量，给了信息一个定量的表示，也是所有通信类学科的基础。而信息几何就是从几何的角度研究概率统计分布。这里面流形和统计流形是个很重要的概念，流形其实就是一个光滑的曲线或者曲面，也可以看成数据点的集合；统计流形上的点则是另外一个含义，即参数化的概率密度函数，这些参数是统计流形的坐标。
在非线性数据分析、数据分类领域，流形学习得到了广泛的应用，主要是从2000年Science上连续发表了3篇流形学习的论文开始。现在的数据分析，数据一般是高维数据，如果看成一个向量的话，那么它就是高维欧氏空间中的一个点。一个高维数据集中，数据之间往往有许多隐含的联系，这些关联可能是以某种流形形式存在，找到了这种流形，就可以进行非线性降维或者聚类这样的操作了。
统计流形上的点主要是参数化的概率密度函数，一般来讲，直方图是概率密度分布的最大似然估计，那么统计流形上的点就可以看成是直方图向量。最重要的一点，统计流形上给出了两个点之间的距离，也是两个点之间的信息量，这个距离叫做Fisher信息度量，它等于流形上两个点之间的最小距离（也叫测地距离），而不是两个点之间的欧氏距离

微分几何

来源：崔江涛的日志

統計的主要重點是在屬於歐氏空間中的數據，是很常見

數據會對非歐幾里得幾何空間的支持。或許最簡單的例子是

雙向數據，它趴在圓或球體。定向統計追溯到R.A.費舍爾的

在分析地球磁極的方向，與主要的開創性論文（費舍爾，1953）

後來的發展沃森（1983年），Mardia和朱佩（2000年），費舍爾等人。（1987）等。

在科學和工程技術的進步導致了更複雜的日常收集

幾何數據。例如，彌散張量成像（DTI）獲得本地信息

通過在每個像素（3×3正定矩陣Alexander等神經活動的指示。，

2007年）。在機器視覺中，數字圖像可以由一組K-的地標來表示，集合

其中形成基於里程碑式的造型空間（肯德爾，1984）。在工程和機器學習，

圖像通常預處理或減少到子空間的集合，與每個數據點（一個

圖像）在一個子空間所代表的樣本數據。人們也可能會遇到存儲數據

作為正交幀（丘陵等，1971），表面，曲線，和網絡。

數據集，其基本要素是幾何對象的統計分析需要精確的數學

底層空間和推理的表徵是依賴於幾何形狀

空間。在許多情況下（例如，正定矩陣，球體，形狀的空間等的空間），該

底層空間對應的歧管。歧管裝備一般拓撲空間

用微/光滑結構導致的幾何形狀一般不堅持

通常的歐幾里得幾何。因此，新的統計理論和模型已經被開發

對於歧管值數據的統計推斷。已經有上推論一些發展

基於i.i.d（獨立同分佈）上的已知歧意見。這樣

方法主要是根據獲得的統計估計為位置的適當觀念

和散佈在所述歧管。例如，人們可以在分佈的中心為基礎的推斷

在Fr'echet的意思是，用獲得的樣本估計的漸近分佈（巴特查亞

和Patrangenaru，2003年，2005年;巴塔查亞和Lin，2013年）。同時也出現了一些考慮

對歧管（巴特查亞和Dunson，2010非參數密度估計; Lin等，

2013;佩爾蒂埃，2005）。巴塔查亞和巴特查亞（2012）提供了一個最近的這種概述

發展。

的arXiv：1508.02201v1 [math.ST] 2015年8月10日

同時也出現了在建模之間的關係的興趣越來越大的歧管值

響應Y和歐幾里得預測X.例如，許多研究都致力於調查

如何塑造大腦隨著年齡的增長，人口因素，智商和其他變量的變化。它是必不可少

考慮到所述歧管為正確推理的基本幾何形狀。方法

忽視數據的幾何形狀有可能導致很大的誤導性的預測和

推論。某些幾何方法已經開發了在文獻中。例如，弗萊徹

（2011）開發的黎曼流形測地回歸模型，其可以被看作是一個

流形上的線性回歸和欣克爾等後續工作的對口。（2012）推廣

多項式回歸模型到歧管。這些參數和半參數模型

優雅，但可能缺乏在某些應用中足夠的靈活性。 Shi等。（2009）提出了一種半參數

內在的回歸模型流形上的，和戴維斯等人。（2007）概括的本徵

在黎曼流形核回歸方法，在造型變化考慮應用

腦塑造隨著時間的推移。元等。（2012）開發的一個內在局部多項式模型

對稱正定矩陣的空間，這在擴散張量成像應用。一個

固有模式的缺點是通過最小化複雜招致沉重的計算負擔

沿測地線目標函數，通常需要昂貴的梯度的評價在

迭代算法。目標函數通常具有多種模式，導致大的靈敏度

啟動點。此外，人口回歸函數的存在性和唯一僅持有

相對嚴格的條件下。因此，在估計中使用通常的血統算法

不能保證收斂到全局最優解。

隨著開發的通用計算效率的積極性，從理論上聽起來

和歧管值響應數據實際有用的回歸分析框架，我們建議

非參數外在回歸模型首先嵌入歧管，其中反應

駐留到一些高維歐氏空間。我們使用等變嵌入，從而保護

幾何結構的大量的圖像。本地回歸估計（如局部多項式

回歸函數的估計）被嵌入，然後將其投射返回到後得到

歧管的圖像。外回歸設定中，內在的和外在的方法

已經提出了用於歧管值數據的建模和數學研究

歧管的特性。然而，就我們所知，我們的工作是在採取一個外在的第一

在回歸建模方面的做法。我們的做法是一般，擁有典雅的漸近

理論和優於內在模型的計算效率方面。此外，還有

基本上沒有在推理與考慮的例子差異。

如果对机器学习仅是以应用为目的的话，到底需要多少数学…，比如说微分流形，代数拓扑，泛函之类的需要懂吗？

添加评论

按投票排序按时间排序

26 个回答

229赞同反对，不会显示你的姓名

grapeot，简单介绍自己，让知友有机会认识你

谭小羽、贡瑞可、ruanhq 等人赞同

“仅是以应用为目的”有点含糊。。乍一看题主好像想说是在公司里用，但后面又出来一大票高大上课程，看起来又好像偏学界。。前面的大大们提到的感觉更偏学界。我补充一些工业界的情况。

总的来说我偏向匿名用户的回答。如果对机器学习仅是以应用为目的的话，到底需要多少数学…，比如说微分流形，代数拓扑，泛函之类的需要懂吗？ - 匿名用户的回答
在思考这个问题之前，要先搞清楚公司花钱雇你来干啥的。我的经验是，这有两种情况。一是公司原来没有一项业务，现在要把一些机器学习这个东西跑起来（从无到有）。二是在你接手的时候公司已经有一定基础了，现在要把性能调上去（从差到优）。前者完全不用任何数学，先用别人有的模块/代码把系统撸起来是王道。后者看具体问题，大多数情况不用数学。

从无到有的情况，比如我原来在facebook做place deduplication，大概就是说非死不可上面超多可以签到的地点，要判断里面有哪些是重复的地点。类似知乎上面有很多重复的问题，如何鉴别和重定向这些问题。这个问题从机器学习的角度来看并不难，有很多已有工作。但公司更关心的其实是怎么把随便一个系统在fb数十TB的数据上日起来。所以我们的绝大多数时间根本不是花在评估哪个机器学习模型更好，这个流形有什么性质，那个系统有什么下限，而是——撸hadoop用几千个核先把feature抽出来。有了feature以后后台分类器是特妈随便找的这种事我会乱说？这种情况跟数学完全没鸟关系好吗。

从有到优的情况，我也参与了这个项目的调优。基本经验是——分类器啊模型啊再复杂精巧数学性质再好没吊用，关键还是看feature。弄一个有效的feature出来精度呼呼的往上涨，各种分类器瞎JB换啊调啊基本没差别。。（当然deep learning这种模型的质变除外，但这个和不搞科研的人就没啥关系了）所以你要问数学有没有用，我说有用，根据数学才能提出有效的模型——但这特妈是学界人家十年磨一剑的人用的。放公司里用数学拱KPI分分钟被nen死。隔壁王二狗整俩新feature奖金拿得多多的，这边你要死磕泛函产品狗咬死你。。
当然在偏研究的地方比如Google X的某些部门还是有用的，但我觉得这还是偏学界。

总的来说，我的建议是，如果想去公司的话就不要纠结逼格过高的事情了。学好线性代数，统计和凸优化就出门打怪吧，攒系统经验和dirty trick才是王道。当然我也不是说就不要搞数学，只是如果你去公司的话，在学好线代统计凸优化的前提下，同样的时间花在学计算机系统的构建和系统性的思考方法上，比学习数学更划算。

Monday, March 28, 2016

Bishop的书读懂 那么泛函 微分流型啥的都是小菜, SVM/LASSO Optimization Algorithms on Matrix Manifolds

统计流形的对偶性研究--《湖北大学》2014年硕士论文

微分几何

来源： 崔江涛的日志

统计流形的对偶性研究--《湖北大学》2014年硕士论文

微分几何

来源： 崔江涛的日志

No comments:

Post a Comment

Bishop的书读懂那么泛函微分流型啥的都是小菜, SVM/LASSO Optimization Algorithms on Matrix Manifolds

来源：崔江涛的日志

来源：崔江涛的日志