什么是归一化,适用场景是什么?请举个例子说明归一化带来的好处是什么?修改
网上找了很多没一个说得明白的,希望知乎有大牛可以解答我的疑问修改
按票数排序按时间排序
4 个回答
假设是在讨论数学建模或者类似领域的数据"归一化"问题
举一个简单的例子
如果我们需要通过房子的面积(A), 使用年限(B), 房间数量(C)等特征值来预测房价(P), 建立一个由A,B,C三个已知特征来推测P的线性回归:
x0+x1*A+x2*B+x3*C = P
即通过一些方式计算出式子中x0,x1,x2,x3这4个系数的值.
但不同的变量之间的取值范围是不同的, 假设取值范围如下
面积可能是: 0-1000(平方米)
使用年限是: 0-70(年)
房间数量是: 0-10(间)
不同的取值范围, 会影响x[0-4]的计算过程, 比如面积由于自身的取值范围很大, 和其他特征之间有数量级的差异, 如果不针对x1做一些针对性处理, 那么面积这个因子比起其他因子, 对于最终结果自然就会起到决定性的影响, 这有可能会影响到我们的计算.
归一化是将各个特征自身的数据特性通过数学的方法抹掉, 让各个特征值获得相同的竞争能力, 从而可以使用一些更通用性的解决方法, 将视野重点从局部数据解放出来.
比如线性函数转换 归一后值=(归一前值-MinValue)/(MaxValue-MinValue)
将数据从各自的取值范围都划归到[0,1]的取值范围内(当然也可以是其他的归一化方式, 或者其他的取值范围)
这样数据自身的影响就被我们消除了, 可以专注到回归问题自身的解决上来.
归一化本身的好坏也是适用于数据的, 对于不同的数据分布, 采用相适应的不同归一化方式.
举一个简单的例子
如果我们需要通过房子的面积(A), 使用年限(B), 房间数量(C)等特征值来预测房价(P), 建立一个由A,B,C三个已知特征来推测P的线性回归:
x0+x1*A+x2*B+x3*C = P
即通过一些方式计算出式子中x0,x1,x2,x3这4个系数的值.
但不同的变量之间的取值范围是不同的, 假设取值范围如下
面积可能是: 0-1000(平方米)
使用年限是: 0-70(年)
房间数量是: 0-10(间)
不同的取值范围, 会影响x[0-4]的计算过程, 比如面积由于自身的取值范围很大, 和其他特征之间有数量级的差异, 如果不针对x1做一些针对性处理, 那么面积这个因子比起其他因子, 对于最终结果自然就会起到决定性的影响, 这有可能会影响到我们的计算.
归一化是将各个特征自身的数据特性通过数学的方法抹掉, 让各个特征值获得相同的竞争能力, 从而可以使用一些更通用性的解决方法, 将视野重点从局部数据解放出来.
比如线性函数转换 归一后值=(归一前值-MinValue)/(MaxValue-MinValue)
将数据从各自的取值范围都划归到[0,1]的取值范围内(当然也可以是其他的归一化方式, 或者其他的取值范围)
这样数据自身的影响就被我们消除了, 可以专注到回归问题自身的解决上来.
归一化本身的好坏也是适用于数据的, 对于不同的数据分布, 采用相适应的不同归一化方式.
石梦珂 赞同
其实,归一化是一个让权重变为统一的过程。
比如,大学生自习室安排问题中,宿舍距各教室路线长短,教室大小,照明质量,满座率等都是影响结果的因素,这些因素本身有一个相对值,可以在本身内作为权重去衡量某项安排的优化程度,但这些因素之间没有一个统一的标准去衡量他,到底是路线长短重要,还是满座率重要,还是别的,它们在最终的决策中怎么进行权重的分配,这就需要归一化来处理,使每个大因素下的小变量之间有一个桥梁,合理的去参与到对决策的影响中。
举个很简单的例子,在国际上,基本以美元为结算通用货币。
想买入10吨铁矿,用的人民币和美元肯定不同,那么这10吨铁矿的价值到底是多少,就需要一个统一的标准来衡量,全世界那么多国家,都要用自己国家的货币去买,到底该付多少,就很迷茫。这时,规定用美元统一结算,各国按照本国货币对比美元的汇率,再加上10吨铁矿的美元价值,就可以算出自己应付多少本国货币。
货币本身也是归一化的结果。
以货易货,很麻烦,所以才有了统一的货币。你一月的工资是一头牛和10斤麦子,你妻子一个月的工资是一头羊和100斤玉米,那么你俩谁的月工资高,谁对这个家庭的贡献大?归一化,用货币取代实物,便能准确描述你们俩的贡献值。
这些都是归一化。归一化在数学建模中是一种很实用的小工具。
记得在我参加CUMCM时,题目是养老金问题,其中一问要做各个因素对未来养老金政策的影响,就用到了归一化。
比如,大学生自习室安排问题中,宿舍距各教室路线长短,教室大小,照明质量,满座率等都是影响结果的因素,这些因素本身有一个相对值,可以在本身内作为权重去衡量某项安排的优化程度,但这些因素之间没有一个统一的标准去衡量他,到底是路线长短重要,还是满座率重要,还是别的,它们在最终的决策中怎么进行权重的分配,这就需要归一化来处理,使每个大因素下的小变量之间有一个桥梁,合理的去参与到对决策的影响中。
举个很简单的例子,在国际上,基本以美元为结算通用货币。
想买入10吨铁矿,用的人民币和美元肯定不同,那么这10吨铁矿的价值到底是多少,就需要一个统一的标准来衡量,全世界那么多国家,都要用自己国家的货币去买,到底该付多少,就很迷茫。这时,规定用美元统一结算,各国按照本国货币对比美元的汇率,再加上10吨铁矿的美元价值,就可以算出自己应付多少本国货币。
货币本身也是归一化的结果。
以货易货,很麻烦,所以才有了统一的货币。你一月的工资是一头牛和10斤麦子,你妻子一个月的工资是一头羊和100斤玉米,那么你俩谁的月工资高,谁对这个家庭的贡献大?归一化,用货币取代实物,便能准确描述你们俩的贡献值。
这些都是归一化。归一化在数学建模中是一种很实用的小工具。
记得在我参加CUMCM时,题目是养老金问题,其中一问要做各个因素对未来养老金政策的影响,就用到了归一化。
No comments:
Post a Comment