欢迎来到站长教程网!

正则表达式

当前位置: 主页 > 汇旺注册 > 正则表达式

关于optimizer优化器与scheduler策略调整器

时间:2024-03-12 13:21:01|栏目:正则表达式|点击:

 

上面是SGD优化器的一个使用实例,经过实例化后,optimizer会产生一个列表param_groups,列表中的每个元素param_group是一个字典,以param_group[‘params’]的形式对应model.parameters()的每一层参数,除此之外,还以param_group[‘lr’]的形式对应上面的args.lr等等。

如下所示:

 

这时,传入的参数parameters已经是一个字典列表,他的每个元素parameter已经包括了parameter[‘lr’]了,这时候实例化SGD时传入的args.lr就不会起作用了(传入的lr只在字典中没有lr键值的时候会创建并传入,当字典已经有键值及对应元素后,会跳过),所以这种情况下,每层参数的学习率实际上已经由之前定好的学习率设定好了,args.lr只是一个摆设,不起实际作用。

上述情况通常发生在,对已有预训练网络进行微调后,网络改动部分往往需要更大的学习率,因此整个网络来说,学习率不是完全一样的,需要针对不同层设计不同的学习率,这时通过初始化SGD时传入初始学习率的一刀切办法就不适用了。

调用optimizer.step()即可实现网络参数的更新

这里有一篇比较好的博客,介绍的挺好

举个例子,如下:

 

将optimizer作为参数传递给scheduler,每次通过调用scheduler.step()就会更新optimizer中每一个param_group[‘lr’],具体更新策略是什么呢?对于StepLR策略调整器来说, l r n e w = l r i n i t i a l ? g a m m a e p o c h / / s t e p s i z e lr_{new} = lr_{initial} * gamma^{epoch//stepsize} lrnew?=lrinitial??gammaepoch//stepsize,即每过固定个epoch,学习率会按照gamma倍率进行衰减。

也可以不使用scheduler策略调整器,就实现optimizer的学习率调整,如下:

 

相当于手动修改optimizer中的param_group[‘lr’],使用时调用函数如下:

 

注意:pytorch1.1之后,scheduler.step()调用需要在optimizer.step()之后

上一篇:干货!MySQL优化原理分析及优化方案总结

栏    目:正则表达式

下一篇:太极拳的“九曲珠”是啥东西?

本文标题:关于optimizer优化器与scheduler策略调整器

本文地址:http://www.chang365.com/index.php?m=home&c=View&a=index&aid=297

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:88888888 | 邮箱:88888888@qq.com

Copyright © 2002-2021 汇旺娱乐资源素材下载站 版权所有琼ICP备98571818号

平台注册入口