×

lstm模型 函数 tan

lstm模型(为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数)

admin admin 发表于2023-04-26 10:14:51 浏览45 评论0

抢沙发发表评论

本文目录

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数

我觉得你想问的应该是他们分别实现了什么功能,或者说他们的功能有什么不同.
回想一下高中数学,sigmoid的输出范围是(0,1),tanh输出范围是(-1,1).
LSTM在用到sigmoid函数的地方都是用在各种gate上,产生0-1的值,这就可以让神经元去决定对过去输入和前一个状态的取舍,为0丢,为1取.而tanh用在后一个状态和输出上,是对数据的处理. 神经元要传给下一个的,它本身不决定取舍,由下一个来决定,所以它要定出那个输出应该放大,而哪个输出应该缩小.
为什么是sigmoid函数和tanh函数,可否换成别的激活函数?如果有更好的,当然可以,但既然这2个满足了功能上的需求,何必换?除非有更便于计算的.

如何在Tensorflow中保存和调用训练好的LSTM模型

咨询记录 · 回答于2021-12-03

如何在Tensorflow中保存和调用训练好的LSTM模型

很高兴回答您的问题,操作方法如下:LSTM层是subclassed model创建的,保存模型再load会出现这种提示,这种情况需要通过源码访问LSTM层,通过save_weights保存和加载模型参数。保存和加载参见Saving Subclassed ModelsLSTM层源码参见recurrent_v2

如何理解LSTM模型的bptt

觉得LSTM bptt的过程跟rnn 是一样的,实际上之所以用到bptt是因为需要对参数W(对应上一步隐含层的权重矩阵) 进行求导. 该过程是这样的, 一个句子对应一个训练样本, 先用前向传播计算出句子中各词(对应各时刻)的隐含层和输出层向量,并分别保存在数组中.参数更新是一个梯度下降的过程跟BP完全一样,对该句子从最后一个词到第一个词对应的损失函数求各参数的梯度后更新参数.正是这个过程用了bptt

训练语音识别用的LSTM语言模型用theano还是tensorFlow,哪个好用

Theano的一个优势在于代码是在计算时生成并编译的,所以理论上可以达到更高的速度(不需要运行时的polymorphism,而且如果写得好的话可以fuse kernel),但是因为是学术实现,没有花大精力在优化上面,所以实际速度并不占优势。另外现在大家都高度依赖于第三方库比如说cudnn,所以比较速度已经是上个时代的事情了,不必太在意。

lstm具有什么特点

LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。
工作原理
LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。
一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
说起来无非就是一进二出的工作原理,却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明,LSTM是解决长序依赖问题的有效技术,并且这种技术的普适性非常高,导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本,这就让LSTM可以处理千变万化的垂直问题。