曲曲的秘密学术基地

纯化欲望、坚持严肃性

欢迎!我是曲泽慧(@zququ),目前在深圳(ICBI,BCBDI,SIAT)任职助理研究员。


病毒学、免疫学及结构生物学背景,可以在 RG 上找到我已发表的论文

本站自2019年7月已访问web counter

From Logistic Regression to Multi-class Classification and Neural Networks

Back Propagation

给定一个神经网络,我们想通过Back Propagation的方法来求解图中任意节点的误差值( δδ )。

图中,我将input unit定义为红色,并将output unit定义为绿色。这样很容易理解, input layer中只存在有 input unit,而输出层中也就只有绿色的 output unit。

我们假设有,

δ=Jzδ=Jz(1)

其中 JJ 为 cost function,而,zz 即为对应 unit 的输入input unit (同时也是上一层的output unit)。

BPnn

首先考虑 output layer (L层),有如下关系式,

a(L)j=z(L)ja(L)j=z(L)j

即其 input unit == output unit。另外根据链式法则,有如下的求导关系:

La(L)jz(L)jLa(L)jz(L)j

所以有,

δ(L)j=Lz(L)j=La(L)ja(L)jz(L)j=(a(L)jy(L)j)1δ(L)j=Lz(L)j=La(L)ja(L)jz(L)j=(a(L)jy(L)j)1

这样也能够解释为什么选用偏微分的形式来表示 δδ ,即可以联系链式法则,为后续的反向传播做铺垫,在值上又与误差的定义相同,十分的精彩与美丽。

那么对于其中任意个 node 上的任意一个 unit 又如何来计算误差值呢?

例如以求解图中黄色的 z(L)jz(L)j 为例,同样由链式法则公式,首先观察链式的关系式。

Lz(l+1)k(k=1,,s(l))z(l)jLz(l+1)k(k=1,,s(l))z(l)j 其中 s(l)s(l) 为 back propagation 中前一层中所有 input layer 中的 unit 数,所以由链式法则,有 δ(l)j=s(l+1)kLz(l+1)kz(l+1)kz(l)j=s(l+1)kδ(l+1)kz(l+1)kz(l)jδ(l)j=s(l+1)kLz(l+1)kz(l+1)kz(l)j=s(l+1)kδ(l+1)kz(l+1)kz(l)j(2)

又因为由 forword propagation 可以得到,

z(l+1)k=s(l)pθ(l)kpg(z(l)j)+b(l)kz(l+1)k=s(l)pθ(l)kpg(z(l)j)+b(l)k(3)

代入 (2)(2) 中,

δ(l)j=s(l+1)kδ(l+1)kg(z(l)j)=s(l+1)kδ(l+1)ka(l)j(1a(l)j)δ(l)j=s(l+1)kδ(l+1)kg(z(l)j)=s(l+1)kδ(l+1)ka(l)j(1a(l)j)

再来观察关于 JJθ(l)ijθ(l)ij 的求导关系:

Lz(l+1)k(k=1,,s(l))θ(l)ijLz(l+1)k(k=1,,s(l))θ(l)ij

由链式法则,

$$ \frac{\partial L}{\theta_{ij}^{(l)}} = \sum_k^{s_{(l)}}\frac{\partial L}{\partial z_j^{(l+1)}}\cdot \frac{\partial z_k^{(l+1)}}{\partial \theta_{ij}^{(l)}}= \sum_k^{s_{(l)}} \delta_j^{(l+1)}\cdot \frac{\partial z_k^{(l+1)}}{\partial \theta_{ij}^{(l)}}

$$

k=i,p=jk=i,p=j 时,(3)(3) 代入原式求导可消去 留下一项,

Lθ(l)ij=δ(l+1)jg(z(l)j)=δ(l+1)ja(l)jLθ(l)ij=δ(l+1)jg(z(l)j)=δ(l+1)ja(l)j

Last One

Legendre Transform 勒让德变换

对于给定一个关于 x,yx,y 的函数式:f(x,y)f(x,y)求它的全微分,df(x,y)=ni=0fixidxi+ni=0fiyidyidf(x,y)=ni=0fixidxi+ni=0fiyidyi(1)我们假设,存在 g(x,y)g(x,y),其自变量 uu 存在有,ui=fixiui=fixi代入 $(1)...…

数学More
Next One

为什么矩阵行、列空间维度相同

转自:stackexchange 论坛Proof. Suppose that {v1,v2,,vk}{v1,v2,,vk} is a basis for the column space of AA. Then each column of AA can be expressed as a linear combination of these vectors; suppose that the ii-th column cici is given by$$...…

数学More