神经网络中符号的定义

我们首先给出网络中权重、偏置和激活值的符号定义。

我们用 ll 来表示神经网络的层数,第一次层是输入的值,最后一层是输出的值。

权重wjklw_{jk}^l表示的是从(l1)th(l-1)^{th}层的第kthk^{th}个神经元到lthl^{th}层的第jthj^{th}个神经元的链接上的权重。

偏置bjlb_j^l表示在lthl^{th}层的第jthj^{th}个神经元的偏置。

激活值的输入zjlz^l_j表示在第lthl^{th}的第jthj^{th}神经元激活值的输入。也就是

zjl=kwjklakl1+bjl z^l_j=\displaystyle\sum_{k}w^l_{jk} a^{l-1}_k + b^l_j

激活值ajla_j^l表示在lthl^{th}层的第jthj^{th}个神经元的激活值。也就是

ajl=σ(zjl)=σ(kwjklakl1+bjl) a^l_j=\sigma(z^l_j)=\sigma(\displaystyle\sum_{k}w^l_{jk} a^{l-1}_k + b^l_j)

上面的图中 a32=σ(w312x1+w322x2+w332x3+b32)a_3^2 = \sigma(w_{31}^2 \cdot x_1 + w_{32}^2 \cdot x_2 + w_{33}^2 \cdot x_3 + b_3^2)。 也就是

ajl=σ(kwjklakl1+bjl)=σ(wjlal1+bjl) a_j^l = \sigma(\displaystyle\sum_{k} w_{jk}^l \cdot a_k^{l-1}+ b_j^l)=\sigma(w_{j}^l \cdot a^{l-1} + b_j^l)

其求和是在第(l1)th(l-1)^{th}上的所有kk个神经元上进行,其中wjlw_{j}^l表示的是第(l1)th(l-1)^{th}层到第lthl^{th}层的第jj个神经元的权重向量。

我们先将每一层用矩阵表达,假定第(l1)th(l-1)^{th}mm个神经元,第lthl^{th}层有nn个神经元,那么从第(l1)th(l-1)^{th}到第lthl^{th}层的权重个数有m×nm \times n个,偏置个数有nn个。则:

(l1)th(l-1)^{th}的神经元向量为al1=[a1l1a2l1a3l1...aml1]a^{l-1}= \begin{bmatrix} a_1^{l-1} \\ a_2^{l-1} \\ a_3^{l-1} \\ ... \\ a_m^{l-1} \end{bmatrix},第lthl^{th}层的神经元向量为al=[a1la2la3l...anl]a^{l}= \begin{bmatrix} a_1^{l} \\ a_2^{l} \\ a_3^{l} \\ ... \\ a_n^{l} \end{bmatrix}

偏置向量为bl=[b1lb2lb3l...bnl]b^{l}= \begin{bmatrix} b_1^{l} \\ b_2^{l} \\ b_3^{l} \\ ... \\ b_n^{l} \end{bmatrix},权重矩阵为:Wl=[w11w12w13...w1mw21w22w23...w1mw31w12w13...w1m...wn1wn2wn3...wnm]=[w1lw2lw3l...wnl]W^l= \begin{bmatrix} w_{11} & w_{12} & w_{13} & ... & w_{1m} \\ w_{21} & w_{22} & w_{23} & ... & w_{1m} \\ w_{31} & w_{12} & w_{13} & ... & w_{1m} \\ ... \\ w_{n1} & w_{n2} & w_{n3} & ... & w_{nm} \end{bmatrix} = \begin{bmatrix} w_1^{l} \\ w_2^{l} \\ w_3^{l} \\ ... \\ w_n^{l} \end{bmatrix}

也就是:

al=[a1la2la3l...anl]=[σ(w1lal1+b1l)σ(w2lal1+b2l)σ(w3lal1+b3l)...σ(wnlal1+bnl)] a^{l}= \begin{bmatrix} a_1^{l} \\ a_2^{l} \\ a_3^{l} \\ ... \\ a_n^{l} \end{bmatrix}= \begin{bmatrix} \sigma(w_1^l \cdot a^{l-1} + b_1^l) \\ \sigma(w_2^l \cdot a^{l-1} + b_2^l) \\ \sigma(w_3^l \cdot a^{l-1} + b_3^l) \\ ... \\ \sigma(w_n^l \cdot a^{l-1} + b_n^l) \end{bmatrix}

最后可以得到:

al=σ(Wlal1+bl) a^l = \sigma(W^l \cdot a^{l-1} + b^l )

这个表达式给出了一个更加全局的思考每层的激活值和前一层激活值的关联方式,我们仅仅用权重矩阵作用在激活值上,然后加上一个偏置向量,最后作用σ\sigma函数。

results matching ""

    No results matching ""