神经网络学习笔记（1）-526互联

1、神经元

神经元是神经网络中的基本单元。

每一个神经元包括两个参数：权重系数 $\varpi=[\omega _{1},\omega _{2},\omega _{3},\cdots\omega _{n}]$

x1、x2表示输入量

w1、w2为权重，几个输入则意味着有几个权重，即每个输入都被赋予一个权重

b为偏置bias

f(z)为激活函数

举个例子，这周末北京有一草莓音乐节，那去不去呢？决定你是否去有二个因素，这二个因素可以对应二个输入，分别用x1、x2表示。此外，这二个因素对做决策的影响程度不一样，各自的影响程度用权重w1、w2表示。一般来说，音乐节的演唱嘉宾会非常影响你去不去，唱得好的前提下即便没人陪同都可忍受，但如果唱得不好还不如你上台唱呢。所以，我们可以如下表示：

：是否有喜欢的演唱嘉宾。 = 1 你喜欢这些嘉宾， = 0 你不喜欢这些嘉宾。嘉宾因素的权重 = 7
：是否有人陪你同去。 = 1 有人陪你同去， = 0 没人陪你同去。是否有人陪同的权重 = 3。
这样，咱们的决策模型便建立起来了：g(z) = g( * + * + b )，g表示激活函数，这里的b可以理解成为更好达到目标而做调整的偏置项。

2、激活函数

由图一可知，没有激活函数的神经元只是一个 $\omega x+b$ 的线性回归模型，只能拟合线性平面

激活函数为其增加了非线性特征的学习能力。

常用的非线性激活函数有sigmoid、tanh、relu等等，前两者sigmoid/tanh比较常见于全连接层，后者relu常见于卷积层。

sigmoid的函数表达式如下：

$g(z)=\frac{1}{1+e^{-z}}$

其中z是一个线性组合，比如z可以等于：b + w1*x1 + w2*x2。通过代入很大的正数或很小的负数到g(z)函数中可知，其结果趋近于0或1。

因此，sigmoid函数g(z)的图形表示如下（横轴表示定义域z，纵轴表示值域g(z) ）：

也就是说，sigmoid函数的功能是相当于把一个实数压缩至0到1之间。当z是非常大的正数时，g(z)会趋近于1，而z是非常小的负数时，则g(z)会趋近于0。

压缩至0到1有何用处呢？用处是这样一来便可以把激活函数看作一种“分类的概率”，比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本。

举个例子，如下图（图引自Stanford机器学习公开课）

z = b + w1*x1 + w2 * x2，其中b为偏置项，假定取-30，w1、w2都取为20

如果x1 = 0, x2 = 0, 则z = -30, g(z) = 1/(1 + e ^ (-z))趋近于0。此外，从上图sigmoid函数的图形上也可以看出，当z = -30 的时候，

g(z)的值趋近于0。

如果x1 = 0, x2 = 1, 或x1 = 1，x2 = 0, 则z = b + w1 *x1 + w2 *x2 = -30 + 20 = -10, 同样，g(z)的值趋近于0。
如果x1 = 1, x2 = 1, 则z = b + w1 * x1 + w2 * x2 = -30 + 20*1 + 20*1 = 10，此时， g(z)趋近于1.

换言之，只有和都取1的时候，g(z)→1，判定为正样本；或取0的时候，g(z)→0，判定为负样本，如此达到分类的目的