Day 01-526互联

hyperparameters　超参数　　　　
Gradient Descent 梯度下降算法
1. 先选一个初始的参数，W 、b，计算θ⁰对你的loss function的Gradient,也就是计算每一个network里面的参数，w1、w2、b1、b2......等等。对你的L(θ⁰)的偏微分，计算出这个东西之后，这个gradient其实是一个vector(向量)，计算出这个vector之后，就可以去更新参数吧，然后这样计算，持续这个过程，计算θ¹、θ². ..
2. 当我们用Gradient Descent方法的时候，跟我们在做Logistic Regression、还有Linear Regression等等，是没有太大的差别的，最大的差别是，在neural network里面，我们有非常非常多的参数，用Backpropagation来做（它也是Gradient Descent，不过它比较有效率去计算vector。）
  1. Backpropagation之Chain Rule （链式法则）偏导数