推荐系统

协同过滤

协同过滤是一种基于用户行为的推荐算法，它的基本思想是利用用户的历史行为数据，计算用户之间的相似度，然后根据相似度为用户生成推荐列表。

以电影网站预测为例，有以下数据：

电影名称	用户1	用户2	用户3	用户4	\(x_1\)(爱情)	\(x_2\)(动作)
电影1	5	5	0	0	0.9	0
电影2	5	？	？	0	1	0
电影3	？	4	0	？	0.99	0
电影4	0	0	5	4	0	1
电影5	0	0	5	？	0	0.9

对于每一个电影可能的类型，我们可以定义一个特征，比如\(x_1\)表示爱情，\(x_2\)表示动作。记为\(x^{(i)}\)，其中\(i\)表示电影的编号。

以电影1为例，\(x^{(1)}=(0.9,0)\)，表示电影1的类型为爱情。

参数\(W\)和\(b\)的学习

预测用户对电影评分的公式为：

\[\hat{y}^{(i,j)}=W^{(j)}x^{(i)}+b^{(j)} \]

其中，\(W^{(j)}\)表示用户\(j\)的参数，\(b^{(j)}\)表示用户\(j\)的偏置。

评分预测的损失函数为：

\[J(W^{(1)},...,W^{(n_u)},b^{(1)},...,b^{(n_u)})=\frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}((W_k^{(j)})^2) \]

其中，\(n_u\)表示用户的数量，\(n\)表示特征的数量，\(r(i,j)\)表示用户\(j\)是否对电影\(i\)评分。

参数\(X\)的学习

电影类型预测是的损失函数为：

\[J(X^{(1)},...,X^{(n_m)})=\frac{1}{2}\sum_{i=1}^{n_m}\sum_{j:r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}((X_k^{(i)})^2) \]

其中，\(n_m\)表示电影的数量，\(n\)表示特征的数量，\(r(i,j)\)表示用户\(j\)是否对电影\(i\)评分。

协同过滤算法

协同过滤的损失函数

将上面两个损失函数合并，得到协同过滤的损失函数：

\[J(X,W,b)=\frac{1}{2}\sum_{(i,j):r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}((X_k^{(i)})^2)+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}((W_k^{(j)})^2) \]

协同过滤的梯度下降

对于参数\(X\)，\(W\)，\(b\)，它们的梯度分别为：

\[\frac{\partial J}{\partial X_k^{(i)}}=\sum_{j:r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)})W_k^{(j)}+\lambda X_k^{(i)}\\ \frac{\partial J}{\partial W_k^{(j)}}=\sum_{i:r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)})X_k^{(i)}+\lambda W_k^{(j)}\\ \frac{\partial J}{\partial b_k^{(j)}}=\sum_{i:r(i,j)=1}((W^{(j)}x^{(i)}+b^{(j)})-y^{(i,j)}) \]

梯度下降的更新公式为：

\[X_k^{(i)}:=X_k^{(i)}-\alpha\frac{\partial J}{\partial X_k^{(i)}}\\ W_k^{(j)}:=W_k^{(j)}-\alpha\frac{\partial J}{\partial W_k^{(j)}}\\ b_k^{(j)}:=b_k^{(j)}-\alpha\frac{\partial J}{\partial b_k^{(j)}} \]

二元标签分类

二元标签分类中，用户对电影的评价只有两种情况，例如：是否点赞、是否收藏等。

分类公式

预测用户二元评价的公式为：

\[\hat{y}^{(i,j)}=\sigma(W^{(j)}x^{(i)}+b^{(j)}) \]

其中，\(\sigma\)表示Sigmoid函数。

损失函数

损失函数为：

\[J(W^{(1)},...,W^{(n_u)},b^{(1)},...,b^{(n_u)})=-\frac{1}{m}\sum_{j=1}^{n_u}\sum_{i=1}^{m}(y^{(i,j)}log(\hat{y}^{(i,j)})+(1-y^{(i,j)})log(1-\hat{y}^{(i,j)}))+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}((W_k^{(j)})^2) \]