最小推荐系统:AutoRec

最小推荐系统:AutoRec

AutoRec[1]可以说是深度学习时代最古老、最简单、最容易理解的模型。该模型模拟无监督学习中用到的数据表征和压缩工具AutoEncoder, 自然地,其模型也可以写成重建函数形式:

h\left( \mathbf{r};\theta \right)=f\left( \mathbf{W} \cdot g\left( \mathbf{Vr}+\mu \right) +b \right) (1)

其中 f\left( \cdot \right)g\left( \cdot \right) 分别为输出层和隐藏层的激活函数,参数集 \theta = \left\{ \mathbf{W},\mathbf{V},\mathbf{\mu},b \right\} , \mathbf{W} \in \mathbb{R}^{d\times k} , \mathbf{V} \in \mathbb{R}^{k\times d} , \mu \in \mathbb{R}^k , b \in \mathbb{R}^d . 对应 m 个用户和 n 个条目, k 维隐藏层。

跟AutoEncoder类似地,其损失函数为

\mathop{min}\limits_{\theta} \sum_{\mathbf{r} \in \mathbf{S}}{ \lVert \mathbb{r}-h\left( \mathbf{r};\theta \right) \rVert}_2^2

不过考虑到对模型参数的限制,比如加入L2正则,损失函数变化为:

\mathop{min}\limits_{\theta} \sum_{i=1}^n{ \lVert \mathbb{r}^{(i)}-h\left( \mathbf{r}^{(i)};\theta \right)\rVert}_{\mathcal{O}}^2 +\frac{\lambda}{2}\cdot \left( \lVert \mathbf{W}\rVert_F^2 +\lVert \mathbf{V}\rVert_F^2 \right)

其中 \lVert \cdot\rVert_F 为Frobenius范数.

一般如原论文中一样,把AutoRec用于协同过滤(Collaborative Filtering). 对于条目协同过滤,AutoRec的模型定义(PyTorch)如下:

class Autorec(nn.Module):
    def __init__(self,args, num_items):
        super(Autorec, self).__init__()
        self.args = args
        #self.num_users = num_users
        self.num_items = num_items
        self.hidden_units = args.hidden_units
        self.lambda_value = args.lambda_value
        self.encoder = nn.Sequential(
            nn.Linear(self.num_items, self.hidden_units),
            nn.Sigmoid()
        )
        self.decoder = nn.Sequential(
            nn.Linear(self.hidden_units, self.num_items),
        )
    def forward(self,torch_input):
        encoder = self.encoder(torch_input)
        decoder = self.decoder(encoder)
        return decoder

对应地,在损失函数中需要对模型参数加正则:

def loss(self, decoder, input, optimizer, mask_input):
    cost = 0
    temp2 = 0
    cost += ((decoder - input) * mask_input).pow(2).sum()
    rmse = cost
    for i in optimizer.param_groups:
        for j in i['params']:
            # print(type(j.data), j.shape,j.data.dim())
            if j.data.dim() == 2:
                temp2 += torch.t(j.data).pow(2).sum()
    cost += temp2 * self.lambda_value * 0.5
    return cost, rmse

对于条目协同过滤I-AutoRec来说,输入是用户对所有物品的评分向量,但是由于输入向量是稀疏的,所以在计算loss中要加入上面程序段中的mask.

在I-AutoRec的推理过程中,输入是某个用户的评分条目列表,得到是对应这个条目列表的相似条目列表:

reqArtList = ['Item1','Item3','Item111']

reqID = []
for i in range(len(reqArtList)):
    reqID.append(itemList.index(reqArtList[i]))

tVec = np.zeros((1,numItems))
for i in range(len(reqID)):
    tVec[0,reqID[i]]=1

tdata = torch.FloatTensor(tVec).cuda()
pre = rec(tdata).detach().cpu().numpy()[0]
a=pre.argsort()[-30:][::-1]
preDict = {}
for i in range(len(a)):
    if a[i] not in reqID:
        preDict[itemList[a[i]]] = pre[a[i]]

sortedDict = {k:v for k,v in sorted(preDict.items(),key = lambda  item: item[1], reverse=True)}
topIDs = list(sortedDict.keys())
' '.join(topIDs)

由于模型参数较少,上面的推理过程可以在线计算。

当然,如(1)式所示,AutoRec没有办法解决特征交叉问题,对实际问题中的表征往往不足,目前已不适合作为线上部署的选项。

参考

  1. ^Sedhain, S., Menon, A. K., Sanner, S., & Xie, L. (2015). AutoRec: Autoencoders Meet Collaborative Filtering. the web conference.
编辑于 2020-07-13 18:41