聊聊最近的一个项目/你做了什么/你印象最深的功能点

背景概述

我个人使用神经网络构建了一套基于Tensorflow的视频个性化推荐系统，之前的推荐系统一般情况下使用的是启发式推荐算法

启发式推荐算法易于实现，并且推荐结果的可解释性强。启发式推荐算法又可以分为两类：

基于用户的协同过滤（User-based collaborative filtering）：主要考虑的是用户和用户之间的相似度，只要找出相似用户喜欢的物品，并预测目标用户对对应物品的评分，就可以找到评分最高的若干个物品推荐给用户。举个例子，李老师和闫老师拥有相似的电影喜好，当新电影上映后，李老师对其表示喜欢，那么就能将这部电影推荐给闫老师。

基于物品的协同过滤（Item-based collaborative filtering）：主要考虑的是物品和物品之间的相似度，只有找到了目标用户对某些物品的评分，那么就可以对相似度高的类似物品进行预测，将评分最高的若干个相似物品推荐给用户。举个例子，如果用户A、B、C给书籍X,Y的评分都是5分，当用户D想要买Y书籍的时候，系统会为他推荐X书籍，因为基于用户A、B、C的评分，系统会认为喜欢Y书籍的人在很大程度上会喜欢X书籍。

然而，启发式协同过滤算法也存在一些缺陷：

难以处理冷启动问题：当一个用户或一个物品没有足够的评分数据时，启发式协同过滤算法无法对其进行有效的预测，因为它需要依赖于已有的评分数据。

对数据稀疏性敏感：如果数据集中存在大量的缺失值，启发式协同过滤算法的预测准确率会受到影响，因为它需要依赖于完整的评分数据来进行预测。

算法的可解释性较差：启发式协同过滤算法的预测结果是通过启发式规则得出的，这些规则可能很难被解释和理解。

受限于启发式规则的质量：启发式协同过滤算法的预测准确率受到启发式规则的质量影响，如果启发式规则得不到有效的优化和更新，算法的性能可能会受到影响。

说白了，这种基于启发式的协同过滤算法，很容易陷入一个小范围的困境，就是如果某个用户特别喜欢体育的视频，那么这种系统就会玩命地推荐体育视频，实际上这个人很有可能也喜欢艺术类的视频，但是囿于冷启动问题，无法进行推荐。

怎么解决缺陷

所以我个人使用神经网络的协同过滤算法来构建，神经网络的协同过滤算法可以通过将用户和物品的特征向量作为输入，来预测用户对新物品的评分，从而解决冷启动问题。

矩阵拆解算法

之前有一种推荐算法是基于矩阵拆解，通过假设的因素去“猜”稀疏矩阵的空缺数据，猜出来之后，再通过反向传播的逆运算来反推稀疏矩阵已存在的数据是否正确，从而判断“猜”出来的数据是否正确

通俗地讲，跟算命差不多，但是基于数学原理，如果通过反推证明针对一个人的算命策略都是对的，那么就把这套流程应用到其他人身上。

但是这套逻辑过于线性，也就是因素过于单一，比如我喜欢黑色的汽车，那么就会给我推所有黑色的东西，其实可能黑色的因素仅局限于汽车，是多重因素叠加导致的，所以矩阵拆解并不是一个非常好的解决方案。

基于神经网络

首先定义一个embedding (多维空间) 用来理解需要学习的原始数据：

一个用户对象（含一个属性userId）

一个视频对象（含三个属性：videoId, userId, rating (完播向量)）

这里需要进行学习的具体就是让机器理解那个“完播向量：rating”的含义）这里定义的embedding 维度为64, 本质就是让机器把完播向量rating 的值当作成一个64维度的空间来进行理解（其实就是从这个rating值当中提取出64个特征来重新定义这个rating）

随后对embedding 进行降维处理：

具体的操作与使用的降维函数曲线有关，这里采用的是先降为32维再降为1维的两道操作方式，原来的代表rating 的embedding 空间从64维降低到了1维。而此时的输出output 对象就是机器对rating完播向量所做出来的“自己的理解”。

最后通过对学习完的输出项output 进行mask（遮罩）测试，通过变换不同的mask（遮罩）来测试结果是否与原始数据相近，或一致，从而来证实机器学习的效果，也就是上文提到的反向传播方式的逆运算。

通俗解释

这样说可能比较难以理解，比较学术化，我给您通俗解释一下吧，比如有一幅油画，油画相比完播量，肯定是多维度的，因为画里面有颜色、风格、解析度、对比度、饱和度等等特征参数，此时我们让机器先看完整的这幅画，然后用机器学习的方式让它学习（即embedding方式），接着把这幅画遮掉一部分与主题无关的部分，然后再测试机器让它用学习到的数据（即embedding完成降维处理之后的数据）去尝试复原整幅画，随后对比复原的整幅画和原始油画有多大差别，如果差别没有或者很小，则证明机器学习成功了，机器确实学会了这副画，然后就让机器按照这套逻辑去画类似的画，最后把这一“类”的画推荐给没有鉴赏过的用户，从而完成推荐系统，就这么简单。

人工智能底层

其实对于人工智能，大家都有一些刻板印象，以为这是一个莫测高深的行业，其实我觉得，人工智能也不过就是个套路活儿，现在业内比较流行的，比如Transformer模型、GPT模型、深度学习、强化学习、卷积神经网络等等，无论听起来多么高端大气上档次，说出大天去，它也是神经网络架构，神经元是神经网络架构中最微小的单位，也是最小的可训练单位

神经元靠神经元公式来完成机器学习

期望结果 = 激活函数( 求和(特征 * 权重) + 偏差 )

x代表输入的数据，w代表权重，sum代表求和，b代表偏差，f代表激活函数，最后这个公式运行的结果，就是机器学习的结果。

简单往里头套点数据，比如我希望机器学习的结果是10，那么，x、w、和b分别应该是什么才能让结果变为10呢？如果 x=2 w=4 b = 2 就是我们想要的结果。这也就是最基本的线性回归，我们只处理一个维度的数据，因为结果已经显而易见了，我们已经不需要机器学习了，因为靠猜也能猜出来结果是什么。

但是生产环境中，x并非是单维度，而是多维度的，比如x1、x2、x3.....组成的矩阵，但无论是多维度还是单维度，计算公式用的还是一样的，每一个x对应一个权重w，所以是xn*wn。

说白了，x就是一个多维特征，类比的话，假如我们想让电脑智能识图，比如识别一只猫，那么x就是猫的特征，比如形态、颜色、眼睛、叫声等等，作为多维度的输入特征x，喂给电脑，让电脑给出识别结果，这就是简单的机器学习处理分类问题。

这里需要注意的是，x作为特征参数，并不是越多越好，而是特征越明显越好，举个例子，你想让AI去识别鲁迅的文章，那提供的特征最好应该具备鲁迅文章的特点，而不是全量输入，因为鲁迅就算再“鲁迅”，他写的文字也会和别人重复，也就是说并不是每句话都是他独有的，如果把他所有的文章都喂给电脑，可能就会产生“噪声”，影响机器学习的结果。

另外应该知道的是，x参数特征并不是我们认为的单词或者汉字，而是一串单精度区间在0-1之间的浮点数字，也就是所谓的“向量”，因为只有数字才能套着神经元公式进行计算。

所以所有的文本特征在进行神经元计算之前，必须通过一些方法进行“向量化”操作。说白了就是把汉字转化为数字，就这么简单。

另外这也就证明了，电脑真的没有思想，它不理解什么是猫，或者谁是鲁迅，它就是在进行计算，而已。

随后是w，w指的是权重，权重是指神经元接收到的输入值的重要性，这些输入值通过乘以对应的权重，被加权求和作为神经元的输入。权重值越大，表示该输入在神经元的输出中所占的比重越大。说白了，猫的所有特征的权重并不是统一的，比如黑夜里突然一个东西跳了出来，你怎么判断它是什么物种？很明显，一声“喵呜”我们就可以立刻断定这是一只猫，所以叫声特征的权重一定大于其他特征的权重。

最后是b，也就是偏差(bias)，偏差通常是一个实数，与神经元的权重一样，也是通过训练神经网络而调整的参数。偏差的作用是在神经元的输入上增加一个常量，以调整神经元的激活阈值。如果没有偏差，那么神经元的激活函数将仅仅取决于加权和的值，而无法产生任何偏移。

说白了，b就是让x * w的值更活一点，让它不是“死”的数。

最后说说f 也就是激活函数，激活函数通常具有非线性的特性，这使得神经网络能够拟合非线性的复杂函数，从而提高其性能和准确度。

其实未必，机器学习还包括两个极其重要的概念：前向传播和反向传播。

前向传播是指将输入数据从神经网络的输入层传递到输出层的过程。在前向传播过程中，输入数据通过神经网络的每一层，每个神经元都会对其进行一定的加权和激活函数计算，最终得到输出层的输出值。这个过程也被称为“正向传播”，因为数据是从输入层依次向前传播到输出层。

反向传播是指在前向传播之后，计算神经网络误差并将误差反向传播到各层神经元中进行参数（包括权重和偏置）的更新。在反向传播过程中，首先需要计算网络的误差，然后通过链式法则将误差反向传播到各层神经元，以更新每个神经元的权重和偏置。这个过程也被称为“反向梯度下降”，因为它是通过梯度下降算法来更新神经网络参数的。

说白了，前向传播就是由特征到结果的过程，反向传播则是逆运算，用结果反推过程。

回到分类问题，我们输入了猫的特征和特征权重，经过计算，结果未必是猫，可能是狗，或者是耗子，也可能是别的什么东西，但这不重要，重要的是我们需要拿到一个结果的误差，这个误差越小越好，而反向传播就是帮我们推算误差到底有多大的方法。

而误差的大小就取决于特征的输入，导致机器学习结果错误的根源是参数，此时，我们需要调整参数的输入，从而减小误差值，这也就是人工智能行业从业人员经常说的“调参”。

结论

人工智能机器学习就像餐饮行业的厨师岗，所谓做菜，底层原理是什么？就是食材和火候，掌握了做菜的底层原理，就能做出好菜，其他的，比如刀工、颜色等等，不过就是锦上添花的东西，而已。

所以机器学习就是做菜，做出来的东西可能不尽如人意，就得不停地调整食材的搭配和火候的大小，所谓机器学习的最重要技巧，其实是特征的提取以及参数的调整，所谓大道至简，殊途同归。

项目介绍-社交视频平台-推荐系统