物以类聚人以群分,通过GensimLda文本聚类算法构建人工智能个性化推荐系统(Python3.10)

首页 - Python/2023-01-09

标签: GensimLda Python3.10 个性化人以群分人工智能推荐文本构建物以类聚算法系统聚类通过

物以类聚人以群分,通过GensimLda文本聚类算法构建人工智能个性化推荐系统(Python3.10)

众所周知，个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容，使得用户更感兴趣，从而提升用户体验，提高用户粘度，之前我们曾经使用协同过滤算法构建过个性化推荐系统，但基于显式反馈的算法就会有一定的局限性，本次我们使用无监督的Lda文本聚类方式来构建文本的个性化推荐系统。

推荐算法:协同过滤/Lda聚类

我们知道，协同过滤算法是一种基于用户的历史行为来推荐物品的算法。协同过滤算法利用用户之间的相似性来推荐物品，如果两个用户对某些物品的评分相似，则协同过滤算法会将这两个用户视为相似的，并向其中一个用户推荐另一个用户喜欢的物品。

说白了，它基于用户的显式反馈，什么是显式反馈？举个例子，本如本篇文章，用户看了之后，可能会点赞，也可能会疯狂点踩，或者写一些关于文本的评论，当然评论内容可能是负面、正面或者中性，所有这些用户给出的行为，都是显式反馈，但如果用户没有反馈出这些行为，就只是看了看，协同过滤算法的效果就会变差。

LDA聚类是一种文本聚类算法，它通过对文本进行主题建模来聚类文本。LDA聚类算法在聚类文本时，不考虑用户的历史行为，而是根据文本的内容和主题来聚类。

说得通俗一点，协同过滤是一种主动推荐，系统根据用户历史行为来进行内容推荐，而LDA聚类则是一种被动推荐，在用户还没有产生用户行为时，就已经开始推荐动作。

LDA聚类的主要目的是将文本分为几类，使得每类文本的主题尽可能相似。

LDA聚类算法的工作流程大致如下：

1.对文本进行预处理，去除停用词等。

2.使用LDA模型对文本进行主题建模，得到文本的主题分布。

3.将文本按照主题分布相似性进行聚类。

4.将聚类结果作为类标签，对文本进行分类。

大体上，LDA聚类算法是一种自动将文本分类的算法，它通过对文本进行主题建模，将文本按照主题相似性进行聚类，最终实现文本的分类。

Python3.10实现

实际应用层面，我们需要做的是让主题模型能够识别在文本里的主题，并且挖掘文本信息中隐式信息，并且在主题聚合、从非结构化文本中提取信息。

首先安装分词以及聚类模型库：

pip3 install jieba
pip3 install gensim

随后进行分词操作，这里以笔者的几篇文章为例子：

import jieba
import pandas as pd
import numpy as np
title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"
title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"
title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"
title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"
content = [title1,title2, title3,title4]


#分词
content_S = []
all_words = []
for line in content:
    current_segment = [w for w in jieba.cut(line) if len(w)>1]
    for x in current_segment:
        all_words.append(x)
    if len(current_segment) > 1 and current_segment != '\r\t':
        content_S.append(current_segment)
#分词结果转为DataFrame
df_content = pd.DataFrame({'content_S':content_S})

print(all_words)

可以看到，这里通过四篇文章标题构建分词列表，最后打印分词结果：

['乾坤', '挪移', '如何', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现', 'Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现', '周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18', '彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']

接着就可以针对这些词进行聚类操作，我们可以先让ChatGPT帮我们进行聚类看看结果：

可以看到，ChatGPT已经帮我们将分词结果进行聚类操作，分为两大类：Python和Golang。

严谨起见，我们可以针对分词结果进行过滤操作，过滤内容是停用词，停用词是在文本分析、自然语言处理等应用中，用来过滤掉不需要的词的。通常来说，停用词是指在英文中的介词、代词、连接词等常用词，在中文中的助词、介词、连词等常用词：

———
》），
）÷（１－
”，
）、
＝（
:
→
℃ 
&
*
一一
~~~~
’
. 
『
.一
./
-- 
』
＝″
【
［＊］
｝＞
［⑤］］
［①Ｄ］
ｃ］
ｎｇ昉
＊
//
［
］
［②ｅ］
［②ｇ］
＝｛
}
，也 
‘
Ａ
［①⑥］
［②Ｂ］ 
［①ａ］
［④ａ］
［①③］
［③ｈ］
③］
１． 
－－ 
［②ｂ］
’‘ 
××× 
［①⑧］
０：２ 
＝［
［⑤ｂ］
［②ｃ］ 
［④ｂ］
［②③］
［③ａ］
［④ｃ］
［①⑤］
［①⑦］
［①ｇ］
∈［ 
［①⑨］
［①④］
［①ｃ］
［②ｆ］
［②⑧］
［②①］
［①Ｃ］
［③ｃ］
［③ｇ］
［②⑤］
［②②］
一.
［①ｈ］
.数
［］
［①Ｂ］
数/
［①ｉ］
［③ｅ］
［①①］
［④ｄ］
［④ｅ］
［③ｂ］
［⑤ａ］
［①Ａ］
［②⑧］
［②⑦］
［①ｄ］
［②ｊ］
〕〔
］［
://
′∈
［②④
［⑤ｅ］
１２％
ｂ］
...
...................
…………………………………………………③
ＺＸＦＩＴＬ
［③Ｆ］
」
［①ｏ］
］∧′＝［ 
∪φ∈
′｜
｛－
②ｃ
｝
［③①］
Ｒ．Ｌ．
［①Ｅ］
Ψ
－［＊］－
↑
.日 
［②ｄ］
［②
［②⑦］
［②②］
［③ｅ］
［①ｉ］
［①Ｂ］
［①ｈ］
［①ｄ］
［①ｇ］
［①②］
［②ａ］
ｆ］
［⑩］
ａ］
［①ｅ］
［②ｈ］
［②⑥］
［③ｄ］
［②⑩］
ｅ］
〉
】
元／吨
［②⑩］
２．３％
５：０  
［①］
::
［②］
［③］
［④］
［⑤］
［⑥］
［⑦］
［⑧］
［⑨］ 
……
——
?
、
。
“
”
《
》
！
，
：
；
？
．
,
．
'
? 
·
———
──
? 
—
<
>
（
）
〔
〕
[
]
(
)
-
+
～
×
／
/
①
②
③
④
⑤
⑥
⑦
⑧
⑨
⑩
Ⅲ
В
"
;
#
@
γ
μ
φ
φ．
× 
Δ
■
▲
sub
exp 
sup
sub
Lex 
＃
％
＆
＇
＋
＋ξ
＋＋
－
－β
＜
＜±
＜Δ
＜λ
＜φ
＜＜
=
＝
＝☆
＝－
＞
＞λ
＿
～±
～＋
［⑤ｆ］
［⑤ｄ］
［②ｉ］
≈ 
［②Ｇ］
［①ｆ］
ＬＩ
㈧ 
［－
......
〉
［③⑩］
第二
一番
一直
一个
一些
许多
种
有的是
也就是说
末##末
啊
阿
哎
哎呀
哎哟
唉
俺
俺们
按
按照
吧
吧哒
把
罢了
被
本
本着
比
比方
比如
鄙人
彼
彼此
边
别
别的
别说
并
并且
不比
不成
不单
不但
不独
不管
不光
不过
不仅
不拘
不论
不怕
不然
不如
不特
不惟
不问
不只
朝
朝着
趁
趁着
乘
冲
除
除此之外
除非
除了
此
此间
此外
从
从而
打
待
但
但是
当
当着
到
得
的
的话
等
等等
地
第
叮咚
对
对于
多
多少
而
而况
而且
而是
而外
而言
而已
尔后
反过来
反过来说
反之
非但
非徒
否则
嘎
嘎登
该
赶
个
各
各个
各位
各种
各自
给
根据
跟
故
故此
固然
关于
管
归
果然
果真
过
哈
哈哈
呵
和
何
何处
何况
何时
嘿
哼
哼唷
呼哧
乎
哗
还是
还有
换句话说
换言之
或
或是
或者
极了
及
及其
及至
即
即便
即或
即令
即若
即使
几
几时
己
既
既然
既是
继而
加之
假如
假若
假使
鉴于
将
较
较之
叫
接着
结果
借
紧接着
进而
尽
尽管
经
经过
就
就是
就是说
据
具体地说
具体说来
开始
开外
靠
咳
可
可见
可是
可以
况且
啦
来
来着
离
例如
哩
连
连同
两者
了
临
另
另外
另一方面
论
嘛
吗
慢说
漫说
冒
么
每
每当
们
莫若
某
某个
某些
拿
哪
哪边
哪儿
哪个
哪里
哪年
哪怕
哪天
哪些
哪样
那
那边
那儿
那个
那会儿
那里
那么
那么些
那么样
那时
那些
那样
乃
乃至
呢
能
你
你们
您
宁
宁可
宁肯
宁愿
哦
呕
啪达
旁人
呸
凭
凭借
其
其次
其二
其他
其它
其一
其余
其中
起
起见
起见
岂但
恰恰相反
前后
前者
且
然而
然后
然则
让
人家
任
任何
任凭
如
如此
如果
如何
如其
如若
如上所述
若
若非
若是
啥
上下
尚且
设若
设使
甚而
甚么
甚至
省得
时候
什么
什么样
使得
是
是的
首先
谁
谁知
顺
顺着
似的
虽
虽然
虽说
虽则
随
随着
所
所以
他
他们
他人
它
它们
她
她们
倘
倘或
倘然
倘若
倘使
腾
替
通过
同
同时
哇
万一
往
望
为
为何
为了
为什么
为着
喂
嗡嗡
我
我们
呜
呜呼
乌乎
无论
无宁
毋宁
嘻
吓
相对而言
像
向
向着
嘘
呀
焉
沿
沿着
要
要不
要不然
要不是
要么
要是
也
也罢
也好
一
一般
一旦
一方面
一来
一切
一样
一则
依
依照
矣
以
以便
以及
以免
以至
以至于
以致
抑或
因
因此
因而
因为
哟
用
由
由此可见
由于
有
有的
有关
有些
又
于
于是
于是乎
与
与此同时
与否
与其
越是
云云
哉
再说
再者
在
在下
咱
咱们
则
怎
怎么
怎么办
怎么样
怎样
咋
照
照着
者
这
这边
这儿
这个
这会儿
这就是说
这里
这么
这么点儿
这么些
这么样
这时
这些
这样
正如
吱
之
之类
之所以
之一
只是
只限
只要
只有
至
至于
诸位
着
着呢
自
自从
自个儿
自各儿
自己
自家
自身
综上所述
总的来看
总的来说
总的说来
总而言之
总之
纵
纵令
纵然
纵使
遵照
作为
兮
呃
呗
咚
咦
喏
啐
喔唷
嗬
嗯
嗳

这里使用哈工大的停用词列表。

首先加载停用词列表，然后进行过滤操作：

#去除停用词
def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(word)
        contents_clean.append(line_clean)
    return contents_clean,all_words

#停用词加载
stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)
contents = df_content.content_S.values.tolist()

contents_clean,all_words = drop_stopwords(contents,stopwords)

接着交给Gensim进行聚类操作：

from gensim import corpora,models,similarities
import gensim
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=2,random_state=3)

#print(lda.print_topics(num_topics=2, num_words=4))

for e, values in enumerate(lda.inference(corpus)[0]):
    print(content[e])
    for ee, value in enumerate(values):
        print('\t分类%d推断值%.2f' % (ee, value))

这里使用LdaModel模型进行训练，分类设置(num_topics)为2种，随机种子(random_state)为3，在训练机器学习模型时，很多模型的训练过程都会涉及到随机数的生成，例如随机梯度下降法（SGD）就是一种随机梯度下降的优化算法。在训练过程中，如果不设置random_state参数，则每次训练结果可能都不同。而设置random_state参数后，每次训练结果都会相同，这就方便了我们在调参时对比模型的效果。如果想要让每次训练的结果都随机，可以将random_state参数设置为None。

程序返回：

[['乾坤', '挪移', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现'], ['Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现'], ['周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18'], ['彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']]
乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。
        分类0推断值0.57
        分类1推断值14.43
Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现
        分类0推断值0.58
        分类1推断值15.42
周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)
        分类0推断值12.38
        分类1推断值0.62
彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07
        分类0推断值19.19
        分类1推断值0.81

可以看到，结果和ChatGPT聚类结果一致，前两篇为一种分类，后两篇为另外一种分类。

随后可以将聚类结果保存为模型文件：

lda.save('mymodel.model')

以后有新的文章发布，直接对新的文章进行分类推测即可：

from gensim.models import  ldamodel
import pandas as pd
import jieba
from gensim import corpora

doc0="巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)"
# 加载模型
lda = ldamodel.LdaModel.load('mymodel.model')

content = [doc0]

#分词
content_S = []
for line in content:
    current_segment = [w for w in jieba.cut(line) if len(w)>1]
    if len(current_segment) > 1 and current_segment != '\r\t':
        content_S.append(current_segment)
#分词结果转为DataFrame
df_content = pd.DataFrame({'content_S':content_S})


#去除停用词
def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(word)
        contents_clean.append(line_clean)
    return contents_clean,all_words

#停用词加载
stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)
contents = df_content.content_S.values.tolist()

contents_clean,all_words = drop_stopwords(contents,stopwords)


dictionary = corpora.Dictionary(contents_clean)

word = [w for w in jieba.cut(doc0)]

bow = dictionary.doc2bow(word)
print(lda.get_document_topics(bow))

程序返回：

➜  nlp_chinese /opt/homebrew/bin/python3.10 "/Users/liuyue/wodfan/work/nlp_chinese/new_text.py"
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/5x/gpftd0654bv7zvzyv39449rc0000gp/T/jieba.cache
Loading model cost 0.264 seconds.
Prefix dict has been built successfully.
[(0, 0.038379338), (1, 0.9616206)]

这里显示文章推断结果为分类2，也就是Golang类型的文章。

完整调用逻辑：

import jieba
import pandas as pd
import numpy as np
from gensim.models import  ldamodel
from gensim import corpora,models,similarities
import gensim


class LdaRec:

    def __init__(self,cotent:list) -> None:
        
        self.content = content
        self.contents_clean = []
        self.lda = None

    def test_text(self,content:str):

        self.lda = ldamodel.LdaModel.load('mymodel.model')
        self.content = [content]

        #分词
        content_S = []
        for line in self.content:
            current_segment = [w for w in jieba.cut(line) if len(w)>1]
            if len(current_segment) > 1 and current_segment != '\r\t':
                content_S.append(current_segment)
        #分词结果转为DataFrame
        df_content = pd.DataFrame({'content_S':content_S})

        contents = df_content.content_S.values.tolist()

        dictionary = corpora.Dictionary(contents)

        word = [w for w in jieba.cut(content)]

        bow = dictionary.doc2bow(word)
        print(self.lda.get_document_topics(bow))


    # 训练
    def train(self,num_topics=2,random_state=3):

        dictionary = corpora.Dictionary(self.contents_clean)
        corpus = [dictionary.doc2bow(sentence) for sentence in self.contents_clean]
        self.lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=num_topics,random_state=random_state)

        for e, values in enumerate(self.lda.inference(corpus)[0]):
            print(self.content[e])
            for ee, value in enumerate(values):
                print('\t分类%d推断值%.2f' % (ee, value))


    # 过滤停用词
    def drop_stopwords(self,contents,stopwords):
        contents_clean = []
        for line in contents:
            line_clean = []
            for word in line:
                if word in stopwords:
                    continue
                line_clean.append(word)
            contents_clean.append(line_clean)
        return contents_clean

    def cut_word(self) -> list:
        #分词
        content_S = []
        for line in self.content:
            current_segment = [w for w in jieba.cut(line) if len(w)>1]
            if len(current_segment) > 1 and current_segment != '\r\t':
                content_S.append(current_segment)

        #分词结果转为DataFrame
        df_content = pd.DataFrame({'content_S':content_S})

        # 停用词列表
        stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)

        contents = df_content.content_S.values.tolist()
        stopwords = stopwords.stopword.values.tolist()

        self.contents_clean = self.drop_stopwords(contents,stopwords)


if __name__ == '__main__':
    
    title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"
    title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"
    title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"
    title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"
    content = [title1,title2, title3,title4]

    lr = LdaRec(content)

    lr.cut_word()

    lr.train()

    lr.lda.save('mymodel.model')

    lr.test_text("巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)")

至此，基于聚类的推荐系统构建完毕，每一篇文章只需要通过既有分类模型进行训练，推断分类之后，给用户推送同一分类下的文章即可，截止本文发布，该分类模型已经在本站进行落地实践：

结语

金无足赤，LDA聚类算法也不是万能的，LDA聚类算法有许多超参数，包括主题个数、学习率、迭代次数等，这些参数的设置对结果有很大影响，但是很难确定最优参数，同时聚类算法的时间复杂度是O(n^2)级别的，在处理大规模文本数据时，计算速度较慢，反之，在样本数据较少的情况下，模型的泛化能力较差。最后，奉上项目地址，与君共觞：https://github.com/zcxey2911/Lda-Gensim-Recommended-System-Python310