全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2310|回复: 43

[经验] 张少涵教程:Python词云制作——以HOH言论为例

[复制链接]
发表于 2023-12-26 15:34:22 | 显示全部楼层 |阅读模式
本帖最后由 张少涵 于 2023-12-26 19:45 编辑




词云是对文本内容进行可视化呈现的一种方式,它会对文本中出现频率较高的词进行视觉上的突出, 词语出现的频率越高,字体就会越大,颜色也会越醒目。通过查看词云图,我们能快速获取文本中的主要内容。(摘抄自 https://cloud.tencent.com/developer/article/2160340)

1. 首先需要HOH的历史发言,使用爬虫可以得到。放入附件中了,需要的人可以自行下载。

2. 安装所需的pip包

  1. pip install wordcloud # 主包,会自动安装多个绘图所需的包
  2. pip install jieba # 汉字分词
复制代码


3. 下载中文字体包
GitHub上已经有人提供了,https://raw.githubusercontent.com/StellarCN/scp_zh/master/fonts/SimHei.ttf,可以直接下载
可以使用wget等下载,如
  1. wget https://raw.githubusercontent.com/StellarCN/scp_zh/master/fonts/SimHei.ttf
复制代码


4. 主程序
要注意文件的路径,HOH的废话太多了,有很多无意义的内容,所以使用了屏蔽词功能。

  1. import matplotlib.pyplot as plt
  2. import jieba
  3. from wordcloud import WordCloud, STOPWORDS

  4. path = r'./hoh.txt'

  5. # 读取文本文件
  6. with open(path, 'r', encoding='utf-8') as f:
  7.     text = f.read()

  8. # 使用jieba进行分词
  9. wordlist = jieba.cut(text, cut_all=False)
  10. wl = " ".join(wordlist)

  11. # 增加屏蔽词
  12. STOPWORDS.update(['吧', '是', '我', '了', '有', '都', '不', '就', '还', '没', '的', '你', '在', '也', '这'])

  13. # 创建WordCloud对象,使用SimHei.ttf中文字体
  14. wc = WordCloud(font_path='./SimHei.ttf', background_color='white',
  15.                stopwords=STOPWORDS, max_font_size=200,
  16.                max_words=500, width=1920, height=1080)

  17. # 生成词云
  18. myword = wc.generate(wl)

  19. # 显示词云
  20. plt.imshow(myword)
  21. plt.axis("off")
  22. # plt.show()
  23. wc.to_file(r'./wordcloud.png')
复制代码







进一步屏蔽了单个字,左下角有个大大的“反思

hoh.zip

45 KB, 下载次数: 13

hoh历史发言记录

发表于 2023-12-26 16:05:19 | 显示全部楼层
别人拉屎 你还要收集起来研究下什么成分
 楼主| 发表于 2023-12-27 09:58:09 | 显示全部楼层
科比牢大 发表于 2023-12-26 15:46
给我董国泰也搞一个

搞好了,不得不说,这个人的信息量很大,比HOH的废话强多了

点评

哈哈 太典了  发表于 2023-12-27 10:00
发表于 2023-12-26 20:00:26 | 显示全部楼层
毫无意义  屁用没有
 楼主| 发表于 2023-12-26 19:47:05 | 显示全部楼层
三不 发表于 2023-12-26 15:50
帅哥,给我生一个,想看看我在loc说的最多是啥?来这里好几年了

你的关键词全是黄和买卖东西

发表于 2023-12-26 15:46:23 | 显示全部楼层
给我董国泰也搞一个
 楼主| 发表于 2023-12-26 15:41:07 | 显示全部楼层

有的,最右侧有个“反思”
发表于 2023-12-26 15:36:09 | 显示全部楼层
前排支持  zsbd
发表于 2023-12-26 15:36:11 | 显示全部楼层
这是要做h2o评论生成器吗
发表于 2023-12-26 15:38:14 | 显示全部楼层
给张少涵点赞
 楼主| 发表于 2023-12-26 15:39:50 | 显示全部楼层
蓝瘦香菇 发表于 2023-12-26 15:36
这是要做h2o评论生成器吗

我尝试使用LORA微调llama2模型,确实可以做出来评论生成器,但是特别阴阳怪气,让人生理不适。可能是我还没有调整好。
发表于 2023-12-26 15:40:24 | 显示全部楼层
你跟张少涵是真爱啊 ,@HOH
发表于 2023-12-26 15:42:34 | 显示全部楼层
HOH人呢
发表于 2023-12-26 15:42:45 | 显示全部楼层
张少涵 发表于 2023-12-26 15:39
我尝试使用LORA微调llama2模型,确实可以做出来评论生成器,但是特别阴阳怪气,让人生理不适。可能是我还 ...

哈哈,可以可以,再训练训练
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-21 09:26 , Processed in 0.078542 second(s), 14 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表