全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
123
返回列表 发新帖
楼主: 委员

最近在研究通用采集爬虫

[复制链接]
匿名
匿名  发表于 2022-5-24 09:33:51
是自动识别文章正文么?
发表于 2022-5-24 09:35:33 | 显示全部楼层
单纯的爬html源代码的形式不难,只是后面做语义分词和索引有点难度,再就是爬取的结果怎么安排权重,这地方够发表好几篇论文了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-5-13 16:39 , Processed in 0.054136 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表