全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 3584|回复: 21

[翻译] (已解决)50元能否求到一个爬虫小程序?

[复制链接]
发表于 2021-4-7 15:06:44 | 显示全部楼层 |阅读模式
本帖最后由 liumer 于 2021-4-7 16:18 编辑

目标:爬取淘宝试用报告的网址,淘宝试用的网址是:https://try.taobao.com,我想要获取的网址如下格式:
https://try.taobao.com/report/view.htm?&itemId=33658159&reportId=58922205
其中33658159是试用商品ID,58922205是报告的ID

由于试用网只能显示前500页,没办法直接用采集器采集到所有的报告(其实前期我已自己用采集器采集了可以采集的报告,大约14W,主要还是嫌不够,想请高手是否能从爬虫的思路爬取到所有报告链接)


由于数据庞大,我把要求强调一下:
1、尽量能获取所有报告链接(数量可能相当庞大,有可能上百万上千万数据),所以要考虑存贮链接的文件格式及分多个文件存贮的需要,另外要考虑程序中途意外退出后能再次从退出处开始爬的情况。

2、由于我对爬虫不懂,要求程序编绎成exe可运行格式。

3、由于我不知道编写此程序工作量大小,如果价格相差较多,可以跟贴说明。

我的联系方式:qq602894675


________________________________________________________________________________________________

看到下面兄弟们的回复,看来我想简单了,应该是求不到了。
我的思路想得比较简单,就是按试用商品地址:https://try.taobao.com/item.htm?id=30240157#tab-report
上面地址的商品ID从1开始往上循环,遇到有报告的情况就纪录下报告地址,没有报告就继续循环。
我想虽然数据量大,但逻辑好像并不复杂
可能是我想简单了。



----------------------------------------------------------------------------------------------------------------------------------------------------------------------

已搞定,大家的回复吓死我了。
一位哥们给我写了个火车头采集规则,完美解决。
发表于 2021-4-7 15:26:27 来自手机 | 显示全部楼层
50块淘宝买爬虫教程视频,自己学完做一个现实点
发表于 2021-4-7 15:07:14 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
OXO 该用户已被删除
发表于 2021-4-7 15:08:06 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2021-4-7 15:08:38 | 显示全部楼层
你知道一个程序员的工资是多少么?
你知道这个要几天时间么?
50。。笑死我了,你找人搬砖都不够。
发表于 2021-4-7 15:10:09 | 显示全部楼层
找学生给你开发都不够
发表于 2021-4-7 15:20:07 | 显示全部楼层
50块,这程序猿,有点廉价。
发表于 2021-4-7 15:32:49 来自手机 | 显示全部楼层
加两个零也是不提供源码的
发表于 2021-4-7 15:33:10 | 显示全部楼层
自己做吧
有兴趣50块帮你做的,都是非专业人士,只是想练下手。
专业人士,50块连电脑都不想开。
发表于 2021-4-7 15:34:05 | 显示全部楼层
爬虫写的好  牢饭吃的早
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-27 03:32 , Processed in 0.086371 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表