15 条回复  ·  1779 次点击
coderluan 初学 2024-12-10 14:26:27
这事取决于你要爬的平台,有的平台反爬严格,你不光需要技术,还得有对应的资源才能爬。有的反爬简单,你简单学一下 html ,然后 F12 能打开页面找到 Dom ,然后直接发给 gpt ,让它给你用 scrapy 生成对应的爬虫就行了。
drush 初学 2024-12-10 14:34:15
洗稿就算了,还要自动化 [手动狗头
wnpllrzodiac 初学 2024-12-10 14:37:41
面向监狱编程的技巧不好学习啊。真是。
tthem 楼主 小成 2024-12-10 15:42:45
@YJi 图片挂了,大佬可以加一下我朋友 RnJhbmsxMHc=
YJi 小成 2024-12-10 15:45:01
@tthem #13 已加莫辜负哈哈,图片是表情包
NoOneNoBody 小成 2024-12-10 16:00:38
你这个量(约每天一篇)根本就不是爬虫 说到底这个每天一篇是筛选后的结果?如果目标很明确不需要人工筛选,那写个小脚本自动访问就可以了,类似自动签到的脚本;但如果目标不明确,要在一堆海量文章选 30 篇,这个才需要爬虫,但这个筛选过程就异常的难了,自动化的话需要可能上百个条件做判断,还是说筛选过程就交给 AI ?人工筛选? 第二步将 30 篇归纳概括为最终一篇文章,这个用 api 倒不是难事,如果想本地实现,那花费就不是“小白”承担得起的 个人建议先确定这 30 篇怎么来,容易获取可以 gpt 帮忙写个小脚本,需要海量后筛的就付费请人吧
12
返回顶部