16 条回复  ·  1850 次点击
JJJLG 初学 2025-5-9 10:24:07
1
mywaiting 小成 2025-5-9 10:28:50
Hacker News 的数据库很大程度算公开数据源,很多地方都有下载 1 、官方 API 接口,使用 Firebase 提供,近乎实时更新数据 https://github.com/HackerNews/API 2 、全量数据搜索接口,Algolia 提供,API 提供每 IP 每小时 1w 访问限制(等于无限制) https://hn.algolia.com/api 3 、graphql API 。它将允许您在单个请求中获取所有评论、用户和帖子 https://hngraphql.fly.dev/graphql 由于 HN 的数据本身就是公开的,爬虫抓取到本地意义不大
ammeto 初学 2025-5-9 10:32:19
赞👍
punkerhyde 初学 2025-5-9 10:34:13
66666666666666666
hidev 楼主 初学 2025-5-9 11:08:26
@mywaiting 这里用的就是官方 API ,下载下来目的是可以做一些离线分析,比如词云,比如训练个 Hacker News LLM
Akagi201 小成 2025-5-9 12:15:31
评论这么关键的数据没有啊? hn 主要价值就是评论啊
hidev 楼主 初学 2025-5-9 12:44:18
@Akagi201 目前是以帖子为主,后面我跑个全量数据看看,估计会很大
12
返回顶部