使用类似 Hugo Hexo 静态生成的网站注意了

2bad4u · 2025-3-10 19:28:27 · 3803 次点击

问了 google 的 genimi 说是静态生成的网站,比如:

首页:

domain.com
domain.com/
domain.com/index.html

pages:

domain.com/about
domain.com/about/
domain.com/about/index.html

blog:

domain.com/blog/article-name
domain.com/blog/article-name/
domain.com/blog/article-name/index.html

对于 GOOGLE 来说每一个 URL 都是不同的实体,就算多一个/也是不同的,GOOGLE BOOT 会判你大量内容重复,降低你的权重。

举报· 3803 次点击
登录 注册 站外分享
35 条回复  
shuangbiaog 初学 2025-3-10 19:36:05
用 sitemap 或许能解决,让爬虫只抓取特定 URL ?
2bad4u 楼主 小成 2025-3-10 19:37:44
@shuangbiaog 八百年前 GOOGLE 就不爬 SITEMAP 了
Pipecraft 小成 2025-3-10 19:44:09
我记得网页里设置 canonical 就可以,上面三种都设置成一个 canonical url ,就没事。
2bad4u 楼主 小成 2025-3-10 19:45:53
@Pipecraft genimi 说 GOOGLE BOOT 有概率会忽略 canonical
Pipecraft 小成 2025-3-10 19:48:31
@2bad4u #4 这太坑了
w568w 小成 2025-3-10 20:12:40
有文档来源吗,你的消息来源全是不加验证地问大模型?
yangzair 小成 2025-3-10 20:49:16
并不会,会放入"已发现,尚未编入索引"里面
2bad4u 楼主 小成 2025-3-10 20:51:52
@w568w GEMINI 是免费用的,你问它就是了。验证的话,请问怎么验证 GOOGLE 的规则?
2bad4u 楼主 小成 2025-3-10 20:54:10
@yangzair 如果你有自己的服务器,看过 GOOGLE BOOT 的抓取规则,你就不会这么说了,GOOGLE 真的什么都爬,不仅仅是你 SITEMAP 或者是内链上的 URL ,它自己会爬很多 URL 有点像暴力破解那种
1234下一页
返回顶部