相信很多人都有这样的疑问。同样有疑问的还有:百度、谷歌可以缓存别人的网页,我为啥不可以?别人网站自己写的 Terms of Service 具有法律效应?

如果非要抓取别人网站的内容,最佳实践:有官方 API 的,尽量用官方 API;征求站长的同意;光明正大地在爬虫的 user agent 里写明你是谁、给出网址解释为啥要抓取他们家的内容;咨询律师。

分享到: