每天推送5篇优质英文文章 · By makers, for makers

运营 1444 天, 推荐好文 6,070 篇, 原创简评 1,208,022 字, 原文总阅读时间 54,280 分钟, 180,462 人订阅

用支付宝、信用卡、PayPal 请我喝杯咖啡

未来研究我们这个时代历史的人必然要用到现在互联网上的信息。为了方便后人,现在我们需要把互联网上的哪些信息存下来?网站域名会过期、链接会失效、帖子会被删除,保存些什么、该怎么保存?

Internet Archive 的 Wayback Machine 保存了很多网页不同时期的样貌,但网站的 robots.txt 可以阻止他们爬虫的访问;互联网上大部分的信息是搜索引擎爬虫无法触及的。btw,Internet Archive 在旧金山的办公室附近有一家不错的麻辣香锅:)

打赏 如果你觉得我推荐的这篇文章(或我写的简评)不错,对你有所启发,可以考虑请我喝杯咖啡。
分享到:
Ads