互聯網檔案館的網站時光機(Wayback Machine)使用爬蟲自動抓取網頁並存檔。使用時光機功能可以查看一個網頁不同時間的狀態。
1996年 Alexa 創始人布魯斯特·卡利在創建 Alexa 的同時也創建了互聯網檔案館並開始收集存儲數據,直到2001年“時光機”功能上線,可以透過“時光機”訪問最早1996年的網頁存檔。
使用時光機可以查看一個公開的網頁在修改、移動或消失之前所保存的副本。
訪問 https://archive.org/web/ 輸入網頁地址點擊 “BROWSE HISTORY” 會顯示一個以日期列出的該網頁的歷史存檔。
隨著時間的推移網站時光機保存了超過4000億個網頁,儘管數量龐大但也有很多無法找到的歷史內容。
除了爬蟲自動抓取,還可以手動提交網頁地址將一個頁面永久保存,以防止某個網頁在將來丟失或修改。
在頁面右下角的“Save Page Now”處輸入原始URL並點擊SAVE PAGE按鈕,時光機將會保存當天的頁面。
閱讀更多 妝修 的文章