На момент написания статьи эта служба, похоже, не работает должным образом («Database Exception (#2002)»). Если у вас есть новости на эту тему, опубликуйте их в комментариях.
HackWare.ru
В этой статье мы поговорим об архивах веб-сайтов или интернет-архивах: как искать удаленную информацию с веб-сайтов, как загружать веб-сайты, которые больше не существуют, а также другие примеры и сценарии использования.
Принцип работы всех интернет-файлов схож: кто-то (любой пользователь) указывает страницу, которую нужно сохранить. Internet Archive загружает его, включая текст, изображения и макеты, а затем сохраняет. По запросу сохраненные страницы могут быть просмотрены Интернет-архивом, независимо от того, изменилась ли исходная страница, недоступен ли сайт в настоящее время или больше не существует.
Многие веб-архивы хранят несколько версий одной и той же страницы, делая ее снимок в разное время. Это позволит вам увидеть, как изменился сайт за прошедшие годы.
В этой статье показано, как найти удаленную или измененную информацию, как использовать веб-архив для восстановления веб-сайтов, отдельных страниц или файлов, а также некоторые другие способы использования.
The Wayback Machine — это название одного из самых популярных архивов веб-сайтов. Иногда Wayback Machine используется как синоним Internet Archive.
web.archive.org
Эта служба веб-архива также известна как Wayback Machine. Он имеет множество дополнительных функций и часто используется инструментами для обнаружения веб-сайтов.
Чтобы заархивировать страницу, перейдите на сайт https://archive.org/web/, введите адрес страницы и нажмите кнопку «Сохранить страницу».
Чтобы просмотреть архивные версии веб-страниц, зайдите на сайт https://archive.org/web/, введите адрес нужной вам страницы или раздела сайта и нажмите на кнопку «BROWSE HISTORY»:
В верхней части страницы указано количество изображений, дата первого изображения и дата последнего изображения.
Затем появится временная шкала, где вы можете выбрать нужный вам год. При выборе года календарь обновляется.
Обратите внимание, что календарь показывает не то, как часто сайт изменялся, а то, как часто сайт архивировался.
Точки в календаре обозначают различные события, а разные цвета имеют разное значение для записи веб-страниц. Синий цвет означает, что архив получил от веб-сервера код ответа 2nn (все ОК); зеленый цвет означает, что архив получил статус 3nn (перенаправление); оранжевый цвет означает статус 4nn (ошибка на стороне клиента, например, страница не найдена); красный цвет означает, что архив получил статус 5nn (проблемы на сервере). Синие и зеленые точки и ссылки должны представлять для вас больший интерес.
Если вы нажмете на определенное время, откроется ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/, и вы сможете увидеть, как выглядела страница в это время:
С помощью этой миниатюры можно перейти к следующему снимку на странице или к нужной дате:
Лучший способ увидеть все файлы, заархивированные для определенного сайта, — открыть ссылку типа http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/.
В дополнение к журналу доступны следующие страницы:
- Коллекции — Коллекции. Доступна в качестве дополнительной функции для зарегистрированных пользователей и по подписке.
- Изменения
- Резюме
- План участка
Changes
«Изменения» — это инструмент, позволяющий обнаруживать и просматривать изменения в содержимом архивных URL.
Вы можете начать с выбора двух разных дней определенного URL-адреса, щелкнув по соответствующим элементам:
И нажмите на кнопку Сравнить. Это покажет вам две версии страницы. Желтый цвет показывает удаленное содержимое, а синий — добавленное.
Summary
На этой вкладке отображается статистика по количеству измененных типов MIME.
archive.md
Адреса этого веб-архива:
На главной странице поля говорят сами за себя:
- Страница онлайнового архива
- Поиск сохраненных страниц
Вы можете искать сохраненные страницы, указывая конкретный URL или домены, например:
- microsoft.com отображает скриншоты с сервера microsoft.com
- *.microsoft.com отображает скриншоты хоста microsoft.com и всех его поддоменов (например, www.microsoft.com).
- http://twitter.com/burgerkingfor отображает URL-адрес файла (поиск с учетом близости)
- http://twitter.com/burg* Поиск файла, начинающегося с http://twitter.com/burg
Эта служба управляет следующими частями страницы:
- Текстовое содержимое веб-страницы
- Изображения
- Текстовое содержание сайта Текстовое содержание текстовых страниц
- Загруженное или созданное с помощью Javascript содержимое и изображения на сайтах Web 2.0
- Скриншоты 1024×768 пикселей.
Следующие части веб-страниц не сохраняются:
- Flash и загружаемое с него содержимое
- Видео и аудио
- RSS и другие XML-страницы хранятся небезопасно. Файлы RSS и XML не сохраняются или сохраняются как пустые страницы.
Размер архивируемой страницы и всех изображений не должен превышать 50 мегабайт.
Для каждой архивной страницы создается ссылка, например, http://archive.is/XXXXX, где XXXXX — уникальный идентификатор страницы. Вы также можете получить доступ к каждой архивной странице следующим образом
- http://archive.is/2013/http://www.google.de/ — самый последний снимок 2013 года.
- http://archive.is/201301/http://www.google.de/ — это последний снимок, сделанный в январе 2013 года.
- http://archive.is/20130101/http://www.google.de/ — последний снимок от 1 января 2013 года.
Дата может быть продолжена в часах, минутах и секундах:
- http://archive.is/2013010103/http://www.google.de/
- http://archive.is/201301010313/http://www.google.de/
- http://archive.is/20130101031355/http://www.google.de/
Для улучшения читаемости год, месяц, день, часы, минуты и секунды могут быть разделены полными остановками, дефисами или двоеточиями:
- http://archive.is/2013-04-17/http://blog.bo.lt/
- http://archive.is/2013.04.17-12:08:20/http://blog.bo.lt/
Также можно ссылаться на все экземпляры определенного URL:
Все сохраненные страницы домена:
Все сохраненные страницы всех поддоменов
Чтобы получить последнюю версию страницы в архиве или самую старую, используйте адреса в форме:
- http://archive.is/newest/http://reddit.com/
- http://archive.is/oldest/http://reddit.com/
Существует два способа ссылки на определенный раздел длинной страницы:
- Добавьте хэштег ( # ) с позицией качественной прокрутки, которая представляет собой число от 0 (верх страницы) до 100 (низ страницы). Например: http://archive.md/dva4n#95%
- Вы выделяете текст на страницах и получаете URL с хэштегом, указывающим на этот раздел. Например: http://archive.is/FWVL#selection-1493.0-1493.53
После изменения настроек веб-сканер больше не будет создавать архивные копии вашего сайта, а также удалит отпечатки, которые он создал ранее. Помните, однако, что ваш запрет действует только до тех пор, пока доступен robots.txt — если срок действия доменного имени истечет, машина времени сайта покажет статьи для всех.
Как выглядел сайт раньше
Прогресс, говорят они, невозможно остановить. Проходят месяцы и годы, технологии становятся все лучше и лучше, никого уже не удивляет мобильный телефон со спутниковой навигацией. А интернет позволяет нам общаться в режиме реального времени на противоположных концах планеты. Время проходит так быстро, что иногда мы даже не замечаем, как существенно меняются наши поступки. Это справедливо и для Интернета, где эволюция сетевых протоколов, стандартов и технологий изменила внешний вид и функциональность существующих веб-сайтов. В этой статье я предлагаю приподнять завесу времени и заглянуть в прошлое, чтобы увидеть, как выглядел сайт раньше, каким был внешний вид и функциональность ресурсов в те годы, и, возможно, это поможет вам понять, насколько далеко мы продвинулись в развитии цифровых технологий сегодня.
История архива Интернета
Как выглядел веб-сайт в прошлом, и какие инструменты могут помочь нам проследить историю интернета 5-10 лет назад? Более 20 лет назад, в 1996 году, энтузиаст Кейл Брюстер основал цифровой архив под названием «Архив Интернета» с лозунгом: «Доступ к знаниям для всех». С тех пор архив собирает и хранит копии веб-сайтов, графики, аудио- и видеофайлов, а также различного программного обеспечения, предоставляя собранную информацию в свободный доступ всем желающим.
В октябре 2016 года архив уже содержал 15 петабайт информации, а онлайн-архив проекта — более 150 миллиардов веб-страниц с различных сайтов.
Благодаря этому архиву мы теперь можем увидеть, как выглядели многие ресурсы 10-15-20 лет назад. Историю действий на вашем компьютере вы можете найти в статье, которую я уже написал.
Смотрим каким был сайт ранее
Как же мы можем увидеть сохраненные копии веб-сайтов? Давайте воспользуемся возможностями этого проекта и попытаемся приподнять завесу времени.
- Зайдите на сайт archive.org/web (под названием Wayback Machine),
- Введите адрес интересующего вас сайта в строку поиска (например, www.youtube.com):
- Нажмите на кнопку «История поиска» с правой стороны.
Он обработает запрос и покажет вам результаты. В верхней части вы найдете разбивку по годам, показывающую, в каком году сайт был впервые отслежен и зарегистрирован.
Например, нажмите на самый старый год (в случае YouTube это 2005 год), и вы получите полный журнал за этот год с разбивкой по месяцам. Дни, когда были сделаны «снимки», выделены синим цветом; в нашем случае первый «снимок» был сделан 28 апреля этого года.
Нажмите на 28 апреля и вы увидите, как выглядел YouTube 28 апреля 2005 года.
Соответственно, вы можете просматривать любые интересующие вас страницы.
Вы также можете работать напрямую с этой службой, набрав в адресной строке браузера:
http://web.archive.org/web/*/http://url интересующей вас страницы.
Если вы введете это в браузер и нажмете клавишу Enter, вы получите мгновенный обзор интересующих вас сайтов по годам, месяцам и дням.