В 2001 году компания Internet Archive запустила сервис под названием Wayback Machine. Это популярный веб-архив, расположенный по адресу https://archive.org/web/, предназначение которого — собирать данные обо всех (или по возможности обо всех) сайтах, существующих в Интернете.
Время от времени сервис архивирует страницы этих сайтов, а пользователи со всего мира получают свободный доступ к сохраненной информации. Чтобы посмотреть или использовать историю сайтов в работе, не требуется ни регистрация, ни какая-либо плата (разве что в виде небольшого пожертвования). Если только владельцы сайтов не закрывают к ним публичный доступ или не требуют удалить данные.
Рассказываем, что такое и как работает веб-архив сайтов Интернета, и как он помогает в быту специалистам из диджитал-сферы — в частности, при оптимизации сайтов.
Wayback Machine: что это и зачем
Сервис «Архив Интернета» был придуман в 1996 году, на заре развития современной Сети, программистом по имени Брюстер Кейл. Кейл решил создать проект, который сбережет на благо человечества всю информацию, которую только можно найти в Интернете. До сих пор он управляет работой Internet Archive и развивает его, причем не получает финансовой выгоды — инициатива была и остается некоммерческой (рекламы на сервисе нет).
В 2021 году вес архива составлял около 70 000 терабайт, которые хранятся на жестких дисках в штаб-квартире компании Кейла. Резервные копии находятся на серверах в Нидерландах, а также в Египте (в городе под названием Александрия). Выбор не случаен: для Кейла его проект — виртуальная аналогия Александрийской библиотеки, крупнейшей библиотеки древнего мира, где хранились знания, накопленные к тому времени человечеством.
Цели Кейла:
- сохранение культурного наследия человечества (особенно книг);
- демонстрация эволюции культуры общения в Интернете (это важно для ученых);
- предоставление цифровых доказательств (например, журналистам, пишущим на спорные темы различного характера).
В составе «Архива Интернета» находятся сведения примерно о 700 млрд сайтов и разнообразных файлов, созданных усилиями более 100 млн людей:
- 635 млрд веб-страниц (статей, текстов, контент-блоков и пр.);
- 34 млн книг;
- 4 млн изображений;
- 9,7 млн видео- и 14 млн аудиофайлов;
- 796 000 программ.
Данные о наполнении и истории веб-страниц копятся в архиве во многом за счет Wayback Machine — благодаря ботам компании или пользователям, которые делают на сервисе запросы по ссылкам на сайты. Для каждого сайта создается историческая копия, т. е. проводится сбор полноценных исторических информационных сведений:
- тематика сайта (или сегмент рынка, для которого он актуален);
- сведения о регистрации домена;
- исходный дизайн, интерфейс, настройки функционала, а также последующие изменения;
- контент — в том числе уникальный, авторский;
- архивы для восстановления при отсутствии резервной копии.
Сведения обычно остаются доступными, даже если сайт больше не работает или вообще не существует.
Принцип работы машины архива сходен с принципом работы поисковых роботов — она просматривает различные страницы, анализируя их содержимое. Алгоритмы веб-архива одновременно реализуют около 3 000 «обходов» сайтов:
- одни ходят по соцсетям или новостным агрегаторам;
- другие смотрят публикации в конкретных регионах;
- третьи работают с веб-страницами, которые предлагают заархивировать сами пользователи.
Для верности сервис сотрудничает с опытными представителями обычных библиотек, которые дают советы — что и когда стоит сохранять, а что не обязательно.
Работа с веб-архивом
Использование сервиса в первую очередь удобно тем, что он практически бесплатный. Во всяком случае, большую часть требуемых сведений здесь можно получить безвозмездно. Доступ к остальным открывается после пожертвования, единоразового или по принципу абонентской платы (ежемесячного). Есть информация, что плата по сути символическая, что вполне соответствует миссии сервиса.
URL интересующего сайта можно вбить в строку поиска как в шапке, так и на главной странице. Поиск также работает по запросам, которые имеют отношение к сайту (очень удобно!).
Итак, как пользоваться веб-архивом Wayback Machine? Как посмотреть архив веб-страниц?
При вводе ссылки или запроса открывается доступ к 6 вкладкам, которые содержат техническую информацию по искомому сайту. Над блоком хронологии при этом появляются данные, когда в первый и в последний (на момент обращения) раз был архивирован интересующий сайт и сколько было архиваций в целом.
При наведении на дату, выделенную синим, под строкой хронологии появляются эта дата и время, когда был сделан «снимок сайта». Нажимаешь на цифры — и выходит информация
Шесть вкладок имеют следующие названия и принцип работы.
Calendar — календарь
Демонстрирует, как менялся сайт с течением времени, какие разделы и страницы на нем создавали, что включало в себя их содержимое. «Снимки сайта» (snapshots), которые отмечаются разноцветными кружками, отмечают даты и время сохранения на момент внесения исправлений.
Синие кружки говорят о внесении рядовых изменений в записи, зеленые — о том, что изменялась информация о редиректах проекта. Еще есть красные, которые сигнализируют о внутренних ошибках архиватора Wayback Machine.
При этом данные сохраняются, даже если между изменениями прошло меньше 1 минуты (это означает, что оптимизаторам стоит максимально повышать точность работы).
В Site Elite данный функционал активно используется в SEO, в том числе на старте работ по продвижению. Когда к нам приходит новый проект, очень важно убедиться, что на домене сайта не было сайтов другой тематики. Если в прошлом направление ресурса радикально отличалось от текущего (или, тем более, на домене размещали контент 18+), это может буквально свести к нулю все усилия по оптимизации и выводу сайта в ТОП поиска.
Функционал Calendar помогает отследить смену тематики и в случае обнаружения аномалий принять меры для предотвращения возможных проблем при продвижении. Одна из таких мер — смена домена на адрес с тематической историей или же на полностью новый.
Кейс из собственной практики
За SEO-продвижением к нам пришел сайт услуг клининга. До нас ресурс уже продвигали, но безрезультатно. Мы проверили историю контента на домене с помощью Wayback Machine и обнаружили: несколько лет назад этот же сайт на протяжении длительного времени предлагал туристические услуги.
Снимок сайта, полученный в веб-архиве сервиса Wayback Machine
Требовалось убедиться, что проблемы ранжирования связаны именно с резкой сменой тематики домена. Для этого мы кардинально поменяли оптимизацию на тестовой группе страниц, дождались переиндексации. Реакция поисковых систем на изменения была нулевой.
Следовательно, могла помочь миграция сайта на новый домен без истории. Мы предложили это заказчику и получили согласие. После переезда позиции сайта начали расти, а поисковые системы оперативно реагировали на все доработки контента.
Топ-1 в рейтинге веб-студий, 10+ лет опыта, 800+ проектов. Мы знаем, как продвигать сайты любых тематик и конвертировать посетителей в покупателей. Первые результаты — через 1 месяц после начала работ.
Erid: 2Vtzqwr6UrV
Collections — коллекции
Здесь «снимки сайта», которые собрал сервис, распределены по определенным группам. Это распределение частично объясняет, почему одни страницы сайта индексируются, а другие — нет.
Благодаря таймлайну «Коллекций» можно наглядно увидеть, как выглядела конкретная страница в такой-то день столько-то лет назад
Changes — изменения
В отличие от вкладки календаря, эта вкладка помогает не просто увидеть, когда на сайт были внесены изменения, но и сравнить по адресу URL два варианта — два снимка страницы — до и после конкретного изменения.
Другими словами, можно быстро выявить различия между более ранней и более поздней версиями страниц, на которых содержание обновляется редко. Там, где это происходит регулярно (в ленте новостей, например), эта опция просто не нужна.
Любую отметку на календарной сетке можно выбирать и открывать на круговой диаграмме данных
Ознакомиться с диаграммами можно даже без перехода на сайт веб-архива — можно переходить туда с новой страницы любого браузера. Достаточно в адресной строке указать URL-адрес интересующей страницы после https://web.archive.org/web/changes/.
Надежные отсылки к изменениям содержимого страницы требуются, в частности, в случае разногласий с заказчиком, который отрицает свое влияние при внесении значительных правок.
Кейс из собственной практики
В начале сентября 2023 года к нам обратилась компания, предлагающая услуги фулфилмента для маркетплейсов. Проблема заключалась в следующем: после удаления нескольких небольших контентных блоков (и добавления пары новых) главная страница потеряла примерно 50 позиций в поиске Яндекса. Сайт разом просел из ТОП-5 в ТОП-60 выдачи.
С помощью функционала Changes мы отследили изменения, происходившие на сайте заказчика ранее:
Ввели ссылки на копии старой и новой версий страниц из веб-архива в текстовый анализатор и выявили все расхождения оптимизации, которые привели к падению позиций. В частности, оказалось, что из текстов на сайте ранее была убрана целая группа ключевиков, работавших на ранжирование.
Мы оперативно внесли доработки — вписали требующиеся тематические слова в контент — и вернули сайту ТОПовые позиции.
Summary — общие сведения
Это подробная статистика по проекту, а точнее, по сохраненным элементам на конкретном домене. Также отображается в формате круговой диаграммы, где наглядно показано число обновлений в разных составляющих сайта. Отдельно подсчитывается количество изменений скриптов, таблиц стилей, текстов, изображений и пр.
Изменения можно проанализировать как по отдельности, так и в сравнении друг с другом в формате таблицы. В первую очередь эта информация важна в рамках работ по анализу конкурентов и оптимизации контента на сайте.
Site Map — карта сайта
Интерактивная круговая диаграмма, демонстрирующая «наращивание» объема сайта по принципу годовых колец у дерева. Таким наглядным способом в архиве регистрируются все изменения структуры сайта.
Каждая цветная полоса — это раздел сайта, который состоит из сегментов — страниц (ссылки на страницы выводятся при наведении курсора)
URLs
Здесь находится перечень линков проиндексированных страниц, связанных с искомым сайтом, на которых в такие-то даты проходили изменения. Линки включают в себя адрес сайта.
Алгоритм просмотра данных, как всегда, простой: если выбрать год, появится диаграмма. При наведении курсора на любую ее зону будет выведен линк, по которому проводились изменения. Чем больше зоны, тем значительнее были корректировки.
Веб-архив в помощь SEOшнику
Польза от Wayback Machine в деле SEO очевидна, уже исходя из описания его свойств. Сервис сам по себе позволяет:
- «Реанимировать» (восстанавливать) старый контент, находить архивную информацию по структуре старых ссылок и устаревшим редиректам, ориентируясь на дату изменений.
- Выявлять, когда и какие изменения (в том числе те, которые относятся к работе в различных сегментах рынка) были проведены на сайте.
- Проводить анализ сайтов конкурентов, аудит проектов заказчиков.
Есть и более широкие возможности. В первую очередь важно отметить, что «Архив Интернета» позволяет исследовать старые версии файла robots.txt. То есть выявлять:
- технические проблемы, из-за которых «падал» сайт — особенно если нет доступа к бэкап-версиям;
- общие и ключевые причины уязвимости сайта;
- некорректные или неудачные обновления кнопок, иллюстраций, скриптов и др.;
- изменения, которым подвергалась структура сайта при хакерских атаках (если они случались).
Сведения из веб-архива помогают при работе с результатами аналитических систем. Как было отмечено выше, огромное значение имеет возможность:
- оптимизировать работу с сайтами заказчиков — получать представление обо всех изменениях структуры (добавление и удаление, объединение или разделение категорий, разделов);
- избежать ошибок при работе с сайтами заказчиков — достаточно изучить архивные версии структуры (интерпретации проекта), чтобы не повторять прошлых неудачных действий;
- наоборот, использовать удачные находки, имевшие место в работе с сайтом ранее, и наполнять его продуктивнее;
- проверять работу счетчиков в ходе анализа старых сканов веб-страниц;
- сравнивать пользовательский путь по старым и новым данным — и затем корректировать нужным образом (например, можно четко понять, какой именно элемент на какой странице сработал на резкое повышение конверсии);
- анализировать трафик посадочных страниц — выбирать из старых версий наиболее эффективные лендинги, расшифровывать данные по ним (в первую очередь ключевики) и получать данные о конверсиях.
Наконец, веб-архив позволяет искать уникальный контент на сайтах, которые уже перестали существовать, но сведения о них сохранила Wayback Machine. Каждый день прекращают существование сотни сайтов, но на десятках из них могут находиться действительно ценные, информативные, полезные видео-, аудио-, текстовые файлы. Ими и может воспользоваться профессиональный оптимизатор.
Для этого он организует поиск по принципу:
- На сайте reg.ru скачивается перечень ресурсов заданной тематики, которые недавно были блокированы, закрыты или удалены.
- В сетевом архиве отыскиваются сохраненные копии.
- После получения доступа к сайту подходящий контент проверяют. Например, из видео иногда нужно вырезать те или иные кадры, у текстов — выверить уникальность и др.
Если материал еще не использован конкурентами, данные можно публиковать у себя.
Проблемы веб-архива
Один из частых вопросов пользователей — почему веб-архив не отображает изображения. Причины могут быть разные.
Например, иногда бывает, что сервис сохраняет некачественные («битые») файлы. Они либо не открываются вовсе, либо отличаются низким качеством. Связано это с различными факторами:
- используются элементы Javascript — особенно когда отображение иллюстраций, как и генерация ссылок, идет через скрипты без полного названия посадочной страницы (или когда нужно соединение с исходным сервером — в этом случае архивирование любых элементов и функций сайта невозможно провести);
- robots.txt приостанавливает запись — тогда результат архивного сканирования сохраняется только для части веб-страницы;
- на сайт не ведет ни одна ссылка — тогда краулер Wayback Machine не сможет найти сайт и, соответственно, не сохранит его в архиве;
- иллюстрации просто не были загружены на сайт или оказались недоступны на момент прохода веб-архивного робота.
Как в таком случае скачать изображения из базы Wayback Machine? Владельцы доменов могут попробовать временно восстановить DNS-адреса предыдущих владельцев и, если хостинг не изменился, поработать с ним.
Остальные могут попробовать открыть картинку от последней даты сохранения через правую кнопку мыши (может быть битым только превью, но не само изображение) или поискать по датам формирования копий сайта среди неработающих хотя бы одну корректную.
Есть и более серьезные проблемы. Архив не получится использовать в ситуациях, когда владельцы сайтов целенаправленно накладывают специальный запрет на доступ к данным проекта.
Как для этого удалить из веб-архива сайт? Достаточно прописать директиву внутри robots.txt в электронной библиотеке:
Сервис Кейла в последнее время нередко сталкивается с проблемами, связанными с авторским правом. Так, на платформу подавала в суд целая группа книгоиздателей, обвинявших ее в крупномасштабном умышленном нарушении авторских прав. Более того, неурядицы возникают даже при работе с социальными сетями.
Позиция Марка Грэхема, директора Wayback Machine, заключается в том, что сервис старается архивировать содержимое соцсетей. Это соответствует задачам сервиса как библиотеки, особенно если речь идет о публичных страницах пресс-служб государственных органов различных стран. Однако известно, что в компании Meta* целенаправленно идет работа по противодействию не только веб-архивированию, но и веб-скрейпингу (извлечению информации со страниц веб-ресурсов) в отношении соцсетей компании. К компромиссу организации пока не пришли.
Также в адрес проекта поступают обращения от различных государственных организаций. В частности, с 2014 по 2016 гг. его блокировал российский Роскомнадзор — за публикацию террористического ролика. Сейчас доступ на сайт Wayback Machine для пользователей из РФ открыт.
Специалисты Wayback Machine обычно не препятствуют требованиям удалить те или иные сведения из веб-архива. Однако в среде разработчиков остается актуальным мнение, что перекрывать доступ к информации в этой веб-библиотеке не следует. Потеря данных иногда может оказаться буквально невосполнимой.
Даже при работе с рядовыми сайтами Wayback Machine является крайне полезным, а главное, бесплатным инструментом. С его помощью можно решить множество проблем — разобраться с удаленным или пропавшим контентом любого формата, оперативно оптимизировать структуру и дизайн, а также продумать и внедрить эффективные изменения на сайте, используя его историю буквально с момента создания.
*Компания Meta признана экстремистской организацией в России