Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Что такое web archive

В 1996 году американский предприниматель и активист Брюстер Кейл основал некоммерческую организацию Internet Archive («Архив интернета»). С тех пор она создаёт и хранит копии сайтов, а также книг, изображений и другого контента, который публикуется на открытых ресурсах Сети. Таким образом учредитель намерен сберечь международное культурное наследие.

Архив пополняют боты, сканирующие веб. Им помогают сотрудники и партнёры организации, среди которых множество библиотек и университетов. Кроме того, любой пользователь может загружать контент на серверы через официальный сайт организации. Содержимое архива доступно здесь же — бесплатно и для всех желающих.

Web Archive, также известный как Wayback Machine («Машина времени»), — это один из разделов на сайте Internet Archive. Здесь можно добавить новые или просмотреть уже загруженные копии веб-страниц.

Боты периодически обновляют данные. Но каждая очередная копия страницы не перезаписывает предыдущую, а сохраняется отдельно с указанием даты добавления. Поэтому с помощью Internet Archive можно посмотреть, как со временем менялись дизайн и наполнение выбранного сайта.

Web Archive: копия сайта Google
Копия сайта Google, созданная 3 декабря 2000 года

Более того, сохранённые копии остаются доступными, даже если оригинал исчезает из Сети. По этой причине Web Archive часто используют, чтобы просмотреть опубликованную информацию, которую пытаются стереть, или получить доступ к старым и уже неработающим сайтам.

С сервисом можно работать через сайт и официальное приложение Wayback Machine для iOS и Android.

Видеоинструкция – как восстанавливать сайты из веб архива?

15 минут назад, vituson сказал:

В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть – https://sitedrop.ru/

Сомневаюсь, что сервисы качественно восстановят. Достаточно знать немного примеров комбинации find и sed, чтоб почистить самостоятельно.

Примеры:

1. Убираем различные блоки, в том числе счётчики и прочий мусор:

find site.ru/ -type f -name '*.html' -exec sed -i '/<palign="left">/,/</p>/d' {} ;

2. Убираем битую ссылку:

find site.ru/ -type f -iname '*.html' -exec sed -i 's|<imgheight=1width=1border=src="http://www.googleadservices.com/pagead/conversion/1058209190/imp.gif?value=1&label=pageview&script=0">||g' {} ;

3. Считаем сколько однотипных файлов в каталоге:

find . -type f -name "*.html" | wc -l

4. Если нужно добавить текст в конец каждой строки:

sed 's/^/echo "test"  | mail -s "test"/' file

5. Если нужно перекодировать из CP1251 в UTF8:

ПЕРЕКОДИРОВАТЬ РЕКУРСИВНО ИЗ CP1251 В UTF8
find . -name '*.*' -exec enconv -L russian -x UTF-8 {} ;
for FILE in $(find gsbeton.ru -name '*.html'); do mv $FILE{,.orig} && iconv -c -t UTF8 $FILE.orig -o $FILE; done
удаление файлов *.orig:
for FILE in $(find forexmoscow.ru -name '*.orig'); do rm $FILE; done
Игнорировать непонятные символы:
iconv -c

6. Если нужно добавить текст в конец каждого файла:

for FILE in $(find site.ru -name '*.html?.*'); do echo "</tr></table></body></html>">> $FILE; done

Спиcки битых и внешних ссылок выгружает  программа Screaming Frog SEO Spider. Если на сайте тысячи битых ссылок, можно автозаменой в блокноте типа notepad подставить вышеуказанные команды и получиться список команд на удаление всех ненужных ссылок. Я так одному клиенту целых пол года делал сетку сателлитов из Вебархива. А для массовых замен по всем файлам отлично подходят Notepad , Doublecmd и CodeLobsterIDE !

Изменено 2 октября 2021 пользователем softuser
Добавил примеры

Всемирный веб архив сайтов интернета

Хранилище интернет-архив конечно не содержит всех страниц, которые когда-либо были созданы. Но шанс найти интересующий вас сайт и его архивную копию достаточно велик.

Самый мощный архив веб-сайтов доступен на Archive.org по адресу www.archive.org. Он индексирует  веб, виде-, аудио и текстовые материалы, которые доступны в интернете.

Запустите ваш любимый веб-браузер и введите www.archive.org в адресной строке . Через некоторое время вы увидите главную страницу сайта  интернет-архива. Она разделена на несколько частей. Каждая часть позволяет искать различный тип контента.

Раздел видео, содержит на момент написания статьи более 830 тысяч фильмов.

Раздел аудио, включает в себя более 2 миллионов записей, при это доступен еще раздел живой музыки, который насчитывает около 200 тысяч прямых трансляций с концертов в Интернет.

Однако наиболее интересным и значимым разделом сайта  Archive.org является  раздел  web-страницы. На сегодняшний день он позволяет получить доступ к более чем 349 миллиардам архивных веб-сайтов. Для данного раздела даже выделен отдельный поддомен web.

Как восстанавливать сайты из веб архива – archive.org. часть 1

Интерфейс веб-архива: инструкция к инструментам Summary, Explore и Site map.

В этой статье мы расскажем о самом web.archive  и о том, как он работает.

Для справки: веб-архив был создан Брюстером Кейлом в 1996 году примерно в то же время, когда он основал компанию Alexa Internet, занимающуюся сбором статистики о посещаемости веб-сайтов. В октябре того же года организация начала архивировать и хранить копии веб-страниц. Но в текущем виде ― WAYBACKMACHINE ― в котором мы можем его использовать, он запустился только в 2001 году, хотя данные сохраняются с 1996 года. Преимущество веб-архива для любого сайта в том, что он сохраняет не только html-код страниц, но и другие типы файлов: doc, zip, avi, jpg, pdf, css. Комплекс html-кодов всех элементов страниц позволяет восстановить сайт в его первоначальном виде (на конкретную дату индексирования, когда паук веб-архива посещал страницы сайта).

Сейчас ищут техподдержку:  Сообщить о новом сайте google

Итак, архив находится по адресу http://web.archive.org/. Рассмотрим возможности веб-архива на примере крупного всем известного сайта, как WhatsApp.

На главной странице в поле поиска вводим домен интересующего нас сайта, в данном случае ― whatsapp.com

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

После ввода ссылки на сайт мы видим календарь сохранения кода html страницы. На этом календаре на датах сохранения мы видим пометки различными цветами:

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Синий ― сервер отдавал валидный правильный код 200 (отсутствие ошибок от сервера);

Красный (желтый, оранжевый, в зависимости от браузера и операционной системы ПК) ― ошибка 404 или 403, то, что не интересно при восстановлении;

Зеленый ― redirect-страницы (301 и 302).

Цвета в календаре не дают 100% гарантию соответствия: на синей дате также может быть redirect (не на уровне заголовка, а к примеру, в html-коде самой страницы ― в мета-тегах refresh (тегах обновления экрана) или в JavaScript).

Переходим на 2009 год, в самое начало индексирования (сохранения) сайта в веб-архиве.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Видим версию от 24 января и открываем ее в новой вкладке (в случае ошибок при работе, лучше открыть инструмент веб-архива в режиме инкогнито или в другом браузере).

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Итак, мы видим версию страницы WhatsApp за 2009 год. В url страницы мы видим цифры ― timestamp (временную метку) ― т.е. год, месяц, день, час, минута, секунда, когда было сохранение именно этого url. Формат timestamp (YYYYMMDDhhmmss).

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Timestamp ― это не время сохранения копии сайта и не время сохранения страницы, это именно время сохранения конкретного файла. Это важно знать для восстановления контента из веб архива. Все элементы сайта – картинки, стили, скрипты, html и так далее имеют свой timestamp, то есть дату архивации. 

Для возвращения со страницы сайта обратно на календарь, нажимаем на ссылку с числом captures (захватов страницы).

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Инструмент Summary

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

На главной странице веб-архива выбираем инструмент Summary. Это графики и диаграммы сохранения сайта. Все графики и таблички можно посмотреть по годам.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Наиболее полезная информация на странице ― сумма столбика New URLs. Эта сумма показывает нам количество уникальных файлов содержащееся в веб-архиве.

Цифра будет установлена приблизительна, по той причине, что сам веб-архив мог заиндексировать страницу с www или без. Т.е. одна и та же страница и ее элементы могут располагаться по разным адресам.

     Инструмент Explore

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Он загружает в таблицу все url, что ранее были заиндексированы пауком веб-архива.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Тут можно увидеть:

  1. MIME Тип элемента;
  2. Первичную дату индексирования элемента;
  3. Последнюю дату сохранения элемента;
  4. Общее число захватов (сохранений) элемента;
  5. Число дубликатов;
  6. Число сохранений уникального контента по url.

В поле фильтра возможно задать любую часть искомого элемента: для поиска содержимого сайта, которое трудно обнаружить в большом количестве ссылок. 

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Также возможно в поиске ввести часть пути, к примеру, путь в папку (обязательно со звездочкой), можно увидеть все url по заданному пути (все файлы со страницы или с папки) для анализа индексации этого контента.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Инструмент Site Map

На главной странице сайта нажимаем соответствующую ссылку Site Map.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Это кольцевая диаграмма с разделением по годам для анализа элементов, которые сохранял веб-архив (какие страницы) в разрезе от главного url к url вторго и n-ного уровня.   Этот инструмент позволяет определить, в какой год веб-архив перестал сохранять новый контент на сайт или копии определенных url (появление любого кода, кроме кода 200).

В центре главная страница, а далее по структуре пути на втором-третьем этапе видим внутренние страницы сайта. Здесь нет других видов файлов, только сохраненные url. Т.е. мы можем понять, где архив смог проиндексировать или не проиндексировать страницы.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

На схеме показаны:

    1.  Главная страница

    2 – 5.  Уровни вложенности страниц сайта

Также с помощью данного инструмента мы можем увидеть внутренние страницы по структуре и открыть их отдельно в новой вкладке.

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

Таким образом, отобрав ссылки на страницы и элементы с необходимой датой сохранения в веб-архиве и построив требуемую нам структуру, мы можем приступать к следующему этапу ― подготовке домена к восстановлению. Но об этом мы расскажем в следующем гайде.

Этот видео гайд есть на Youtube:

Как восстанавливать сайты из Веб Архива – archive.org. Часть 2

Как восстанавливать сайты из Веб Архива – archive.org. Часть 3

Использование материалов статьи разрешается только при условии размещения ссылки на источник:
https://tekhpoddergka.ru/ru/blog/1-how-does-it-works-archiveorg/

Как добавить копию страницы в web archive

Чтобы не дожидаться, пока бот найдёт и сохранит нужную вам страницу, можете добавить её вручную.

Если используете сайт, перейдите в специальный подраздел. Вставьте ссылку на сохраняемую страницу и нажмите Save Page. Отметьте пункт Save error pages, если хотите, чтобы система архивировала в том числе страницы, которые не открываются из-за ошибок.

Если используете приложение, вставьте ссылку на нужную страницу и нажмите Archive Page Now.

Для быстрого добавления страниц можно также использовать расширения для десктопных браузеров. После установки достаточно открыть в браузере нужную ссылку, нажать на кнопку плагина и выбрать Save Page Now.

Как посмотреть архивные копии страницы в web archive

Откройте сайт Web Archive или приложение сервиса. Если используете последнее, сразу после запуска создайте аккаунт.

Сейчас ищут техподдержку:  Сведения о местонахождении, графике приема и контактных телефонах подразделений МВД России

Вставьте ссылку на нужную страницу и нажмите Enter (на сайте) или Overview of All Archives (в приложении).

Пролистайте календарь, чтобы найти подходящие копии. Дни, в которые бот создавал дубликаты страницы, отмечены кружками.

Нажмите на подходящую дату, чтобы просмотреть архивную копию.

Сайт также позволяет сравнивать две копии. Для этого на странице с календарём нажмите Changes, отметьте две даты и кликните Compare.

В результате Web Archive отобразит копии рядом и выделит несовпадения.

Как удалить копии ваших страниц из web archive или запретить их добавление

Если вы не желаете, чтобы копии вашего ресурса были в архиве, сообщите об этом администрации Internet Archive. Согласно официальной справке, для этого нужно отправить письмо на ящик info@archive.org, указав ссылку на свой сайт.

Скорее всего, вас попросят доказать факт владения ресурсом и объяснить причину удаления или запрета на добавление в архив. И да, писать лучше на английском.

Когда интернет-архив забывает

Как найти архивные копии сайтов интернета или машина времени для сайтов | Пикабу

В интернете есть определённые организации, на работу которых мы привыкли ежедневно полагаться в надежде предотвратить превращение правды в эластичную или неопределённую субстанцию. Не обязательно таким методом, к которому стремятся такие глупые проекты, как Verrit, но, по крайней мере, способом, способным подтвердить, что вы не сходите с ума, что старый пост или статья, которую вы вроде бы читали, реально существует. Это может быть такое поверхностное действие, как чтение быстро удалённого твита через кэш Google, или же такое глубокое погружение в контент, как изучение архива ныне почившего сайта через Wayback Machine. Но что произойдёт, если архив становится менее надёжным и по якобы убедительным причинам решает прогнуться и удалить спорный материал, попавший в архив?

Несколько недель назад при записи подкаста речь зашла о старом блоге за авторством The Ultimate Warrior [Последний воин] – бодибилдера, ставшего хиропрактиком, ставшего профессиональным реслером, ставшего политическим оратором, склонным к напыщенным речам, выступавшим под своим реальным именем – да, Воин. Как описывал Барри Петески с блога Deadspin после того, как Воин умер в 2021 году, он был «безумным козлом», разглагольствуя в блогах и в студенческих кампусах по поводу инвалидов, гомосексуалистов, жителей Нью-Орлеана и многих других. Однако когда я решил поискать определённую запись в блоге, я увидел, что они были не просто удалены – сайта не было даже в архиве Internet Archive, вместо него висело сообщение об ошибке: «Этот URL был исключён из Wayback Machine».

Оказалось, что сайт Воина был удалён из архива уже несколько месяцев – это произошло вскоре после того, как Роб Руссо прошёлся по нему в статье для Vice Sports, обвинив WWE в лицемерии в связи с использованием фотографии Воина для рекламы «Месяца борьбы с раком груди». Кампания призывала женщин «выпустить своего внутреннего воина», но поскольку в своих блогах Воин желал смерти людям, пережившим рак, ситуация выглядела плохо. Руссо был удивлён тем, как архив удалил этот сайт «почти сразу после выхода моей статьи, буквально в течение недели» – так он рассказал об этом сайту Gizmodo.

Руссо подозревал, что за этим стоит WWE, однако представитель компании рассказал журналу Gizmodo, что они не имеют к этому отношения. Стив Уилтон, управляющий из Ultimate Creations, также отверг свою причастность к этому. Представитель Internet Archive рассказал Gizmodo, что архив был удалён по запросу, сделанному в рамках DMCA бизнес-менеджером компании Уилтона от 29 октября 2021 года, через два дня после публикации статьи в Vice.

За последние несколько лет восприятие сервиса Wayback Machine поменялось под влиянием политических настроений. Долгое время этот сайт оставался полезным инструментом для поиска содержимого сломавшихся ссылок, а теперь его считают арбитром правды и оплотом противостояния стиранию истории.

То, что сайты в архиве демонстрируют цифровой след и происхождение контента, не только полезно для журналистов, но и эффективно практически для любого человека, пытающегося отследить исчезающие веб-страницы. Учитывая это, тот факт, что Internet Archive практически не пытается бороться с запросами на удаление контента, становится проблемой. И это не единственный пример: когда админ сайта решает заблокировать робота Wayback при помощи настроек в файле robots.txt, то архив не просто прекращает обход сайта, но и удаляет всю его историю из публичного доступа.

Иначе говоря, если вы занимаетесь публикацией спорного контента и хотите избежать ответственности, существует, по меньшей мере, два стандартных способа удалить его из наиболее надёжного стороннего веб-архива в публичном интернете.

Для Internet Archive, быстрое реагирование на требования об удалении контента, обращённые ко вроде бы добросовестно используемым им копиям веб-сайтов, а также практика обработки robots.txt, немного уменьшают риски, зато идут вразрез с духом его деятельности. А если бы кто-то решил подать на сервис в суд из-за неподчинения требованиям, даже готовые, имеющиеся в распоряжении архива методы юридической защиты, могли бы обойтись невероятно дорого. И неважно, что использование материалов ничего не нарушает по любым стандартам. Если правообладатель делает подобную попытку, вам всё равно придётся защищаться в суде.

Сейчас ищут техподдержку:  ГИБДД Чебоксары: адреса и телефоны

«В данном контексте пока ещё никто не пытался оспаривать добросовестное использование», — отметила Аннамария Брайди, профессор юриспруденции из Университета Айдахо и внештатный сотрудник Центра интернета и общества при Стэнфордской юридической школе. «Internet Archive – организация некоммерческая, поэтому она несёт большие риски, связанные с возможными судебными процессами. Учитывая размах их работы, то, что они архивируют практически всё, что есть в общем доступе в интернете, их риски феноменальны. Можно понять, почему они ведут себя осторожно, даже если это идёт вразрез с их основной миссией – создать точный исторический архив всего, что было в интернете, и помешать людям стереть свидетельства из их истории».

Internet Archive не стал отвечать на конкретные вопросы, связанные с обработкой robots.txt, его готовностью выполнять запросы на удаление, и то, довелось ли ему использовать в суде аргумент о добросовестном использовании материалов. Однако представитель сервиса отправил следующее сообщение:

Через несколько месяцев после запуска Wayback Machine в 2001 году мы участвовали в работе группы сторонних архивариусов, библиотекарей и адвокатов, составивший черновой набор рекомендаций по реагированию на запросы на удаление контента, который Internet Archive в результате принял как набор инструкций по поведению, и придерживался их в первые лет десять существования.

В этом году мы провели совещание с группой сходного состава, чтобы пересмотреть эти рекомендации и изучить возможную ценность их обновлённой версии. Мы ещё обсуждаем некоторые проблемы и надеемся, что весьма скоро сможем представить обновлённую информацию на нашем сайте, чтобы помочь обществу лучше понять, как мы относимся к запросам на удаление. Некоторые из наших мыслей по поводу robots.txt мы изложили в отдельной статье.

По сути, мы пытаемся найти баланс между беспокойством владельцев сайта и правообладателей, и интересом общественности, заслуживающей свободного доступа к как можно более полной истории интернета.

Учитывая всё это, вспомним, что Internet Archive всегда позиционировал себя, как библиотеку – разве это не должно иметь значение?

«В текущем законе об авторском праве, хотя там и есть особые случаи, дающие определённые права библиотекам, нет определения библиотеки», — пояснил Брэндон Батлер, директор информационной политики Библиотеки Виргинского университета. «По этому поводу правообладатели всегда возмущались, а также по поводу таких организаций, как Internet Archive, не представляющих собой 200-летние публичные или университетские библиотеки. Они часто утверждают, что боятся появления подложных библиотек, которые будут называть себя библиотеками, а на самом деле служить прибежищем пиратов». Единственным исключением, которое смог вспомнить Батлер, был тот случай с некоммерческой онлайн-библиотекой буддистских текстов American Buddha, которая обнаружила, что на неё подало в суд издательство Penguin, из-за нескольких книг, на которые оно получило права. «Суду было всё равно, что это место называло себя библиотекой; это не защитило их от обвинений в нарушении прав». Батлер отмечает, что хотя статус библиотеки не будет защищать Internet Archive так, как это было бы возможно, «право на создание копий для хранения», как называет это Батлер, говорит в их пользу.

«Обычно на библиотеки не подают в суд, из этого выходит плохая реклама», — говорит Батлер. Поэтому нет никакой горы современных юридических прецедентов, связанных с библиотеками в цифровую эру, за исключением нескольких случаев, связанных с делами Google Books.

Как отмечает Брайди, в США авторское право – это «коммерческое право». Дело не в ущербе репутации, а в защите ценности работы, и, конкретнее, возможности постоянно на ней зарабатывать. «Мы оправдываем это тем, что хотим побудить художников и других творческих людей публиковать и продавать свои работы, — сказала она. – Использование авторского права для попыток контроля приватности или репутации… Его, конечно, можно и так использовать, однако можно заявить, что это неправомерное использование авторского права, выходящее за его сферу ответственности».

Мы много чего принимаем, как само собой разумеющееся, особенно из-за того, что всё больше полагаемся на технологию. «Интернет навсегда» – этот рефрен может часто встречаться в СМИ, а скрытая в этом заявлении мудрость о необходимости вести себя осторожно, вероятно, обоснована, однако это не стоит понимать буквально. Люди удаляют посты. Веб-сайты и целые платформы исчезают из-за бизнеса и других причин. Богатые, знаменитые и власть имущие не стесняются запугивать мелкие некоммерческие организации. Хорошо иметь защиту на всякий случай, однако постоянству интернета есть границы – а там, где есть границы, есть и пути обхода.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 4,00 из 5)
Загрузка...

Оставьте комментарий

Adblock
detector