Накопленные человечеством знания исчезают из-за «битых» ссылок — страдают даже научные статьи и документы
Почему интернет портится со временем и как решают проблему учёные и технологи, в пересказе колонки профессора права Джонатана Зиттрейна.
До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:
- Во-первых, чтобы повреждение одной копии не уничтожило знание.
- Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.
Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.
Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.
Ссылки ведут не туда или вовсе «вымирают»
Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.
Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.
Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.
В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.
В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.
В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.
Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.
В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.