Газета "Наш Мир" br>С появлением интернета объемы данных, которые нужно заархивировать и сохранить, достигли таких масштабов, что скоро у нас может попросту не найтись для этого слов. От мега- и гига- до тера- и пета-… нам начинает не хватать приставок для все большего скопления «байтов». Таким образом, перед нами встает вопрос о средствах хранения заархивированных данных из сети.Atlantico: Интернет революционным образом меняет нашу коллективную память? Клеман Ури: Раньше в институтах коллективной памяти оставались лишь предварительно отфильтрованные вещи: всегда существовал редакторский отбор, а производство контента было затратным. Во времена печатного станка Гуттенберга выпуск печатной продукции был гораздо дороже, чем, например, это обстояло с газетами в XIX веке. Выпуск контента на бумаге или на DVD всегда представлял собой непростую задачу с точки зрения производства и коммерции. Сегодня же в том, что касается производства, этот редакционный фильтр в большинстве случаев сошел на нет. Мы перешли от ситуации, когда лишь немногие говорили со всеми, к ситуации, когда все говорят со всеми. Различные архивы, существующее с XVI века обязательство для каждого издателя и производителя контента передать на хранение несколько экземпляров своей продукции, позволяет сформировать представительный образ того, как обстояли дела с потреблением и выпуском культурной продукции в определенный момент. По задумке Национальная библиотека Франции должна была получить исчерпывающую коллекцию всего, что выпускалось в виде книг, CD, DVD, видеоигр и т.д. на территории Франции.Благодаря материалам в интернете, у нас появился такой доступ к источникам, которого попросту не было раньше. Можно сформировать так называемые архивы, которые скорее представляют собой собрания сайтов с совершенно разными взглядами по сравнению с тем, что было раньше. Кроме того, тут нет какой-то фильтрации. Так, например, во время беспорядков в пригородах в 2005 году нам удалось собрать немало сведений с сайтов на платформе Skyblog. Писавшие там люди зачастую были жителями пригородов. Они вовсе не обязательно поддерживали участников беспорядков, однако все равно жили именно в этих городах, тогда как журналисты по большей части находились за полицейскими кордонами. Обсуждение в этих блогах представляет огромный интерес, особенно по отношению к более «отстраненной» риторике журналистов. Разумеется, это не означает, что информация в блогах была «правдивее», однако использование нескольких источников идет только на пользу научным исследованиям. Сейчас у нас есть доступ к заявлениям, которые раньше невозможно было увидеть в открытом доступе, и это представляет собой совершенно новый источник информации для будущих социологов и историков.Как бы то ни было, интернет-контент сейчас поистине вездесущ. Однако проблема заключается в следующем: когда контент находится в сети, он доступен для всех. Тем не менее, если эта копия исчезнет, она исчезнет целиком и для всех - в отличие от книг, которые выпускают тысячами экземпляров. То есть эта единственная потеря ведет к потере доступа для всех. Здесь действует совершенно другая логика. В 2012 году интернет стал главной опорой научного и культурного творчества, что подчеркивает необходимость найти способ хранения всего этого контента.- Каким образом отбираются материалы? - Каждый год мы сохраняем все сайты в домене .fr. Печатная продукция тоже не игнорируется: мы получили книгу последнего лауреата Гонкуровской премии, а также кроссворды и судоку. Все библиотеки Франции купят последний роман лауреата Гонкуровской премии или последнюю книгу университетского издательства, но вряд ли кроссворды и судоку. Тем не менее, эта продукция описывает тенденции во французском потреблении в тот или другой момент. Точно так же обстоят дела и в сети. Мы пытаемся избегать отбора, собирать как можно более широкий спектр материалов. Мы в национальной библиотеке Франции пытаемся сохранить понемногу от всего - от научно подтвержденного до самого что ни на есть банального. Кроме того, банальное как раз-таки исчезает быстрее всего. Любой появившийся в сети контент считается публикацией, в том числе даже блог школьника. Во времена архивов у нас стремились сохранить все материалы. Исчерпывающая полнота также входила в список задач, хотя целиком добиться этого все же не представлялось возможным. С распространением сети достичь этой цели попросту нереально. Полная архивация означала бы ежедневное сохранение каждого сайта (в домене .fr их насчитывается уже 2 миллиона). Это невозможно. Национальная библиотека Франции и другие институты, которые занимаются архивацией сети, придерживаются разных стратегий.Все это напоминает работу архивариусов, у которых на руках оказалось слишком много бумажных документов: часть из них они вынуждены отправить в мусорную корзину. Мы не стремимся ничего удалять, однако отбираем необходимую для сохранения информацию: для формирования образа культурного творчества мы ежегодно сохраняем французские сайты. Кроме того, некоторые сайты автоматически архивируются на ежедневной основе. Если бы мы сохраняли их не каждый день, это позволило бы нам понять, в каком состоянии он находился в определенный момент, однако мы бы оставили без внимания немало контента. Сайты министерств архивируются очень подробно, так как там содержится огромное количество контента. В то же время избирательные сайты архивируются только в момент выборов. Мы не стремимся к исчерпывающему сохранению материалов, а пытаемся выработать различные подходы к их сбору для формирования представительного образа. То есть, речь идет о больших переменах по сравнению с принятой раньше практикой. То же самое касается и работы Google в сфере сбора данных в сети. Некоторые сайты, как, например, те, что можно найти в рубрике «Новости», сохраняются куда чаще, чем какой-либо блог. Google также использует аналогичную практику для определения того, что меняется быстрее всего, и сбора этой информации.В Национальной библиотеке Франции хранится около 330 терабайт данных и примерно 18 миллиардов файлов. В бумажных архивах находится примерно 12 миллионов произведений. Речь идет о чрезвычайно больших объемах. Раньше у нас попросту не было возможности для того, чтобы справиться с таким количеством данных, и предложить одновременно такое количество знаний. С научной точки зрения это настоящий переворот. Раньше мы не могли манипулировать миллиардами данных за одну операцию, тогда как сегодня мы вступаем в эру статистики огромных масштабов. В нашей библиотеке сохраняется более миллиарда файлов в год, что требует чрезвычайно мощных механизмов по сбору и индексации информации. - Не поднимает ли эта архивация сети этические вопросы, например, «право на забвение»? - Этический вопрос играет здесь огромную роль. Сейчас нам нужно оперировать данными, к которым у нас раньше попросту не было доступа, а сохраненные данные доступны исключительно в сфере научных исследований в Национальной библиотеке Франции. Все это делается по причинам интеллектуальной собственности, потому что когда мы сохраняем сайты, мы не спрашиваем у правообладателей разрешение на их архивацию.Все это находит отражение в ограничении доступа. Мы не можем спрашивать разрешение у каждого интернет сайта, так как на это потребовались бы сотни людей, которым бы пришлось писать электронные письма авторам. Доступ к этим данным возможен только в самой библиотеке. Как отмечают в национальной комиссии по информатике и свободам, архивы должны быть доступны только для специалистов, которые проводят исследования по профессиональным или личным причинам: речь идет не только об ученых, но и журналистах. Все это позволяет держать под контролем использование материалов, которое бы противоречило этическим принципам.Клеман Ури (Clément Oury), глава службы цифрового архива Национальной библиотеки Франции.
|