В 2001-ом году «Human Genome Project» и «Celera Genomics» объявили, что после 10-ти летней работы они завершили проект последовательности генома человека, бюджет которого составил примерно $ 400 миллионов. Сегодня же, всего за пару недель секвенирование генома человека может произвести один исследователь и менее, чем за $ 10000, сообщает «LightNews».
С 2002-го года скорость, с которой могут быть последовательно удваивается геномы составляет каждые 4 месяца, в то время как вычислительная мощность удваивается только каждые 18 месяцев. Без появления новых аналитических инструментов, возможность биологов по созданию геномных данных скоро превзойдут их способности совершать что-либо полезное с ними.
В последнем номере журнала «Nature Biotechnology», исследователи из «Массачусетского технологического института» (Massachusetts Institute of Technology, MIT) и «Гарвардского университета» (Harvard University), описывают новый алгоритм, который значительно сокращает время, необходимое для поиска определённой последовательности генов в базе данных геномов. Более того, чем больше геномов, участвующих в поиске, тем больше скорость, так что их преимущество будет только на пользу при больших объёмах создаваемых данных.
В некотором смысле это алгоритм сжатия данных, как тот, который позволяет пользователям компьютеров сжимать файлы с данными в файлы наименьшего размера. «Вы имеете большое количество различных данных и понимаете, чтобы их сохранить их нужно максимально сжать», — говорит Бонни Бергер, профессор прикладной математики и компьютерных наук в «Массачусетском технологическом институте» и ведущий автор статьи. «Но, тут появляется небольшая проблема, чтобы увидеть все эти данные, их нужно распаковать. Далее вы понимаете, что если желаете сжимать данные в правильном направлении, то нужно проделать свой анализ непосредственно по их сжатию. Это увеличит скорость сжатия, при этом сохраняя точность анализа».
Исследовательская схема сжатия использует тот факт, что эволюция скупа на хорошие проекты. Всем известно, что в геномах тесно связанных разновидностей существует много общего, но также некоторые общие черты встречаются и в геномах дальних родственных разновидностей: именно поэтому эксперименты на дрожжевых клетках могут рассказать нам кое-что о человеческой реакции на препарат.
Бергер, его бывший студент, теперь уже доктор философии Михаил Бейм, в настоящее время получивший приглашение в «Массачусетский технологический институт» и являющийся постдоком системной биологии в «Гарвардской медицинской школе», а также её нынешний аспирант По-Ру Ло, разработали способ, который математически представляет геномы различных видов или разных особей в пределах вида таким образом, что повторяющиеся данные хранится только единожды. Поиск нескольких геномов может сконцентрироваться на их различиях, тем самым значительно экономя время.
«Если я хочу расшифровать свой геном, то это займёт определённое количество времени», — объясняет Бейм. «Если я захочу расшифровать чужой, похожий на мой геном, то это означает, что большую часть работы я уже выполнил».
В экспериментах на базе данных, состоящей из 36-ти геномов дрожжей, исследователи сравнили свой новый алгоритм с «Basic Local Alignment Search Tool» (BLAST) — один из наиболее часто используемых геномно-поисковых алгоритмов в биологии.
«В поисках определённой генетической последовательности состоящей из 10-ти дрожжевых геномов, новый алгоритм оказался в 2 раза быстрее «BLAST», а в поисках генетической последовательности состоящей из 36-ти геномов, он был быстрее уже в 4 раза. И эта последовательность будет только возрастать, при росте геномной базы данных», — объясняет Бергер.
«Новый алгоритм будет полезен в любых направлениях», — говорит Бейм. Идентификация микробов является одним из примеров. Новый алгоритм может помочь врачам определить причины инфекции, или помочь биологам охарактеризовать «микробиомы», коллекции микроорганизмов обнаруженных в тканях животных и особенности микросреды. Также, алгоритм может быть использован для характеристики микробов в частности для определения плодородной или бесплодной почвы, может быть использована в криминалистике, чтобы определить географическое происхождение вещественных доказательств по их микробным подписям.
«Проблема состоит в том, что смотря на геном, многие исследователи учитывают последовательность и пытаются сразу же определить, какие известные последовательности схожи с ним — это, пожалуй, самая старейшая проблема и наиболее часто задаваемый вопрос в области вычислительной биологии», — говорит Мона Сингх, профессор компьютерных наук в «Принстонском университете» (Princeton University) и преподаватель в «Princeton’s Lewis-Sigler Institute for Integrative Genomics». «Именно по этой причине данная проблема имеет главное значение».
В настоящее время группа Бергера работает над усовершенствованием техники, благодаря которой можно получить информацию о белках и РНК последовательности. Теперь, когда человеческий геном был сопоставлен, основными вопросами в биологии являются: в какой момент и какие гены являются активными, и как они кодируют белки для взаимодействия. Поиски в больших базах данных биологической информации имеют решающее значение для ответа на оба этих вопроса.