БИОЛОГИЯ: ИНФОРМАЦИОННЫЙ ВЗРЫВ

Четверг, 28 Января 2021 г. 00:29 + в цитатник

Михаил Гельфанд

Математическая обработка стремительно растущего массива расшифрованных последовательностей нуклеотидов в молекулах ДНК дает науке не меньше, чем эксперимент

007 (4) (600x450, 116Kb)

Ауторадиограмма ДНК — это своеобразный фотопортрет молекулы, полученный путем внедрения в нее радиоактивных маркеров, засвечивающих фотопленку. По ним биологи в прошлом веке определяли последовательность нуклеотидов в молекуле. Фото: SPL/EAST NEWS

До недавнего времени биология, постепенно развиваясь от описательной науки (зоологии и анатомии) к науке экспериментальной (физиологии, а затем молекулярной биологии), была «бедна фактами»: каждый установленный факт требовал долгой работы, а каждое частное наблюдение можно (и нужно) было записать на бумаге.

Порядок биологических слов

Положение стало меняться в конце 70-х годов прошлого века, когда были изобретены методы секвенирования (от англ. sequence — «последовательность»), то есть определения последовательности элементарных единиц, нуклеотидов, в линейной полимерной молекуле ДНК. Оказалось, что определить последовательность аминокислот, образующих белок (а молекулярные биологи в основном интересуются белками), проще не непосредственно, а секвенировав соответствующий ген — участок ДНК, кодирующий этот белок.

Постепенно стало расти число публикаций с последовательностями ДНК, содержащими гены. В конце 1970-х — начале 1980-х годов этим массивом информации заинтересовались математики. Появилась новая наука, биоинформатика, которая стала изучать нуклеотидные и аминокислотные последовательности. Были сформулированы первые задачи: как сравнивать последовательности и выявлять в них схожие участки; как определить значимость обнаруженных совпадений — имеют они биологический смысл или являются чистой случайностью; как определить границы генов в последовательности ДНК; как предсказать функцию белка, зная его аминокислотную последовательность; как найти участки ДНК, регулирующие работу генов...

Довольно быстро возникли соответствующие банки данных.

Последовательности сначала переносили туда вручную, с рисунков в журнальных статьях, но почти сразу наступил первый кризис — стало ясно, что публикации появляются слишком часто, и для того чтобы успеть за ними, последовательности надо вносить в банк напрямую.

Хотя первоначально банки данных создавались всего лишь с целью исключить повторение уже сделанного, оказалось, что они сами могут быть научным инструментом. Уже в 1983 году, через год после создания двух основных банков, европейского EMBL и американского GenBank, был получен нетривиальный результат. Обнаружилось, что один из белков вируса саркомы обезьян — агрессивной разновидности рака — очень похож на нормальный клеточный белок, фактор роста тромбоцитов — одного из видов клеток крови. Это наблюдение позволило выдвинуть гипотезу, впоследствии подтвержденную экспериментально, о сходстве механизма действия онкогенов и нормальных белков на определенных стадиях жизни клетки. Без единого банка данных и специальных программ поиска сходных последовательностей такое открытие можно было бы сделать разве что случайно.

009 (1) (521x214, 19Kb)

В американском Кембридже (штат Массачусетс), как и в британском, где и был открыт механизм наследственности, поставлена «скульптура» ДНК. Фото: ALAMY/DIOMEDIA

Обещания генома

В 1990 году было объявлено о начале проекта по секвенированию генома человека. Руководители проекта обещали быстрый прогресс в медицине. Хотя завышенные ожидания не оправдались, реальный прогресс, связанный с расшифровкой генома, оказался вполне ощутимым. Методы биоинформатики сыграли в этом важную роль. Были определены генетические причины многих болезней, созданы первые диагностические системы, основанные на анализе функционирования генов.

Науке проект пока дал больше, чем медицине. В геноме было открыто множество новых генов, найдены совершенно новые классы регуляторных структур, про которые раньше ничего не было известно, обнаружены гены, с эволюцией которых может быть связано происхождение человека, и т.п.

Один из важнейших принципов, положенных в основу международной программы «Геном человека», — открытость данных: любые последовательности ДНК разумной длины должны немедленно помещаться в общедоступные базы данных.

В середине 1990-х случился очередной кризис: число фрагментов ДНК, ежегодно помещаемых в банки данных, превысило число публикуемых статей по молекулярной биологии и биомедицине. Если в первом приближении принять, что один фрагмент содержит один ген, а одна статья посвящена установлению одного биологического факта про ген или белок, то это означает, что для большинства генов был сделан один-единственный эксперимент, состоявший в самом определении его нуклеотидной последовательности.

Казалось, тут бы и остановиться: материала для изучения накоплено достаточно. Но выяснилось, что большие объемы данных позволяют ставить совершенно новые задачи. Скажем, можно предсказывать функции белка не просто по сходству с уже исследованными белками, как это делалось раньше, а перейти к более тонким сравнительно-геномным методам, которые позволяют определять эти функции для белков, непохожих на известные. Такие предсказания все чаще предваряют эксперимент — ясно же, что проверить конкретное утверждение (белок Х катализирует реакцию Y) куда проще, чем искать иголку в стоге сена (что делает белок Х, какой белок катализирует реакцию Y?).

Двуединство

Тем временем экспериментальные технологии продолжали развиваться. Помимо секвенирования оказалось возможным получать большие объемы данных об интенсивности работы генов (в зависимости от ткани, внешних воздействий и т. п.), о белок-белковых взаимодействиях, взаимодействиях белков и ДНК, влияющих на работу генов, о функциональных проявлениях полного выключения генов и т. п. Появилась новая область науки, системная биология, которая изучает работу не изолированных генов, а сразу в масштабах целой клетки.

Такие проекты с самого начала завязаны на компьютерный анализ — без него получаемые данные невозможно ни хранить, ни анализировать. Если несколько лет назад работа шла последовательно — либо экспериментаторы проверяли предсказания специалистов по биоинформатике, либо те обрабатывали данные экспериментаторов, — то теперь разделить этап получения данных и этап их обработки не удается.

006 (5) (250x505, 20Kb)

Фрэнсис Крик (слева) и Джеймс Уотсон получили в 1962 году Нобелевскую премию за открытие структуры ДНК. Все перипетии научной гонки, приведшей к этому выдающемуся достижению , Уотсон описал в книге «Двойная спираль». Фото: AP/EAST NEWS

Расширение фронта

Развивались и технологии секвенирования. Постепенно затраты на получение большого объема последовательностей снизились и стали доступны уже не большим консорциумам, а отдельным лабораториям.

Это открыло новые, очень интересные возможности. Например, секвенирование большого числа пар тканей — раковых и здоровых, — взятых у того же пациента, позволило выделить мутации, являющиеся причиной различных видов рака. Исследование геномов разных экзотических существ привело к пересмотру традиционных представлений о том, кто кому родственник: оказалось, что грибы ближе к животным, чем к растениям, а киты — ближайшие родственники современных гиппопотамов.

Изучая геномы целых сообществ, например, сразу всех сотен видов бактерий, которые живут в кишечнике человека, исследователи показали, что состав таких сообществ различается у людей здоровых, с ожирением и страдающих воспалительными заболеваниями кишечника.

От гена к организму

И тут случился очередной, уже третий, кризис. Сегодня не просто секвенированных генов стало много больше, чем исследователей, — перестало хватать производительности ЭВМ. Уменьшение стоимости секвенирования и, как следствие, увеличение объемов данных происходит быстрее, чем растет мощность компьютеров и повышается плотность записи в ячейках памяти.

Все чаще исследователи сталкиваются с тем, что объем «сырых» данных не позволяет просто записать их в один файл (и даже в один компьютер), структуры баз данных не обеспечивают быстрого доступа к записям и даже самые эффективные алгоритмы работают слишком медленно, поскольку время, которое они затрачивают на обработку данных, пропорционально объему последних.

Эта проблема осознана научным сообществом и, стало быть, наполовину решена. Более важным представляется другое. Пока что мы только снимаем сливки с получаемых колоссальных объемов информации. Сделанные наблюдения очень интересны, но по большей части просты или чисто описательны, хотя иногда и они радикально меняют существующие представления о работе клетки. Из сопоставления разнородных данных предстоит научиться извлекать детальные описания как жизни клетки в целом, так и механизмов работы отдельных ее компонентов (функциональных подсистем), и наоборот, тканей или бактериальных сообществ.

Это, в свою очередь, должно послужить основой для создания численных моделей, позволяющих предсказывать последствия различных воздействий на живую материю, таких, например, как изменение окружающей среды или внесение в геном новых генов. Наконец, сравнение системных описаний различных видов должно привести к пониманию механизмов эволюции на молекулярно-клеточном уровне.

vokrugsveta.ru

images (4) (224x225, 8Kb)