Профессия — биоинформатик. Биоинформационные технологии Что такое биоинформатика

[Видео] [Слайды]

Революция в ядерной физике привела много лет назад к накоплению огромного количества данных, которые надо было хранить и обрабатывать. Это оказалось под силу только компьютерам, а за ними и супер-компьютерам.

Бум геномики последних 10-15 лет продолжил эту традицию и приумножил ее: медико-биологические исследования касаются каждого из нас, а значит и данных будет производиться все больше и больше особенно в свете идеи персонализированной медицины и требований большой фармы. Тут уж без компьютерных знаний и программных продуктов и вовсе делать нечего. Но кроме того, надо хорошо знать что изучать, как, как анализировать данные и насколько им можно верить. Как хранить и обрабатывать. Где применять и где использовать.

В лекции освещено большинство этих «как». Алла ставит своей целью рассказать о значимости и широте приложений биоинформатики.

2. Мутационный процесс и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Мутационный процесс - первый из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения мутаций, методы измерения параметров мутационного процесса на малых, средних и больших временах, данные о скоростях мутирования и простейшие модели влияния мутирования на генетическую структуру популяции.

3. Естественный отбор и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Естественный отбор - второй из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения отбора, методы и параметры, применяемые для его описания и изучения, данные об отборе в природе и простейшие модели влияния отбора на популяцию.

4. Детское развитие и биоинформатика: задачи и решения (Елена Григоренко, Yale University)

[Видео] [Слайды]

В лекции рассказано о нескольких «стыках» наук о развитии и биоинформатики.
Обсуждаются проблемы пренатальной диагностики и пренатального секвенирования, а также экзомного секвенирования новорожденных.

Рассказывается об изучении влияния ранней среды развития на состояние метилома, и о геномной этиологии детских расстройств развития. В заключение рассмотрены этические вопросы, связанные с использованием геномной информации в принятии диагностических и индивидуализированных решений о развитии ребенка.

5. Секвенирование нового поколения: принципы, возможности и перспективы (Мария Логачева, МГУ)

[Видео] [Слайды]

Секвенирование нового поколения (NGS) преобразило многие области биологических и биомедицинских исследований. Оно позволяет относительно быстро и недорого получать последовательности генов и геномов ранее не изученных видов, а также – на материале большого числа индивидуумов одного вида – выявлять внутривидовую изменчивость, проводить поиск генов, ассоциированных с интересующими признаками. Помимо собственно определения последовательностей геномов NGS позволяет проводить детальный анализ экспрессии генов в разных тканях организма или при разных условиях, широко используется в эпигенетических исследованиях.

В лекции дан обзор основных методов секвенирования, их физико-химические принципы, особенности пробоподготовки, характеристика получаемых данных, их стоимость и типичные ошибки. Особое внимание уделено применимости разных методов для решения биологических задач, и даны рекомендации по планированию экспериментов, связанных с NGS.

6. Структурная биология белка: обзор проблем и подходов (Павел Яковлев, BIOCAD)

[Видео] [Слайды]

Использование только первичных последовательностей позволяет решить большинство вопросов, связанных с нуклеиновыми кислотами (ДНК и РНК). При изучении функций белков знание только первичной последовательности уже не позволяет решить большинство задач. Какие белки будут взаимодействовать между собой и как сильно? Повлечет ли замена аминокислоты смену функции белка? Как убрать побочные эффекты от лекарственного белка или увеличить его эффективность? На эти вопросы призвана ответить область биоинформатики, занимающаяся разработкой алгоритмов для моделирования пространственной формы белков и их взаимодействий.

7. De novo сборка транскриптомов (Артем Касьянов, МФТИ)

[Видео] [Слайды]

В связи со значительным удешевлением и повышением производительности технологий число проектов, посвященных de novo секвенированию геномов немодельных организмов, значительно возросло. В ряде случаев de novo секвенирование и сборка генома затруднена - к примеру, в случае его значительных размеров. В таких случаях прибегают к изучению транскриптома. Также de novo анализ транскриптома может понадобиться в случае изучения видов с большим количеством альтернативно сплайсирующихся генов, так как даже при наличии генома достаточно сложно определить полный перечень изоформ.

Лекция посвящена вопросам сборки транскриптомных данных в отсутствии генома. Рассмотрены такие темы, как сплайс-графы, программы trinity и newbler, сравнение и анализ сборок, сборка транскриптомов полиплоидных организмов.

8. Эволюция алгоритмов сборки генома (Антон Банкевич, СПбАУ РАН)

[Видео] [Слайды]

На данный момент существует уже несколько поколений методов секвенирования ДНК. Однако новые технологии бессмысленны без алгоритмов, способных обработать их результаты. Постоянно возникающие новые методы секвенирования ставят всё новые алгоритмические задачи. Одной из важнейших таких задач является сборка генома. В лекции рассказано об эволюции методов секвенирования и алгоритмических подходах к сборке генома, возникавших и продолжающих возникать с каждым шагом этой эволюции.

9. Введение в молекулярную биологию и генетику (Павел Добрынин, СПбГУ)

[Видео] [Слайды]

Лекция посвящена структуре и организации ДНК у прокариот и эукариот, молекулярным механизмам, отвечающим за сохранение и воспроизведение генетического материала. Разобраны основные механизмы, стоящие за генетической изменчивостью, и варианты реализации генетического материала.

10. Задача множественного локального выравнивания и построения синтенных блоков (Илья Минкин, Pennsylvania State University)

[Видео] [Слайды]

В лекции рассматривается две похожие алгоритмические задачи в сравнительной геномике: множественное локальное выравнивание и построение синтенных блоков. Эти алгоритмы играют крайне важную роль в сравнении полных последовательностей геномов. Рассказано о постановке задач и о базовых идеях, на которых построены некоторые современные алгоритмы.

11. Зачем и как делать презентации (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции обсуждаются типы презентаций, зачем они на самом деле нужны, и рассказывается, как выступить так, чтобы слушатели все поняли и не заснули, а также каких ошибок надо избегать и с кого брать пример при подготовке своего выступления.

12. Бизнес в биоинформатике (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции рассказано, какие биоинформатические компании существуют в России и в мире, кто их создал и на чем именно они зарабатывают деньги.
Обсуждены планы крупных игроков и тренды в индустрии.

В завершающей части лекции Андрей дает пищу для размышлений об организации собственного стартапа или выборе нового места работы.

13. Перспективы и проблемы системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Лекция призвана дать общее представление о системных свойствах биологических объектов. Илья Серебрийский рассказывает об основных составляющих системной биологии, об интерактомике и построении моделей, об основных проблемах в системной биологии и попытках их разрешения. Обсуждаются некоторые достижения системной биологии (главным образом из области онкологии). Также рассматриваются общедоступные ресурсы для системной биологии (TCGA/cBioPortal, CCLE).

14. Лабораторная по системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Занятие посвящено построению сетей взаимодействия на основе общедоступных баз данных. Использованы такие базы данных и веб-сервисы, как Entrez, GeneMANIA, BioGRID и другие. Рассмотрены различные методы визуализации сетей взаимодействия, в частности с помощью программы Cytoscape.

15. Метагеномика (Алла Лапидус, СПбАУ РАН)

[Видео] [Слайды]

Микробы везде, микробы правят миром, но далеко не со всеми из них мы можем познакомиться в лабораторных условиях. Подавляющее большинство из них мы не знаем как вырастить, а значит, их надо как-то извлекать из их естественной среды обитания - земли, воды, из-под корней деревьев и т.д., где они живут большими группами.

Метагеномика и помогает в этих весьма запутанных исследованиях. А еще она помогает кормить, согревать, лечить людей и ловить преступников. Всему этому и биоинформатике в метагеномике и была посвящена эта лекция.

16. Проблема проверки множества статистических гипотез (Антон Коробейников, СПбГУ, СПбАУ РАН)

[Видео] [Слайды]

В лекции рассмотрена классическая проблема проверки множества гипотез одновременно. Подобного рода задачи встают сплошь и рядом, например, при полногеномном поиске ассоциаций или анализе данных микрочипов. Рассмотрены возможные варианты решения этой проблемы, начиная от классического подхода Бонферрони и заканчивая методами, позволяющими контролировать FDR (false discovery rate).

17. Как правильно и неправильно использовать статистику (Никита Алексеев, СПбГУ, George Washington University)

[Видео] [Слайды]

Лекция посвящена ошибкам в применении статистики и способам их предотвращения. В частности, дан ответ на вопрос: в каких ситуациях можно использовать стандартные критерии для сравнения типичных представителей выборки, и что делать, если стандартные критерии не подходят?

18. Математические модели регуляции экспрессии гена (Мария Самсонова, СПбГПУ)

[Видео] [Слайды]

Понимание тонких механизмов регуляции активности генов ‒ необходимое условие для расшифровки механизмов возникновения болезней у человека. К сожалению, на сегодняшний день такое понимание отсутствует: мы не можем удовлетворительно объяснить, ни каким образом группы транскрипционных факторов взаимодействуют друг с другом, с белками хроматина, другими адапторными белками и комплексом РНК‒полимеразы, ни как и почему тот или иной участок последовательности ДНК может контролировать сложную, ограниченную в пространстве и детерминированную во времени картину экспрессии гена.

Математическое моделирование помогает понять механизмы генной регуляции путем механистического и количественного описания этого процесса. В лекции рассмотрены два наиболее распространенных подхода к моделированию экспрессии генов ‒ основанные на нелинейных уравнениях реакции‒диффузии и термодинамическом равновесии. Последовательно рассмотрены этапы построения таких моделей и приведены примеры их использования для генерации новых знаний.

19. Полулокальное и локальное выравнивание последовательностей (Александр Тискин, University of Warwick)

[Видео] [Слайды]

Вычисление наибольшей общей подпоследовательности (longest common subsequence, LCS) двух строк - одна из классических алгоритмических задач, имеющая широкое применение как в информатике, так и в вычислительной биологии, где она известна как «глобальное выравнивание последовательностей». Во многих приложениях необходимо обобщение этой задачи, которое мы называем вычислением полулокальной LCS (semi-local LCS), или «полулокальным выравниванием». В этом случае требуется вычислить LCS между строкой и всеми подстроками другой строки, и/или между всеми префиксами одной строки и всеми суффиксами другой. Помимо важной роли этой обобщенной задачи в строковых алгоритмах у нее обнаруживаются неожиданные связи с алгеброй полугрупп и вычислительной геометрией, с сетями сравнений (comparison networks), а также практические приложения в вычислительной биологии. Кроме того, задача вычисления полулокальной LCS может использоваться в качестве гибкого и эффективного подхода к (полностью) локальному выравниванию биологических последовательностей.

В лекции представлено эффективное решение задачи вычисления полулокальной LCS и дан обзор основных сопутствующих результатов и приложений. В их числе динамическая поддержка LCS; быстрое вычисление клик в некоторых специальных графах; быстрое сравнение сжатых строк; параллельные вычисления на строках.

20. Анализ семейств молекулярных последовательностей (Сергей Нурк, СПбАУ РАН)

[Видео] [Слайды]

При решении самых разных задач, от поиска регуляторных мотивов до предсказания функций белков, биоинформатикам приходится работать с целыми «семействами» эволюционно связанных нуклеотидных или аминокислотных последовательностей. В лекции рассмотрены различные способы представления таких семейств, применяемые в популярных биоинформатических инструментах и базах данных. Рассказано, как расшифровать PROSITE pattern и проинтерпретировать sequence logo, в чем отличие profile HMM от PSSM, а также как избежать ошибок при их построении и анализе результатов.

21. Эпигеномика, РНК и все такое (Андрей Миронов, ИППИ РАН)

[Видео] [Слайды]

В лекции дан обзор понятия эпигенетики. Рассмотрены уровни структурной организации хроматина, рассказано о различных эпигеномных модификациях: модификациях гистонов, метилировании CpG-мотивов. Обсуждено их влияние на экспрессию генов.
Также рассмотрена роль эпигеномных модификаций в сплайсинге, импринтинге и т.п.

Рассказано о системе XIST (X-inactivation specific transcript), антисмысловых РНК, сплайсинге, РНК-зависимой регуляции.
Также рассмотрены модели для изучения эпигеномных модификаций.

22. Контроль качества данных NGS (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В лекции описаны погрешности секвенирования, характерные для технологий NGS. Примерами таких ошибок являются ПЦР-амплификация, сиквенс-специфичные ошибки прочтения, неравномерное распределение GC-состава и прочие. Разобраны различные методы оценки этих погрешностей и учета их при анализе. Затронут вопрос практических методов решения и существующих программных инструментов.

23. Контроль качества данных NGS, семинар (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В ходе семинара участники научились применять навыки программирования для контроля качества данных NGS. Были рассмотрены форматы данных BAM/SAM, библиотеки pysam и pyplot, фундаментальные понятия. В частности, разобраны примеры подсчета GC-состава, оценки частоты дупликаций, распределения длины вставки, расчета покрытия в окнах.

24. Практическое секвенирование РНК (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды 1] [Слайды 2]

На семинаре разбиралась практическая задача анализа данных РНК-секвенирования.
В формате презентации и практики были обсуждены и продемонстрированы методы: выравнивания ридов, первоначального контроля качества, пайплайны для изучения экспрессии генов DESeq и Cufflinks, нахождение изоформ транскриптов, поиск гибридных генов.

25. Биоинформатические подходы к изучению и лечению рака на примере рака легких (Мария Шутова, ИОГен РАН)

[Видео] [Слайды]

Рак - одно из самых распространенных и опасных заболеваний. Его называют «болезнью генома» за огромный вклад накопленных и новых мутаций в его появление и развитие. При этом известно, что не только состояние генома, но и транскрипционный и даже эпигенетический статус первичных раковых клеток, а также сложный гомеостаз растущей опухоли напрямую влияют на ее свойства и, главное, восприимчивость к терапии. Единственную возможность разобраться в этом клубке взаимозависимых факторов дает биоинформатика. В лекции разобраны основные вопросы, связанные с изучением опухолеобразования, и возможные способы ответить на них с использованием биоинформатических подходов.

26. Новые омики в биологии человека: метаболомика и липидомика (Филипп Хайтович, Сколтех)

[Видео] [Слайды]

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей - все эти биологические методы в приложении к «big data» дали ученым большой объем ценной информации о том, что отличает человека от других животных.

Эта лекция посвящена новым «омикам», позволяющим ответить на вопросы о человеческом организме при изучении мозга и других тканей - метаболомике и липидомике.

27. Геномная сборка: взгляд в завтрашний день (Андрей Пржибельский, СПбАУ РАН)

[Видео] [Слайды]

В последние годы технологии секвенирования нового поколения сделали заметный шаг вперед: появились IonTorrent и Pacific Biosciences, Ilumina создала ряд новых протоколов. Но, как оказывается, всего этого недостаточно для того, чтобы считать проблему сборки геномов решенной. Для того чтобы пройти путь от извлечения ДНК до полностью завершенного генома, как правило, требуются десятки различных специалистов, сотни тысяч долларов и годы работы. Поэтому сегодня эта задача остается актуальной как с точки зрения биотехнологий, так и с точки зрения биоинформатики. В лекции рассмотрены последние прорывы в методах сборки геномов, новейшие типы данных, которые, возможно, позволят вывести эту задачу на новый уровень, и перспективы геномики в ближайшем будущем.

Вместо заключения

  • образование
  • летняя школа
  • Добавить метки

    Биология не раз переживала новое рождение: быв сначала «полевой» наукой, изучавшей животных и растения, в XX веке она значительно переместилась в лаборатории, концентрируясь на молекулярных основах жизни и наследственности. В XXI веке история двинулась дальше: многие эксперименты теперь проводятся на компьютере, а материалом для изучения являются последовательности белков и ДНК, а также информация о строении биологических молекул. В этой статье мы дадим несколько советов тем, кто решил связать свою карьеру с компьютерной биологией, став, тем самым, биоинформатиком.

    Обратите внимание!

    Спонсор публикации этой статьи - Лев Макаров.

    В наше время в мире никого не удивишь уже названием профессии «компьютерный биолог» или «биоинформатик», хотя еще несколько десятков лет назад эти сферы деятельности - биология и компьютеры - казались совсем непересекающимися, а еще за несколько десятков лет до того никаких компьютеров не было вовсе. Причем сейчас этот термин включает в себя уже достаточно много отдельных занятий, требующих разной подготовки и разного взгляда на науку и ее место в жизни: биоинформатик, специалист по обработке информации, разработчик баз данных, программист, куратор онтологий, специалист по молекулярному моделированию - все они занимаются разными вещами, хотя со стороны их отличить будет непросто. Все это без намеков говорит нам, что компьютеры прочно вошли в будни биологов, причем это не только е-мейл и фейсбучек, но и масса более специальных навыков, без которых исследователю сейчас и в будущем уже не обойтись (см. врезку). Студент вы или профессор, - никогда не поздно начать совершенствовать свои навыки биоинформатика !

    Для ясности биоинформатиками будем называть всех биологов, в работе которых компьютеры играют роль бóльшую, чем просто печатная машинка, хотя в российской традиции собственно под биоинформатиками имеют в виду тех, кто занимается изучением закономерностей биологических текстов - последовательностей белков и ДНК, - а моделирование динамики и свойств биомолекул, например, чаще называют молекулярным моделированием .

    «Сухая» биология

    «Биомолекула» довольно много внимания уделяет компьютерной, или, как ее еще называют, «сухой» биологии - современной отрасли биологической науки, в которой главным инструментом исследователя является обычный компьютер. (Правда, частенько приходится прибегать к помощи и не совсем обычных - супер компьютеров.) На нашем сайте есть специальная рубрика, посвященная этой науке, - «“Сухая” биология » , - ознакомиться с которой мы и предлагаем заинтересованному читателю. В частности, там идет речь о концепции количественной биологии , о способах вычисления пространственной структуры и динамики биологических молекул (с особенным акцентом на биомембранах и мембранных белках и рецепторах ), а также о становлении молекулярной графики . В недавних статьях было рассказано о методах изучения эволюции по молекулярным данным , а также о новой концепции «сухой» биологии, предсказывающей будущее биологии как науки .

    В этой статье, основанной на переводе недавнего эссе в журнале Nature Biotechnology , мы приводим некоторые советы для начинающих биоинформатиков - исследователей, которые планируют заниматься изучением жизни без отрыва от клавиатуры.

    Словарик компьютерных терминов

    Командная стока способ взаимодействия с компьютером без мышки и кнопочек, а лишь набирая в окне терминала специальные команды и оперируя информацией, хранящейся в текстовых файлах. Чаще всего командная строка ассоциируется с компьютерами под управлением UNIX/Linux, хотя и в Windows TM , и в Mac OS TM они тоже есть. Кластер объединенные в единую высокоскоростную сеть и работающие вместе компьютеры, которые можно использовать для решения ресурсоемких задач. Обычно оснащены системой планирования задач и диспетчеризации ресурсов. Конвейер способ решения конкретных задач по обработке данных, объединяя программы более общего назначения в цепочку так, чтобы информация, выдаваемая одной программой, попадала на вход следующей. Исходный код (исходник) текст программы на одном из языков программирования. В случае интерпретируемых языков текст является программой сам по себе, а вот программу, написанную на компилируемом языке , сначала надо перевести в бинарный исполняемый файл (скомпилировать). Программное обеспечение (ПО) ну это и так понятно - добавим лишь, что это набор инструкций для компьютера, который позволяет пользователю (или программисту) решать нужные ему задачи - от набора текстов в ворде до анализа генетической последовательности или расчета молекулярной динамики. Скрипт разновидность программы, написанная на интерпретируемом языке (а значит, не требующая специальной компиляции) и используемая биоинформатиками для автоматизации своих задач, для реализации парадигмы конвейера . Система контроля версий компьютерная система управления разработкой сложных программ, включающих десятки или сотни файлов с исходниками, тысячи или даже миллионы строчек кода, и разрабатываемых несколькими или многими программистами. Позволяет программе со временем не «расползаться», а программистам - легко переключаться между разными версиями и «ветками» разработки. UNIX/Linux семейство исходно многопользовательских и многозадачных операционных систем (ОС). Чаще всего используется на серверах и вычислительных кластерах, однако может устанавливаться и на персональные компьютеры в качестве альтернативы коммерческим ОС (таким как Windows). Особенностью этих операционных систем является модель разработки - поскольку ОС имеют открытый исходный код, в их создании участвуют программисты-добровольцы со всего мира. Впрочем, число версий так велико, что есть и проприетарные («закрытые») ветви - как, например, Mac OS, которая с некоторого времени внезапно стала «потомком» UNIX-систем.

    Выбор оружия за вами

    Сейчас создано такое количество разнообразных биоинформатических программ, что сделать оригинальное компьютерное исследование можно, и не программируя самостоятельно; надо только выбрать подходящее ПО. Однако не стоит слишком расслабляться: чтобы получилось что-то хорошее, надо сначала как следует понять, что же эти программы делают, и какая математическая теория лежит в их основе. Вы же не пойдете в лабораторию ставить полимеразную цепную реакцию , предварительно не узнав, что это такое и для чего нужно ? Ну так вот и с компьютерами то же самое. Биоинформатические программы, по сути, являются аналогами оборудования и методик в «мокрой» молекулярно-биологической лаборатории. (Кстати, на контрасте со словом «мокрый» биоинформатические лаборатории все чаще сейчас называют «сухими» .) Поэтому, хотя от вас и не требуется вчитываться в каждую строчку исходного кода, представлять себе общие принципы работы программ совершенно необходимо.

    Ну, мы надеемся, что не пойдете. - Ред.

    Разные программы часто воплощают один и тот же теоретический подход, но все-таки адаптированы для решения разных практических задач. Например, при «сборке» генома из отдельных последовательностей ДНК , получаемых в результате работы автоматических секвенаторов, в случае «длинных» (сотни остатков нуклеотидов) прочтений используется алгоритм, основанный на перекрывании (Overlap-Layout-Consensus), в то время как для работы с наборами «коротких» (десятки остатков нуклеотидов) фрагментов лучше подходят графы де Брёйна. И выбор правильной программы не только сэкономит вам массу времени, но и вообще принципиально обеспечит (или не обеспечит) выполнимость поставленной задачи.

    Хотя иной раз на мониторе биоинформатика и появляются занятные картинки (в данном случае - гликопротеин лихорадки Денге), чаще всего там можно увидеть текстовое окошко с непонятными колонками цифр или строчками букв.

    Держите все под контролем

    Одна из главных опасностей, что компьютер запросто может выдать неправильный результат, специально никак не просигнализировав об этом. Отсутствие сообщения об ошибке еще не говорит о том, что полученный результат правильный. Подав программе дикие данные на вход или просто использовав неправильные настройки, неизбежно получишь дикий ответ, и чрезвычайно важно постоянно помнить о такой возможности и уметь проверять, что полученное имеет хоть какое-то отношение к действительности. Проще всего убедиться, что все работает как следует, запустив программу для данных, ответ для которых уже известен, и убедиться, что именно он и получается. Часто для маленьких наборов данных вычисления можно провести буквально вручную, и тогда сверить ответ с получаемым на компьютере особенно занятно: если он отличается, то либо не права машина, либо вы. Но положительного результата в этом случае уже не получить - это точно.

    Биохимические эксперименты никогда не проводят без отрицательных и/или положительных «контролей», так вот привыкайте и на компьютере делать то же самое. Контролем в биоинформатике последовательностей служит, как правило, проверка модели на неких случайных данных. С выбором модели генерации случайных данных надо быть очень и очень аккуратным. Дважды проверяйте, что все было без ошибок, и, главное, что полученные результаты имеют какой-то смысл, - иначе вас неизбежно подкараулят «открытия» на ровном месте.

    Вы ученый, а не программист

    Как известно, лучшее - враг хорошего. Помните, что в вашей работе важны свежие мысли и новизна результатов, а не красота исходников программы. Превосходно оформленный и документированный код, который не дает правильного ответа, несомненно, никуда не годится по сравнению с примитивным скриптом, который дает его. Другими словами, красоту в программу следует привносить только после того, как вы не раз уже убедились, что она и впрямь делает то, для чего предназначена. И - самое главное - используйте свои биологические знания по максимуму, потому что только это и делает вас компьютерным биологом . С другой стороны, полезно писать комментарии прямо по ходу написания программы: «эта функция/структура нужна для...», иначе уже через неделю вы потратите много времени, чтобы понять, что здесь происходит. Повторный запуск программы - это отличное повод для приведения кода в человеческий вид; вы просто будете делать это походу «вспоминания» вчерашней последовательности действий.

    Используйте систему контроля версий

    Использование контроля версий позволит более гибко управлять развитием кода, позволит легко возвращаться к предыдущим редакциям программы или переключаться между разными ветвями разработки, а также откроет возможность совместной разработки программы. Распространенные системы - такие как Git или Subversion - дадут возможность легкой публикации проекта в сети. Вы сделаете лучше прежде всего для себя, если не поленитесь написать несколько внятных README-файлов и положите их в нужные места проекта; это чрезвычайно вам поможет, если спустя месяцы или даже годы вам придется вернуться к старой программе. Документируйте программы и скрипты, чтобы было понятно, что они делают. Когда публикуете научную статью, хорошим тоном будет опубликовать также оригинальные программы, которые использовались для обсчета данных: это позволит другим использовать тот же метод и воспроизвести ваши результаты. Неплохо бы также вести электронный дневник, в котором был бы записан весь ход работы. Онлайн-репозитории, такие как Github, позволяют делать это, а также позволят вам хранить рабочие версии программы, что станет дополнительным уровнем бэкапа ваших наработок (см. таблицу 1).

    Таблица 1. Важные инструменты компьютерного биолога.
    Задача Инструменты
    Совместная разработка программ Сделайте ваш код (и, возможно, данные) доступными в сети с такими онлайн-хранилищами как Github , или Bitbucket . В интернете много руководств по использованию этих систем. Существуют также системы управления научными проектами, о которых рассказано в отдельной врезке.
    Для сложных задач пишите скрипты и конвейеры Для этого можно использовать как современные разработки, вроде Ruffus , так и проверенные временем классические UNIX-утилиты типа Make . Выбор конкретного инструментария зависит от личных предпочтений и любимого языка программирования
    Сделайте ваши «конвейеры» доступными Не исключено, что в командной строке вы себя чувствуете, как рыба в воде, но большинство ваших коллег, наверняка, нет. Созданные вами конвейеры можно оснащать графическими интерфейсами с помощью систем Galaxy или Taverna .
    Инструменты разработчика (IDE) Конечно, программы можно писать в любом текстовом редакторе, начиная с , но будет лучше, если вы освоите более продвинутые инструменты - такие как текстовый редактор Emacs или полнофункциональную среду разработки типа Eclipse . И, опять же, конкретный выбор будет основан на ваших предпочтениях и любимом языке программирования.

    Системы управления проектами

    Еще одним полезным инструментом, помимо систем контроля версий, который можно позаимствовать из программисткой практики, являются системы управления проектами. Проще всего воспринимать их как продвинутый электронный журнал, который предоставляет вам следующие дополнительные возможности:

    • Создание и назначение задач. Например, «посчитать то-то». Внутри задачи можно вести обсуждения, которые будут удобно структурированы и не превратят вашу почту в склад ужасающей переписки вроде «Re: Project X (100)» При этом, однако, можно настроить почтовые уведомления, поэтому никто не пропустит важный комментарий.
    • Прикладывать и организовывать файлы с подробными описаниями и поддержкой версий а-ля Dropbox. Вам приходилось подолгу искать в нескольких ветках переписки по проекту какие-нибудь файлы с маловразумительными названиями, вроде «report_ACC_clean.xxx»?
    • Во встроенную Wiki можно заносить описания процедур запуска программ , методики экспериментов, встраивать видеозаписи и даже рендерить LaTeX формулы.
    • Текстовый поиск по всему содержимому , в том числе по приложенным файлам.
    • Интеграция с системами контроля версий для разработки ПО позволяет удобно соотносить задачи с изменениями в репозиториях.
    • Есть даже такие экзотические возможности, как организация своего аналога Google Docs для одновременного редактирования текста. Не всю информацию можно доверить сторонним ресурсам.

    В нашей лаборатории мы используем Redmine - это отличная СПО-система управления проектами, под которую есть множество плагинов. Ее можно развернуть как самостоятельно, так и взять в аренду виртуальную машины с уже установленной системой. Наиболее известным проприетарным аналогом является Basecamp .

    Залевский Артур , факультет биоинженерии и биоинформатики МГУ
    (группа вычислительной структурной биологии).

    Заразная болезнь конвейерит

    Конвейер (pipeline) - программная цепочка из нескольких или многих инструкций, позволяющая проводить в точности те же операции на новом наборе данных. Конвейеры и скрипты незаменимы в работе компьютерного биолога, но они также могут загнать ваше сознание в прокрустово ложе скрипта и в корне прервать полет фантазии.

    Полет фантазии

    Ну конечно же, вы можете. Что захотите - то и можете. В том смысле, что креатив и смелая фантазия в работе компьютерного биолога совершенно необходимы, потому что иначе сделать ничего интересного не получится. Адаптируйте существующие методы, создавайте новые, предвидьте успех и не бойтесь неудачи. В этой области очень многого можно достичь, просто лазая по интернету и общаясь с коллегами в лаборатории или в сети. Самообразование не только научит вас решать конкретные проблемы - оно научит вас постоянно учиться.

    Запишитесь на онлайн-курсы (см. табл. 2), но это будет только начало, а не конец обучения. Лишь смерть обрывает обучение по-настоящему творческого человека.

    Таблица 2. Полезные ресурсы для (само)образования.
    Полезный навык Ресурсы
    Онлайн-курсы (Massive open online courses) Сейчас такие курсы переживают взрыв популярности, и уже предлагают крайне широкий спектр тематик для изучения прямо через интернет. На сайтах Coursera , Udacity , edX и Kahn Academy есть масса полезного из области биоинформатики, геномики, компьютерной биологии, статистики и разнообразного моделирования.
    Обучение программированию Codeacademy и Code School не являются чем-то заточенным под биологию, но хорошо подходят для начал программирования. Потом можно продолжить с курсом «Python для биологов ». Множество хороших примеров доступно на сайте http://software-carpentry.org .
    Решение биоинформатических задач Практическое изучение биоинформатики путем изучения программирования и соревнования с другими участниками проекта доступно на российском сервисе Rosalind .
    Международные организации GOBLET - международная организация по биоинформатическому образованию, а ELIXIR - европейское объединение, обеспечивающее различную информационную поддержку и инфраструктуру для исследований в области наук о жизни.
    Блоги и листы подписки В сети есть масса блогов и списков рассылки для компьютерных биологов, например http://stephenturner.us/p/edu и http://ged.msu.edu/angus/bioinformatics-courses.html . Для вычислительных химиков есть еще CCL.net .
    «Локальные» российские ресурсы
    Обучение основам биоинформатики (курсы и свободное посещение) Московская школа биоинформатики даст основные навыки в этой сфере, а курс по работе с данными высокопроизводительного секвенирования расскажет, как получают полные последовательности геномов. в Санкт-Петербурге знакомит студентов с основами биоинформатики на примере реальных научных исследований (также проходит Летняя школа).
    Вузы, в которых преподают биоинформатику
    • МГУ им. М.В. Ломоносова, Факультет биоинженерии и биоинформатики (специалитет)
    • Академический Университет РАН (магистратура)
    • Московский Физико-Технический Институт, Факультет биологической и медицинской физики (кафедра биоинформатики)
    • Санкт-Петербугский Государственный Политехнический Институт, Физико-механический факультет (кафедра прикладной математики ; магистратура)
    Опыт работы с Linux/Unix Помощь в установке и настройке одного из дистрибутивов Linux вам могут помочь в сообществах Russian Fedora или Ubuntu . Также вы можете обратиться с вопросами на http://linux.org.ru ; более того, на этом ресурсе можно получить и ответы на некоторые научные вопросы.

    Никого не слушай

    При отработке статистических методик часто делают такой эксперимент: генерируют большие массивы случайных данных, которые случайно же обозначают как «рабочую выборку» или «контроль». А затем к этим данным применяют статистический критерий, который должен выявить различия между данными, которые исходно не различаются, и... Для многих «выборок» p-значение частенько указывает на статистически значимое различие. Биологические наборы данных, например, полученные из геномного анализа или из скрининговых тестов, также полны случайного «шума» и часто огромны по размерам. Будьте готовы к тому, что при анализе подобных данных вам придется столкнуться с ложноположительными и ложноотрицательными результатами, а также в исходные данные может вкрасться систематическая ошибка, возникшая из-за особенностей эксперимента или экспериментатора.

    Даже у биологов, искушенных в статистике, частенько возникает соблазн наплевать на осторожность и углубиться в эксперименты с программой или скриптом, давшими интересный результат. Однако тут всегда необходима осторожность, которая подсказывает, что необходимо рассматривать любой результат как потенциально ошибочный и провести дополнительные проверки на этот счет. Если один и тот же результат удается получить с помощью разных подходов, тогда уверенность в правильности каждого из них возрастет. И, тем не менее, большинство таких «открытий» требуют экспериментального подтверждения, чтобы откинуть оставшиеся сомнения.

    Самое важное - что для интерпретации полученных на компьютере результатов нужно хорошее биологическое образование и чутье. И даже то, что программа или скрипт работают правильно, еще не гарантирует, что полученный результат не является артефактом или просто неверной трактовкой каких-то других явлений.

    Верный инструментарий

    Обязательно освойте командную строку UNIX/Linux. Бóльшая часть биоинформатических программ имеет интерфейс командной строки. На самом деле, она чрезвычайно мощная, позволяет в тонкостях контролировать рабочие задачи, запускать программы на параллельное исполнение, и, что немаловажно, контролировать работу утилит и перезапускать их прямо через текстовый терминал, хоть с мобильного телефона. Это одно из преимуществ работы биоинформатиков - работать можно где угодно, был бы под рукой компьютер или планшет, а также выход в интернет. Освойте параллельные вычисления, потому что они позволяют запускать сотни задач одновременно и многократно повышать производительность работы. Обязательно нужно уметь хоть чуть-чуть программировать, хотя выбор конкретного языка программирования не играет большой роли: у всех у них есть свои преимущества и недостатки, и иногда нужно комбинировать несколько разных языков, чтобы сделать работу быстрее.

    Помните, что выбор более популярного языка позволит вам пользоваться бóльшим набором существующих библиотек и подпрограмм, которые позволят не изобретать велосипед, а сосредоточиться на своей работе. Примером такого «склада» наработок является Open Bioinformatics foundation . Старайтесь не использовать Microsoft Excel (только для вывода таблиц, которые будут читать некомпьютерные биологи, которые только с ним и умеют работать). Это хорошая программа, но для обработки большого количества данных она все-таки подходит плохо. Лучше всего хранить экспериментальные данные в структурированных текстовых файлах (хороший вариант для таблиц - csv) или в SQL-базе - это позволит получать доступ к информации прямо из вашей программы.

    И, да, делайте бэкапы!

    Элементарно, Ватсон!

    Раз уж вы станете компьютерным биологом, вам все время придется возиться с данными. Они хранят множество историй, и выловить эти истории оттуда - ваш профессиональный долг. Однако скорее всего сделать это будет не так-то просто. Нужно постоянно держать в голове смысл проведенного эксперимента и схему анализа данных, а также денно и нощно обдумывать, какой же биологический смысл кроется в полученных результатах. И не является ли гипотетический подмеченный вами смысл тривиальным следствием ошибок анализа или артефактов в данных.

    Чтобы все это имело смысл, нужно общаться с другими специалистами, которые получали эти экспериментальные данные, и стараться собрать картину по кусочкам. Предлагайте дополнительные эксперименты, которые смогут подтвердить или опровергнуть выдвинутую вами гипотезу. Станьте детективом, докопайтесь до ответа.

    Кто-то это уже сделал. Так найдите их и спросите!

    Какая бы хитрая не была проблема и как бы не был нов метод, всегда есть вероятность, что люди уже занимались тем, с чем пришлось столкнуться вам. Есть два сайта, на которых обсуждают возникшие в исследованиях проблемы - BioStars и SeqAnswers (а чисто программистские вопросы - Stack Overflow). Иногда можно получить дельный совет даже в твиттере. Поищите в интернете, кто в этой стране и в мире занимается похожими вопросами и свяжитесь с ними (см. таблицу 3).

    Таблица 3. Русские «сухие» лаборатории.
    Лаборатория Город Чем занимаются
    Группа молекулярного моделирования на биологическом факультете МГУ Москва Молекулярная динамика белков и пептидов
    Группа вычислительной структурной биологии , биоинформатическая группа и лаборатория эволюционной геномики на факультете биоинженерии и биоинформатики МГУ Москва
    • Молекулярное моделирование нуклеиновых кислот и нуклеопротеидов и биомембран. Дизайн ферментов.
    • Системная биология, биостатистика, изучение вторичной структуры РНК.
    • Изучения естественного отбора на геномном уровне, работа с данными секвенирования нового поколения (NGS).
    Лаборатория химической кибернетики и группа компьютерного молекулярного дизайна на химическом факультете МГУ Москва
    • Квантовая и фотохимия
    • Молекулярное моделирование оболочек вирусов и их ингибиторов, а также мембранных рецепторов
    Компьютерное моделирование комплексов белков с белками и лекарствами, драг-дизайн, фармакология, изучение связей «структура-активность»
    Учебно-Научный центр «Биоинформатика » и еще несколько биоинформатических групп в Институте Проблем Передачи Информации РАН Москва Системная биология, анализ пространственных структур биомолекул, сравнительная геномика.Организуют Московский биоинформатический семинар , Московскую школу биоинформатики и конференцию «Moscow Conference for Molecular Computational Biology».
    Лаборатория системной биологии и вычислительной генетики и группа биоинформатики в Институте общей генетики РАН Москва Поиск функциональных мотивов (сайтов связывания транскрипционных факторов и т.д.) в последовательностях ДНК
    Лаборатория биоинформатики и системной биологии в Институте молекулярной биологии РАН Москва Методы биоинформатики и поиска функциональных мотивов, предсказание предрасположенности к заболеваниям
    Лаборатория биоинформатики в НИИ Физико-химической медицины Москва Проблемы метагеномики и протеомики
    Лаборатория алгоритмической биологии Академического университета РАН Санкт-Петербург
    Лаборатория «Алгоритмы сборки геномных последовательностей » национального исследовательского университета информационных технологий, механики и оптики Санкт-Петербург Проблемы «сборки» и анализа геномов
    Группа биоинформатики и функциональной геномики Института Цитологии РАН Санкт-Петербург Изучение функционального значения общей структуры генома
    Лаборатории функциональной геномики и клеточного стресса и механизмов функционирования клеточного генома Института биофизики клетки РАН Пущино
    • Моделирование структурной организации и поиск промоторов в ДНК бактерий
    • Анализ распределения физических свойств вдоль последовательности ДНК, нелинейная динамика ДНК
    Лаборатория прикладной математики в Институте математических проблем биологии РАН Пущино Вторичная структура РНК, альтернативный сплайсинг
    Лаборатория физики белка Института белка РАН Пущино Теоретическое и экспериментальное изучение процессов сворачивания белковых молекул
    Отдел системной биологии Института цитологии и генетики СО РАН Новосибирск Постгеномная биоинформатика. Компьютерный анализ и моделирование молекулярно-генетических систем. Генные сети. Модели эволюции микроорганизмов.
    Группа лаборатории экологической биохимии Института биологии КарНЦ РАН Петрозаводск Молекулярное моделирование биомембран
    Мы отдаем себе отчет, что в одной таблице нельзя перечислить все стóящие научные группы. Если мы забыли кого-то, то с удовольствием добавим. Таблица подготовлена Еленой Чуклиной (Московский физико-технический институт / Учебно-научный центр «Биоинформатика» Института проблем передачи информации РАН).

    В довершение можно сказать, что в интернете есть масса форумов и юзергрупп, где можно задать интересующие вопросы. Установите себе линукс и начните изучать в онлайне что-нибудь биоинформатическое. При должном упорстве вы удивитесь, как многого можно достичь, имея просто компьютер и выход в интернет!

    Статья написана по мотивам эссе в журнале Nature Biotechnology при участии Артура Залевского и Елены Чуклиной.

    Литература

    1. Код жизни: прочесть не значит понять ;
    2. Nick Loman, Mick Watson. (2013). So you want to be a computational biologist? . Nat Biotechnol . 31 , 996-998.

    Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

    Почему биология перестала справляться без информатики и при чем тут рак

    Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

    ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

    Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

    Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

    Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

    Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

    Биоинформатика в ЕРАМ

    В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

    Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

    Как становятся биоинформатиками

    Мария Зуева, разработчик:

    «Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

    Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

    «По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

    Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

    Как читают геном

    Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

    Михаил Альперович, глава юнита биоинформатики:

    «Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

    Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

    Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

    Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

    Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

    Геннадий Захаров:

    «Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

    Биоинформатика: производство и опенсорс

    У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

    Проект №1: вариант-коллер

    Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

    Исходный код программы доступен на GitHub .

    Проект №2: 3D-просмотрщик молекул

    Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

    Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

    Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

    Как выглядит работа с приложением, можно узнать из видео .

    Проект №3: геномный браузер NGB

    Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

    Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

    Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

    Геннадий Захаров, бизнес-аналитик:

    «Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

    В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

    Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

    Как изучать биоинформатику

    Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

    Введение

    Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов , позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологий по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий.

    История

    Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин «биоинформатика», определив его как изучение информационных процессов в биотических системах . Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах) .

    В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание базы данных для хранения биологической информации

    Последовательности . Компьютеры стали необходимыми в молекулярной биологии , когда белковые последовательности стали доступны после того, как Фредерик Сенгер определил последовательность инсулина в начале 1950-х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её «матерью и отцом биоинформатики». Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции.

    Геномы . Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сенгера термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание баз данных для хранения биологической информации, такой как последовательности нуклеотидов (база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как «Исследование Нуклеиновых Кислот», который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году.

    Цели

    Главная цель биоинформатики - способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов , data mining , алгоритмы машинного обучения и визуализация биологических данных . Основные усилия исследователей направлены на решение задач выравнивания последовательностей , нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка , предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.

    Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных.

    Основные области исследований

    Анализ генетических последовательностей

    Оценка биологического разнообразия

    Основные биоинформатические программы

    • ACT (Artemis Comparison Tool) - геномный анализ
    • Arlequin - анализ популяционно-генетических данных
    • Bioconductor - масштабный FLOSS -проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на .
    • BioEdit
    • BioNumerics - коммерческий универсальный пакет программ
    • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
    • Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей
    • DnaSP - анализ полиморфизма последовательностей ДНК
    • FigTree - редактор филогенетических деревьев
    • Genepop
    • Genetix - популяционно-генетический анализ (программа доступна только на французском языке)
    • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
    • MacClade - коммерческая программа для интерактивного эволюционного анализа данных
    • MEGA - молекулярно-эволюционный генетический анализ
    • Mesquite - программа для сравнительной биологии на языке Java
    • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
    • PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)
    • PHYLIP - пакет филогенетических программ
    • Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.
    • PopGene - анализ генетического разнообразия популяций
    • Populations - популяционно-генетический анализ
    • PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST
    • Seaview - филогенетический анализ (с графическим интерфейсом)
    • Sequin - депонирование последовательностей в GenBank , EMBL , DDBJ
    • SPAdes - сборщик бактериальных геномов
    • SplitsTree - программа для построения филогенетических деревьев
    • T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW /ClustalX .
    • UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.
    • Velvet - сборщик геномов
    • ZENBU - обобщение результатов

    Биоинформатика и вычислительная биология

    Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (

    Профессия - биоинформатик

    Что это такое?

    Информатика – отрасль науки, изучающая структуру и общие свойства информации, а также вопросы, связанные с ее сбором, хранением, поиском, переработкой, преобразованием, распространением и использованием в различных сферах деятельности. Биоинформатикой же называют информатику в применении к молекулярной биологии.

    Все знают, что прочитан геном человека. Что такое геном с точки зрения информатики? Это длинный текст, содержащий около 3 млрд букв (нуклеотидов A, T, G, C). И все. Одной из проблем биоинформатики является установление смысла этого текста.

    Разумеется, кроме самой последовательности ДНК есть много дополнительной экспериментальной информации.

    Далеко не все гены человека известны, о функциях многих генов нет данных. Задача биоинформатики заключается в том, чтобы найти ранее неизвестные гены и описать их предположительную функцию. Как ищутся гены? Это трудная задача. Здесь на помощь приходит математика. В гигантском массиве информации с помощью современных математических методов ищутся скрытые закономерности, которые и позволяют находить гены и предсказывать их свойства.

    Говоря о геноме, обычно проводят аналогию с расшифровкой древних рукописей, когда текст известен, а язык - нет. Эта задача неразрешима до тех пор, пока у нас нет никаких представлений о содержании текста. Однако, если мы хотя бы примерно представляем, о чем этот текст, то появляется надежда на его осмысление. В биоинформатике ситуация лучше, чем при расшифровке древних письмен, поскольку ее предсказания могут быть проверены экспериментально.

    Гены кодируют белки, поэтому предсказание функции гена - это то же самое, что предсказание функции белка. Для многих белков функции известны из эксперимента. Используя эти данные, метод аналогий и другие методы современной математики, иногда удается предсказать функции других белков.

    Сейчас в современных лабораториях часто используют технику массовых экспериментов, когда в одном опыте получают информацию о тысячах генов. Разобраться в этом море информации можно только с помощью компьютера. Проект «Геном человека» - типичный пример такого подхода. Другой пример. Если определить активность всех генов в здоровой и раковой клетке, то после анализа данных можно узнать, какие гены отвечают за перерождение здоровой клетки в раковую. Все было бы просто, если бы такие экспериментальные данные не содержали в себе очень много шума, т.е. ошибок.

    Гены - это последовательности ДНК, белки - это аминокислотные последовательности. Функциональность белков определяется их пространственной формой. При этом белки, имеющие разные аминокислотные последовательности, могут иметь очень похожую пространственную структуру. Одной из классических (и до сих пор не решенных) задач биоинформатики является предсказание пространственной структуры белка по последовательности аминокислот. Уже более 5 лет существуют международные соревнования методов предсказания пространственной структуры белка по его последовательности.

    Почему это интересно?

    Анализ геномов приносит множество новой информации. В настоящее время расшифровано более 200 геномов различных бактерий, каждый из которых содержит несколько тысяч генов. Для того чтобы охарактеризовать один ген, требуется несколько месяцев напряженной работы экспериментаторов. С другой стороны, для того чтобы достаточно подробно описать один бактериальный геном средствами биоинформатики, достаточно примерно месяца работы небольшой группы исследователей.

    В геноме человека около 35 тыс. генов (всего в 10 раз больше, чем у бактерии, и в 2 раза больше, чем у плодовой мушки), а количество синтезируемых белков гораздо больше. В чем же дело? Оказывается, что очень часто один ген кодирует несколько разных форм белка. За это отвечает явление, названное альтернативным сплайсингом . Биоинформатика впервые показала, что количество генов, имеющих альтернативный сплайсинг, очень велико. Осталось загадкой, как все это регулируется.

    В клетке не все гены должны работать одновременно. Для того чтобы гены работали, как слаженный оркестр, необходимо, чтобы гены включались только тогда, когда их работа необходима. Этим заведует система регуляции генов, анализ которой позволил обнаружить принципиально новые способы регуляции – рибопереключатели .

    Еще одно направление - исследование эволюции всего живого. Здесь тоже есть много открытий, например горизонтальный перенос генов между видами. Биоинформатика в некоторых случаях позволяет не только показать эти случаи, но также и датировать их.

    Зачем это нужно?

    Биология и биоинформатика являются не только способами познания мира, но имеют и прикладное значение, прежде всего в медицине и биотехнологии.

    Биоинформатика играет существенную роль в поиске новых лекарственных препаратов и мишеней для них, а также в отбраковке неперспективных лекарств. Приведу пример.

    Все вы слышали про мыло Safeguard, которое убивает микробы. Оказалось, что есть весьма опасные стрептококки, не чувствительные к его действующему началу - триклозану. Сначала это было показано с помощью компьютерного анализа геномов стрептококков, а потом подтверждено экспериментально.

    Еще пример - анализ генетических данных людей здоровых и с каким-либо заболеванием, например ишемической болезнью сердца. Нет одного гена, ответственного за эту болезнь. Однако сопоставление данных по большому количеству больных позволило найти так называемые ассоциации - набор генов предрасположенности к указанной болезни, и тем самым дает возможность определить генетическую группу риска.

    Биоинформатика широко используется в биотехнологии, задачу которой в общем виде можно сформулировать как получение как можно большего количества целевого продукта из 1 г, например, сахара. Для этого надо детально изучить пути биосинтеза, исследовать систему регуляции, найти в других организмах более эффективные ферменты. Здесь тоже всю подготовительную работу может взять на себя биоинформатика.

    Важность этого направления науки можно показать и косвенно. Достаточно сказать, что в мире есть несколько крупных научных биоинформатических центров, есть коммерческие компании, предоставляющие биоинформатические услуги. Любая крупная или средняя фармацевтическая или биотехнологическая компания имеет отдел биоинформатики. Сейчас многие университеты готовят специалистов в этой области. В нашей стране возрождается фармацевтическая и биотехнологическая промышленность, которой в скором времени потребуются специалисты. Академическая наука также нуждается в грамотных биоинформатиках.

    Что надо знать и уметь?

    Грамотный биоинформатик должен иметь разностороннее образование. Он должен хорошо знать биологию. Кроме того, он должен владеть многими методами математики: статистикой, теорией вероятностей, вычислительной математикой, теорией алгоритмов. Надо знать физику и химию - чтобы не делать глупостей. Необходимо знать английский язык - чтобы читать научную литературу. Надо постоянно интересоваться новыми результатами как в биоинформатике, так и в биологии в целом.

    В общем, надо быть культурным человеком и постоянно стремиться узнавать что-нибудь новое.