Лаборатория регуляторной геномики



Дата17.05.2016
Размер0.6 Mb.
Лаборатория регуляторной геномики

Участники проекта: Кирилл Бабеев, Софья Буянова, Мария Сысоева

Руководитель проекта: Иван Кулаковский

Научный консультант: Ирина Елисеева


В рамках биологической школы нами была предпринята попытка провести небольшое, но полноценное боинформатическое исследование, подразумевающее компьютерный анализ регуляторных последовательностей биополимеров (ДНК и РНК). Предполагалось, что участники познакомятся с основными базами данных (идентификаторы генов, разметка геномов и пр.) и основами программирования на каком-либо скриптовом языке. Далее, используя новоприобретенные знания, будет проведена попытка воспроизвести какой-либо недавний опубликованный результат по анализу регуляторных последовательностей.

В роли объекта исследования были взяты мРНК-мишени mTOR-каскада, для которых в недавно опубликованной работе [Hsieh и др., Nature, 2012, PubMed ID: 22367541] был обнаружен новый пиримидин-богатый регуляторный мотив.

Процесс исследовательского проекта


Для обмена результатами и обсуждения мы активно использовали совместно редактируемые документы в Google Documents, так, всеми участниками велся общий лабораторный журнал (на его основе написан этот совместный отчет).

Выбранная задача оказалась достаточно сложной, причины были как довольно типичные (необходимость ручной курирации списков целевых генов, картирования идентификаторов генов между разными версиями геномных аннотаций и пр.) так и достаточно нежиданные (неудачная форма представления и ошибки в анализе данных в исходной статье). Дополнительную сложность создавала необходимость решать проблемы на двух технических уровнях (собственные программные скрипты, разработанные в рамках проекта и существующие программные инструменты для анализа) и одновременно разбираться в двух содержательных уровнях (транскрипции и трансляции).

К середине школы стало понятно, что нам не удается повторить опубликованный результат; для того, чтобы разобраться в происходящем, пришлось оперативно привлечь дополнительный открытый источник экспериментальных данных. Работа из простой учебной постановки (воспроизвести опубликованный результат) вышла на полноценный научный уровень (разобраться в том, что именно происходит и почему опубликованный результат не воспроизводится).
Ниже приведен научный отчет по проекту, написанный по окончании проекта его непосредственными участниками (с минимальной редакторской правкой научного руководителя и научного консультанта).
Дополнительный последующий анализ и обсуждение результатов проекта, а также детальное сопоставление с имеющимися литературными данными, были проведенны осенью в почтовой переписке уже по окончании летней школы.

Компьютерный анализ регуляторных последовательностей 5' UTR mRNA - мишеней mTOR-сигнального каскада

Определения и сокращения


TOP - terminal oligopyrimidine tract - терминальный олигопиримидиновый тракт

PRTE - pyrimidine-rich translational element - пиримидин богатый трансляционный элемент

TORTE - terminal oligopyrimidine regulatory translational element - терминальный олигопиримидиновый регуляторный трансляционный элемент

upstream - находящийся в 5' области последовательности

downstream - находящийся в 3' области последовательности

UTR (НТО) - untranslated region (нетранслируемая область)

TSS - transcription start site - старт транскрипции

Кэп - (от англ. cap, шапочка) - модифицированный нуклеотид на 5'-конце mRNA

Ингибирование - замедление, выключение

1. Введение


В жизни эукариотической клетки важную играет регуляторный каскад, управляемый белком mTOR (main target of rapamycine). mTOR-каскад выполняет регуляторные функции и на уровне транскрипции, и на уровне трансляции. На уровне трансляции mTOR регулирует (активирует) трансляцию многих рибосомальных белков, факторов инициации и элонгации трансляции. Интерес представляет детальное изучение особенностей последовательностей UTR в mRNA, трансляция которых ингибируется при выключении mTOR-сигнального каскада.

Предположительная структура 5' UTR mRNA-мишеней mTOR


Из статьи [Hsieh и др., Nature, 2012, PubMed ID: 22367541] мы знаем о предположительной структуре 5' UTR:

TOP - короткая СТ богатая последовательность, состоящая из 5-ти и более нуклеотидов в начале 5’ UTR

PRTE - СТ богатая последовательность, состоящая из 10 и более нуклеотидов в середине и конце последовательности 5’ UTR

Кроме того, авторами выдвигалось предположение, что PRTE-последовательность содержит 100% консервативный нуклеотид U в позиции 6; и что PRTE-последовательность не имеет позиционных предпочтений по локализации в 5' UTR.


2. Методы

2.1. Предварительная работа с выборкой генов-мишеней и установление соответствия имя-ID


Выборка генов-мишеней была взята из статьи [Hsieh и др., Nature, 2012, PubMed ID: 22367541]. В этой работе метод рибосомного профайлинга был использован для определения mRNA в линии клеток PC-3 (рак простаты человека), трансляция которых существенно ингибировалась химическими агентами, блокирующими mTOR-сигнальный каскад.

На основе списка mRNA, приведенного в таблице 5, см. дополнительные материалы к статье [Hsieh и др.], мы выбрали 144 мишени, трансляция которых значительно ингибировалась при выключении mTOR.

С помощью Custom Downloads сайта http://www.genenames.org мы извлекли полную таблицу соответствий "имя гена - идентификаторы в базах данных". Нас интересовали UCSC known gene ID.

На языке Ruby мы разработали скрипт, который автоматически сопоставил имена генов и идентификаторы генов UCSC по последней сборке человеческого генома hg19. Не всем генам удалось автоматически сопоставить идентификаторы; для нескольких генов мы сделали это вручную напрямую с помощью веб-ресурса UCSC Genome Browser: http://genome.ucsc.edu/ (далее по ссылке "Genomes"). В дальнейшем нам понадобилось картирование имен и на идентификаторы предыдущей сборку hg18, для чего мы модифицировали скрипты для картирования имен.


2.2. Построение выборок 5' UTR последовательностей


Последовательности 5' UTR были извлечены из базы данных UCSC, http://genome.ucsc.edu/cgi-bin/hgTables?command=start, при этом мы создали 3 выборки - UTR "как есть" в базе данных, с upstream-последовательностью в 5 и в 10 нуклеотидов.

Обратите внимание, мы работаем с базой даных DNA-последовательностей, это дает нам возможность работать с upstream-областями 5' UTR (доступными в геноме). Везде где мы говорим о "букве" Т (тимине) на уровне mRNA это соответствует урацилу (U).

С помощью скриптов на языке Ruby мы выделили из общего геномного набора mRNA последовательности, соответствующие тестовой выборке (т.е. именам генов, mRNA которых ингибируются mTOR-сигнальным каскадом).

2.3. Прикидочный поиск CT-богатого мотива


С помощью программ XXMotif (www.xxmotif.genzentrum.lmu.de),SeSiMCMC(www.favorov.bioinfolab.net/SeSiMCMC/) и ChIPMunk (www.autosome.ru/ChIPMunk) мы осуществили предварительный поиск мотивов в последовательностях 5' UTR и выяснили, что многие последовательности действительно содержат CT-богатый мотив, который может быть как TOP так и PRTE-последовательностью.

2.4. Поиск TOP и PRTE-мотивов с помощью регулярных выражений


Для оценки обогащенности выборки mTOR-зависимых mRNA (тестовая выборка) лидерными TOP/внутренними PRTE мы выбрали простые модели - регулярные выражения. Наличие TOP проверяли в лидерных последовательностях длины 10 и 20 нуклеотидов.

Проверка наличия TOP

5' UTR без upstream


ВСЕГО ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Тестовая выборка: 144

Геномная выборка: 50366 уникальных (69050 неуникальных)

модель

лидер 10 нуклеотидов,

тестовая выборка



лидер 10 нуклеотидов, все геномные mRNA

лидер 20 нуклеотидов, тестовая выборка

лидер 20 нуклеотидов, все геномные mRNA

минимум 5 букв,

ТОЛЬКО CT

[CT]+


55

8322

74

16285

1 вставка A или G допустима, 6 букв

[CT]+[AG]?[CT]+



65

11578

89

22187

2 вставки, 7 букв

[CT]+[AG]?[CT]+[AG]?[CT]+



65

11851

91

23225

Расширенный 5' UTR (5 нуклеотидов upsteam)


Тестовая выборка: 144

Геномная выборка: 51613 уникальных (неуникальных = 80922)



модель

лидер 10 нуклеотидов,

тестовая выборка



лидер 10 нуклеотидов, все геномные mRNA

лидер 20 нуклеот.,

тестовая выборка



20 букв голова, все геномные mRNA

минимум 5 букв, ТОЛЬКО CT. [CT]+

52

8061

75

16634

1 вставка A или G допустима, минимум 6 букв. [CT]+[AG]?[CT]+

55

10004

94

21595

2 вставки, минимум 7 букв.

[CT]+[AG]?[CT]+[AG]?[CT]+



55

11284

93

23306

Расширенный 5’UTR, 10 нуклеотидов upstream


Тестовая выборка: 144

Геномная выборка: 59911 (неуникальных = 80922)



модель

лидер 10 нукл.,

тестовая выборка



лидер 10 нукл., все геномные mRNA

лидер 20 нукл.,

тестовая выборка



лидер 20 нукл., все геномные mRNA

минимум 5 букв, ТОЛЬКО CT. [CT]+

34

13217

78

20471

1 вставка A или G допустима, минимум 6 букв. [CT]+[AG]?[CT]+

47

17647

94

27632

2 вставки, минимум 7 букв

[CT]+[AG]?[CT]+[AG]?[CT]+



47

18149

96

28834

Предварительные результаты совпадают с оценками из статьи [Hsieh и др.], порядка 90 mRNA содержат TOP-последовательность.


Кроме того, тестовая выборка действительно обогащена лидерным TOP. На примере 5'UTR c 10 нуклеотидов upstream подсчитаем частоты (лидер 20 нукл.):

Частота TOP-содержащих последовательностей в тестовой выборке:

94/144=0.65



Частота TOP-содержащих последовательностей в геноме:

27632/59911=0.46


Проверка наличия PRTE


При проверке наличия PRTE мы отрезали лидерную часть mRNA длиной в 20 букв, в которой на предыдущем этапе мы искали TOP.




Число PRTE-

содерж. последов-й



Слишком короткие UTR

Полное число последовательностей

Тестовая выборка

90

1

144

Все геномные mRNA

33244

10800

59911

Регулярное выражение /[CT]+[AG]?[CT]+[AG]?[CT]+/ для PRTE задает CT-последовательность с двумя возможными заменами CT на A или G; дополнительно мы контролировали длину (не менее 12 букв).



Частоты PRTE-содержащих последовательностей:

90/(144-1) = 0.63

33244/(59911-10800) = 0.680

Таким образом мы не видим отличия между всеми геномными mRNA и тестовой выборкой.

2.5. Поиск мотива с помощью MEME - просмотр расстояний


В качестве контрольного теста мы решили построить PRTE-мотивы на UTR последовательностях с upstream-областями в 10 нуклеотидов. Для этого мы использовали программу MEME (http://meme.sdsc.edu/meme/intro.html), которая исходно применялась авторами [Hsieh и др.] для установления последовательности PRTE.
Выборка 5'UTR на основе сборки генома hg18:

Мотив найден в 97 последовательностях; в ~20 случаях мотив найден в начале последовательности (подозрение на TOP).


Выборка 5'UTR на основе сборки генома hg19:



Мотив найден в 110 последовательностях; в ~20 случаях мотив найден в начале последовательности (подозрение на TOP).


2.6. Аннотация TSS и обнаружение TORTE


Чтобы аккуратно установить локализацию PRTE относительно старта транскрипции нам недостаточно баз данных, указывающих единственную координату старта транскрипции. Как показывают данные, полученные с помощью технологии hCAGE в ходе проекта FANTOM (http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:42919983..42921680, см. дорожку all hCAGE data) старты транскрипции многих генов являются достаточно размытыми. Таким образом множество mRNA, транскрибируемых с конкретного гена, будет иметь существенно разные лидерные последовательности в своих 5' UTR. Более того, старты транскрипции, аннотированные в существующих базах данных (например, UCSC known gene, которой мы пользовались) часто далеко промахиваются мимо реальных стартов.

Внимательное исследование ряда генов mTOR-зависимых mRNA (см. секцию "Результаты") показывает, что типичная ширина старта транскрипции составляет не менее 3-4 нуклеотидов. Это значит, что большинство mRNA будут иметь разную лидерную последовательность.

Чтобы удостовериться, что все mRNA с этого гена будут mTOR-зависимыми, нужно их всех обеспечить CT-лидером.

Это, в свою очередь, возможно, если над стартом транскрипции расположить широкую CT-богатую область. Именно широкую CT-богатую область мы наблюдаем над множеством стартов транскрипции, и именно эта область была ошибочно названа в статье [Hsieh и др.] как новый регуляторный PRTE-элемент.

К сожалению, данные hCAGE (точное картирование TSS) опубликованы только для клеточных линий THP-1 и HeLa. Это не дает нам возможности однозначно утверждать какой именно TSS работает для mRNA, которые ингибировались в эксперименте с линией PC-3 в статье [Hsieh и др.]. Однако, мы внимательно фиксировали факты наличия альтернативных минорных TSS и TORTE-последовательностей в их окрестности.

Результаты и обсуждение

TORTE: ключевой регуляторный элемент, порождающий TOP в 5' UTR mRNA - целях mTOR сигнального каскада


Наши результаты показывают, что PRTE на самом деле является TORTE-последовательностью, которая на этапе транскрипции служит для порождения TOP-последовательностей в большинстве mRNA. Картированный в базе данных старт является ошибочным, что и вызывает нахождение "внутренних" PRTE-последовательностей, регуляторную роль которых трудно объяснить.

TORTE-последовательность существует в DNA. TOP-последовательность - кусок TORTE. Размер куска TORTE, попадающего в 5'UTR mRNA и становящегося TOP-последовательностью, зависит от места старта транскрипции.


Статистика по обнаруженным TORTE


1. Для 75 генов найден TORTE > 10 нуклеотидов непосредственно над мажорным стартом (по данным hCAGE геномного просмотрщика Zenbu: http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:42919983..42921680)

2. Для 19 генов найден небольшой TORTE (6-10 нуклеотидов) над мажорным стартом транскрипции.

3. Для 18 генов найден TORTE над альтернативным стартом.

4. Для 32 генов не найден выраженный TORTE; в некоторых случаях имеется слабо выраженное обогащение СТ вокруг стартов транскрипции.


В группы 1-3 попадают рибосомные белки, факторы инициации и элонгации трансляции.

Группа 4 состоит из различных белков.


Пример TSS группы 1: RPL28 (ген на основной цепи)


Пример TSS группы 2: EEF2 (ген на обратной цепи)




Пример TSS группы 3: RPS25 (ген на обратной цепи)


Пример TSS группы 4: NCLN (ген на основной цепи)


В заключение хочется особенно выделить группу генов, которые не содержат TORTE мотивов в районе TSS. Мы предполагаем, что соответствующие mRNA регулируются по принципиально другому механизму, возможно через 3' UTR.

5' UTR этих генов, будучи проанализированными отдельно, не содержат выраженного общего мотива, предварительный анализ 3' UTR этих генов показывает одновременное наличие C-богатого и G-богатого мотива (возможно они соответствуют каким-то характерным вторичным структурам).


Дополнительные наблюдения


Мы выяснили насколько хорошо картированы мажорные старты транскрипции для генов-мишеней mTOR-каскада:

63 гена аннотированы в базе данных относительно правильно (реальный старт не дальше 10 нуклеотидов от картированного); 70 генов - от 10 до 100 нуклеотидов;

11 генов - крайне плохо аннотированы (реальный мажорный старт удален более чем на 100 нуклеотидов от картированного).


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©dogmon.org 2019
обратиться к администрации

    Главная страница