COSMIC: добыча полных раковых геномов в Каталоге соматических мутаций при раке

  1. Аннотация
  2. ВСТУПЛЕНИЕ
  3. СОДЕРЖАНИЕ БАЗЫ ДАННЫХ
  4. Таблица 1.
  5. ДОСТУП К ДАННЫМ
  6. Интеграция данных и совместимость
  7. БУДУЩАЯ РАБОТА
  8. ФИНАНСИРОВАНИЕ
  9. БЛАГОДАРНОСТЬ
  10. РЕКОМЕНДАЦИИ

Nucleic Acids Res. 2011 янв; 39 (проблема с базой данных): D945 – D950. Саймон А. Форбс

, Нидхи Биндал , Салли Бэмфорд , Шарлотта Коул , Чай Инь Кок , Дэвид Беар , Минмин Цзя , Ребекка Шепард , Кенрик Люн , Эндрю Мензис , Джон В. Тиг , Питер Дж. Кэмпбелл , Майкл Р. Страттон , а также П. Эндрю Футреаль *

Проект по геному рака, Институт Wellcome Trust Sanger, Университетский городок Wellcome Trust, Хинкстон, CB10 1SA, Кембридж, Великобритания

*Кому должна быть адресована корреспонденция. Тел: 01223494730; Факс: +44 (0) 1223 494809; Эл. адрес: ku.ca.regnas@fap

Поступило в 2010 году 9 сентября; Принят 2010 сент 27.

Это статья открытого доступа, распространяемая в соответствии с условиями некоммерческой лицензии Creative Commons Attribution ( http://creativecommons.org/licenses/by-nc/2.5 ), которая разрешает неограниченное некоммерческое использование, распространение и воспроизведение на любом носителе, при условии, что оригинальная работа должным образом процитирована. Эта статья была цитируется другие статьи в PMC.

Аннотация

КОСМИЧЕСКИЙ ( http://www.sanger.ac.uk/cosmic ) предоставляет исчерпывающую информацию о соматических мутациях при раке человека. Выпуск v48 (июль 2010 г.) описывает более 136 000 кодирующих мутаций в почти 542 000 образцов опухолей; из 18 490 зарегистрированных генов 4803 (26%) имеют одну или несколько мутаций. Полное описание научной литературы доступно по 83 основным генам рака и 49 парам генов слияния (19 новых генов рака и 30 новых пар слияния в этом году), и это число постоянно увеличивается. Ключевым среди них является TP53, который теперь доступен благодаря сотрудничеству с базой данных IARC p53. В дополнение к данным из проекта «Геном рака» (CGP) в Институте Сангера, Великобритания, и проекта «Атлас генома рака» (TCGA), теперь также создаются большие систематические скрины. Крупные обновления веб-сайтов теперь делают эти данные более удобными для анализа благодаря множеству новых фильтров выбора и графики. Теперь доступен Biomart, позволяющий более автоматизировать анализ данных и интеграцию с другими биологическими базами данных. Аннотация геномных особенностей стала значительным направлением; COSMIC начал проводить эксперименты по повторному секвенированию полного генома, разработке новых веб-страниц, форматов экспорта и графических стилей. Со всей геномной информацией, недавно обновленной до GRCh37, COSMIC объединяет много различных типов информации о мутациях и устанавливает намного более тесные связи с Ensembl и другими ресурсами данных.

ВСТУПЛЕНИЕ

COSMIC предназначен для сбора, курирования, организации и представления мировой информации о соматических мутациях при раке и обеспечения ее свободного доступа различными полезными способами, наиболее легко доступными через ее веб-сайт ( http://www.sanger.ac.uk/cosmic ). Как описано ранее ( 1 , 2 ), COSMIC объединяет данные о мутациях рака, вручную отобранные из научной литературы, с результатами проекта «Геном рака» (CGP) в Sanger Institute UK. Гены отбираются для полного литературного курирования с помощью переписи гена рака ( http://www.sanger.ac.uk/genetics/CGP/Census/ ), с акцентом на тех, которые мутировали с помощью небольших точечных мутаций в кодирующих доменах, и в последнее время, в том числе мутировавших при слиянии генов. В эпоху секвенирования генома всего рака теперь можно описать содержание соматических мутаций в геноме образца опухоли, включая структурные перестройки и некодирующие варианты. COSMIC теперь интегрирует эту информацию в базу данных, предоставляя полное кодирование и аномальные варианты аномалий для образцов, как из лабораторий CGP, так и из последних публикаций.

СОДЕРЖАНИЕ БАЗЫ ДАННЫХ

В течение многих лет база данных COSMIC описывала соматические мутации в ключевых генах рака во многих образцах рака, и, с недавних пор, были включены слияния генов и аннотации структурной перестройки. Большая часть основных функций системы была сохранена, как описано ранее ( 1 , 2 ), включая систему номенклатуры для опухолевых фенотипов и синтаксис HGVS для мутаций. В прошлом году подробные данные о мутациях были добавлены в COSMIC для 19 новых генов рака, в результате чего было получено 83 полностью курированных и современных гена рака, большинство из которых являются точечно-мутированными; число курируемых пар слитых генов также удвоилось до 49. В дополнение к этому, значительные усилия по курированию значительных внешних ресурсов и публикаций в COSMIC расширили охват базы данных. Что наиболее важно, теперь включен спектр мутаций ключевого генного рака TP53; в сотрудничестве с кураторами в МАИР ( 3 ), большая часть выпуска R14 базы данных IARC p53 теперь доступна в COSMIC. Кроме того, все аннотации соматических мутаций из проекта TCGA по крупномасштабной диагностике рака теперь включены ( 4 ), а также из ряда значимых систематических публикаций о генном скрининге кандидатов ( 5-7 ). В общей сложности за последний год в COSMIC было добавлено более 47 000 аннотаций кодирующих мутаций, а также более 53 000 некодирующих мутаций. Текущее содержимое базы данных (v48, июль 2010 г.) отображается в.

Таблица 1.

Общее содержание v48 базы данных COSMIC, выпуск за июль 2010 г.

Тип кураторских данных Количество кураторских данных Эксперименты 2 760 220 Опухоли 541 928 Мутации 136 326 Ссылки 10 383 Гены 18 490 Слияний 4946 Структурные варианты 2307 Геномы всего рака 29

С ростом геномного контекста в COSMIC, система расширилась, чтобы охватить полную аннотацию соматических мутаций по целым геномам, включая все кодирующие и некодирующие мутации, структурные перестройки и слияния генов. Ссылки также присутствуют в системе CONAN ( http://www.sanger.ac.uk/cgi-bin/genetics/CGP/cghviewer/CghHome.cgi ) для копии номера варианта аннотации. Наиболее полные и подробные аннотации генома взяты из лабораторий CGP ( 8 , 9 ), но кроме того, курирование крупномасштабных систематических генных скринингов кандидатов ( 5 , 6 , 7 ) и анализ всего генома ( 10 ) из научной литературы началось. Двадцать девять образцов опухолей в настоящее время имеют аномалии по всему геному в COSMIC. Первые 26 образцов, в основном опухоли карциномы молочной железы, представляют парные сканы с низким охватом, характеризующие соматические структурные перестройки при разрешении базовой пары ( 11 ). Два образца (линии клеток злокачественной меланомы и мелкоклеточной карциномы легкого) подверглись повторному секвенированию всего генома, предоставляя гораздо более обширные аннотации ( 8 , 9 ). Описаны точечные мутации и небольшие вставки / делеции, несколько сотен в кодирующих доменах и многие тысячи как интронных, так и межгенных. Включая структурные варианты и CNV, эти образцы обобщены в более сложную цирковую диаграмму, на которой представлены кольца, описывающие типы точечных мутаций и влияние на любые кодирующие домены (). Наконец, Mardis et al . ( 10 ) описать повторное секвенирование полного генома одного образца ОМЛ (и последующую характеристику дальнейшей когорты); это первый анализ генома, куратор по литературе. Все некодирующие варианты и структурные перестройки описаны только в терминах координат GRCh37, тогда как кодирующие мутации описаны в геномных терминах вместе с координатами в CDS и пептиде, на которые они влияют.

Все некодирующие варианты и структурные перестройки описаны только в терминах координат GRCh37, тогда как кодирующие мутации описаны в геномных терминах вместе с координатами в CDS и пептиде, на которые они влияют

Циркограмма суммирует полное содержание соматических мутаций в клеточной линии NCI-H209. Концентрические кольца суммируют данные о различных типах мутаций. Изнутри ядро ​​отображает структурные перестройки; внутрихромосомные имеют зеленый цвет, межхромосомные - фиолетовый. Следующее кольцо показывает номер хромосомной копии в форме гистограммы, с внутренними красными пятнами, указывающими на области LOH. Кроме того, показаны несколько колец с единичными базовыми кодирующими заменами (черные плитки показывают мутации сайта сплайсинга, красный стоп-сигнал, пурпурные несинонимичные и серые синонимические изменения). Внутренние темно-оранжевые и внешние светло-оранжевые гистограммы представляют некодирующие мутации, относительные частоты гомозиготных и гетерозиготных мутаций, соответственно. В последнем кольце перед индикаторами хромосом Indels показаны зеленым цветом; светло-зеленый представляет вставки и темно-зеленые удаления.

ДОСТУП К ДАННЫМ

Сайт COSMIC доступен по адресу http://www.sanger.ac.uk/cosmic/ , Несмотря на то, что возможность навигации по базе данных COSMIC по генам и типам тканей была сохранена, она стала намного более пригодной для добычи. Страница гистограммы гена, которая графически суммирует соматические мутации в кодирующей последовательности гена (например), по-прежнему составляет ядро ​​навигационной системы для большинства данных. В настоящее время доступно несколько методов для фильтрации данных, формирования специализированных запросов. В каждом случае изображение будет регенерировано, а спектр мутаций и специфические для ткани частоты будут пересчитаны для выбранного выбора: (i) щелчок по графику или ввод CDS координирует масштабирование в требуемой области гена; (ii) щелчок по первичному типу ткани предлагает метод выбора специализированного фенотипа; и (iii) в левой навигационной панели (слева) доступны дополнительные фильтры, включая ограничения по типу мутации (замена, удаление и т. д .; несоответствие, бессмысленность, смещение кадров и т. д.), источник выборки (клеточная линия, первичный опухоль), соматический статус (была ли подтверждена мутация соматической или нормальная ткань отсутствовала) и систематический скрининг (были ли эти результаты получены в рамках гораздо более широкого исследования генома кандидата-гена или исследования повторного секвенирования генома). Одновременно используя несколько фильтров, можно создать очень специфический запрос, ориентированный на точные требования гена / фенотипа и содержания данных. Расширяя этот процесс выбора, мы начали генерировать сводные диаграммы в форме круговых диаграмм, которые одновременно просматривают выбранные данные и предоставляют ссылки на подмножества, автоматизируя процесс выбора одним щелчком мыши. Первоначально доступны под кнопкой «Распределение» на странице гистограммы два таких резюме (): первое обеспечивает разбивку количества мутаций по типу мутации, а второе показывает разбивку образцов мутантов по их источнику (клеточная линия, первичная опухоль или неизвестно). ). В каждом случае ссылки «Подробнее» предоставляют опции для восстановления страницы гистограммы с указанным выбором или для просмотра полных данных в табличной форме, готовых к экспорту в формате электронной таблицы. В дополнение к включению мутационного спектрального анализа на генном уровне, COSMIC также начал предоставлять спектральный анализ на уровне образца. Для образцов со значительным количеством данных о мутациях доступна гистограмма спектра мутаций (), чтобы показать суммарные частоты обмена нуклеотидов из репертуара образца кодирующих мутаций. Это можно найти на странице обзора примера, где несколько вкладок облегчают проверку множества типов данных для каждого образца.

Это можно найти на странице обзора примера, где несколько вкладок облегчают проверку множества типов данных для каждого образца

Страница гистограммы гена для TP53. Гистограмма показывает относительную частоту мутаций (ось Y ) в CDS гена (ось X ). Под шкалой оси x находятся сложные замены мутаций, за которыми следуют простые делеции (синие треугольники) и вставки (красные треугольники). При этом доступны варианты масштабирования. Слева показаны новые фильтры специализации, предлагающие множество вариантов запросов.

Слева показаны новые фильтры специализации, предлагающие множество вариантов запросов

Круговые диаграммы (здесь показаны гены TP53) все чаще используются для обобщения данных комплексного спектра в COSMIC. Два в настоящее время живут со многими другими. Верхний график ( а ) показывает разбивку всех наблюдаемых мутаций по типу, а нижний ( б ) показывает разбивку мутированных образцов по источникам. Общее количество немного отличается из-за того, что в некоторых образцах имеется более одной мутации, поэтому они учитываются один раз в (b), но дважды или более в (а).

Общее количество немного отличается из-за того, что в некоторых образцах имеется более одной мутации, поэтому они учитываются один раз в (b), но дважды или более в (а)

Гистограмма мутационного спектра для образца повторного секвенирования всего генома COLO-829, демонстрирующая значительное перепредставление событий C: G> T: A в репертуаре кодирующих мутаций, отражающая характерную характеристику повреждения ДНК в результате воздействия ультрафиолетового света, характерного для злокачественной меланомы.

В то время как веб-сайт был создан, чтобы быть максимально удобным для пользователя, новый Biomart ( 12 ) был сделан доступным, что подчеркивает гибкость (доступно на http://www.sanger.ac.uk/genetics/CGP/cosmic/biomart/martview/ ). Эта система предоставляет все доступные варианты выбора генов, тканей и мутаций в виде раскрывающихся меню и предоставляет табличные отчеты по выбранным данным, которые снова можно экспортировать в формате электронной таблицы для автономного исследования.

Интеграция данных и совместимость

Все большее внимание уделяется повторному упорядочению полных раковых геномов, и в ответ мы обновили все наши геномные координаты до GRCh37. Это позволило нам начать более тесную интеграцию с браузером генома Ensembl ( www.ensembl.org ). Данные о 83 курируемых генах были загружены из COSMIC в базы данных Ensembl, и это позволило включить данные COSMIC непосредственно в веб-страницы Ensembl в виде аннотаций «Somatic_SNV» (отличая мутации соматического рака от стандартных SNP). Эти страницы отображают мутацию COSMIC в контексте локальной последовательности с аннотациями на всех транскриптах Ensembl для гена. Также включены ссылки на веб-систему Ensembl GenomeView, предоставляющую вид мутантного гена с полными аннотациями генома. Ссылки на COSMIC были тщательно включены в веб-сайт Ensembl, чтобы дать более подробные и специализированные взгляды на данные. Первоначально выпущенный в августе 2010 года, полный набор данных COSMIC ожидается вскоре после.

Ряд других внешних проектов получили нашу поддержку интеграции данных COSMIC, в том числе Intogen ( http://www.intogen.org/home ), UniProt ( http://www.ebi.ac.uk/uniprot ) и Pfam ( http://pfam.sanger.ac.uk ). Многие другие использовали экспорт с FTP-сайта для расширения существующих систем (например, CGWB; https://cgwb.nci.nih.gov ) или разработать новые, например, в качестве ресурсов интеграции выбранных подмножеств данных (например, CanProVar; http://bioinfo.vanderbilt.edu/canprovar ). Дальнейшие внешние проекты включили функцию поиска COSMIC в свои системы, интерпретируя результаты удаленных поисковых запросов для локального изучения со ссылками на веб-сайт COSMIC (например, ONIX; http://www.ncri-onix.org.uk ). Для соматических мутаций COSMIC была разработана стабильная система идентификаторов, позволяющая внешним базам данных легко связываться с соответствующей записью COSMIC. Всем мутациям, хранящимся в COSMIC, присваивается идентификатор COSM (идентификатор соматической мутации COsmic), который будет оставаться стабильным между выпусками COSMIC. Ensembl является первой внешней базой данных, которая успешно использует идентификатор COSM, и мы просим другую базу данных поддерживать этот идентификатор при использовании аннотированных мутаций COSMIC.

БУДУЩАЯ РАБОТА

Данные в COSMIC постоянно обновляются, чтобы поддерживать существующие курированные гены и включать новые полностью курированные гены - эта работа будет продолжена. Все большее количество генов также добавляется во время проведения масштабных скринингов генов-кандидатов, которые могут охватывать более 20 000 генов в одном исследовании. Что еще более важно, все больше и больше исследований, детализирующих полное повторное секвенирование полных геномов рака; хотя первые несколько уже выпущены в COSMIC, ожидается, что это окажется основным направлением развития COSMIC. В то время как данные генома уже экспортированы из COSMIC в ICGC ( www.icgc.org ), предполагается, что COSMIC также должен импортировать подтвержденные ICGC данные о соматических мутациях для агрегации с геномами, отобранными из других источников, чтобы максимально охватить геном рака в базе данных COSMIC.

Для эффективного опроса этого все более и более огромного количества информации разрабатываются новые инструменты, которые предоставляют новые функциональные возможности, которые в настоящее время недоступны в COSMIC. Уже в конце 2010 года планируется выпустить систему GBrowse, встроенную в COSMIC. GBrowse ( 13 ) является полнофункциональным и очень гибким браузером генома, и для работы в COSMIC он заполнен полными аннотациями генома, наряду с которыми данные COSMIC легко ориентируются в геномном контексте. Он объединяет в одном окне большую часть данных, доступных в настоящее время в COSMIC, включая все генные структуры и последовательности, все точечные мутации, структурные перестройки и аберрации числа копий. В дополнение к улучшению геномного контекста COSMIC, новый аналитический набор строится также для основной геноцентричной системы. Подобно существующим круговым диаграммам типа мутации (), новые диаграммы и таблицы разрабатываются для отображения информации о мутациях в соответствии с такими ограничениями, как изменение последовательности базовой пары или размер вставки / удаления. Они будут особенно эффективными, так как будут использовать все фильтры специализации, которые используются для глубокого изучения страницы гистограммы гена, как описано ранее. Проект COSMIC работает уже более 9 лет, и его поддержка будет продолжаться еще много. Являясь стабильным и всеобъемлющим ресурсом, он в настоящее время решает задачу аннотирования и интеграции широкого спектра данных о соматических мутациях из многих новых источников, продолжая делать их легко и свободно доступными для исследовательского сообщества.

ФИНАНСИРОВАНИЕ

Wellcome Trust поддержал эту работу в рамках гранта 077012 / Z / 05 / Z. Финансирование платы за открытый доступ: Wellcome Trust.

Заявление о конфликте интересов . Никто не объявлен.

БЛАГОДАРНОСТЬ

Мы хотели бы поблагодарить Магали Оливье за ​​ее существенную помощь в интерпретации базы данных IARC p53 R14 для загрузки в COSMIC.

РЕКОМЕНДАЦИИ

1. Forbes SA, Tang G, Bindal N, Bamford S, Dawson E, Cole C, Kok CY, Jia M, Ewing R, Menzies A, et al. COSMIC (Каталог соматических мутаций при раке): ресурс для изучения приобретенных мутаций при раке человека. Nucleic Acids Res. 2010; 38: D652-D657. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 2. Форбс С.А., Бхамра Дж., Бэмфорд С., Доусон Е., Кок С., Клементс Дж., Мензис А., Тиг Дж.У., Футреал П.А., Страттон М.Р. Каталог соматических мутаций при раке (COSMIC) Curr. Protoc. Hum. Жене. 2008 Глава 10 , 11. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 3. Петитжан ​​А., Мате Е., Като С., Ишиока С., Тавтигян С. В., Эно П., Оливье М. Влияние функциональных свойств мутанта р53 на характер мутации TP53 и фенотип опухоли: уроки последних разработок в базе данных IARC TP53. Hum. Mutat. 2007; 28: 622–629. [ PubMed ] [ Google ученый ] 4. Сеть исследований атласа генома рака. Комплексная геномная характеристика определяет гены глиобластомы человека и основные пути. Природа. 2008; 455: 1061–1068. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 5. Сьёблом Т., Джонс С., Вуд Л.Д., Парсонс Д.В., Лин Дж., Барбер Т.Д., Манделькер Д., Лири Р.Дж., Птак Д., Силлиман Н. и др. Консенсусные кодирующие последовательности рака молочной железы и колоректального рака человека. Наука. 2006; 314: 268–274. [ PubMed ] [ Google ученый ] 6. Парсонс Д.В., Джонс С., Чжан X, Лин Ю.С., Лири Р.Дж., Ангенендт П., Манку П., Картер Н., Сиу И.М., Галлия Г.Л. и др. Комплексный геномный анализ мультиформной глиобластомы человека. Наука. 2008; 321: 1807–1812. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 7. Дин Л., Гетц Г., Уилер Д.А., Мардис Э.Р., МакЛеллан М.Д., Цибульскис К., Сугнез С., Грейлих Н., Музный Д.М., Морган М.Б. и др. Соматические мутации влияют на ключевые пути аденокарциномы легкого. Природа. 2008; 455: 1069–1075. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 8. Pleasance ED, Стивенс П.Дж., О'Миара С., МакБрайд DJ, Мейнерт А., Джонс Д., Лин М.Л., Беар Д., Лау К.В., Гринман С. и др. Мелкоклеточный геном рака легких со сложными признаками воздействия табака. Природа. 2010; 463: 184–190. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 9. Pleasance ED, Читам Р.К., Стивенс П.Дж., МакБрайд DJ, Хамфри С.Дж., Гринман К.Д., Варела I, Лин М.Л., Ордоньес Г.Р., Бигнелл Г.Р. и др. Полный каталог соматических мутаций генома рака человека. Природа. 2009; 463: 191–196. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 10. Mardis ER, Ding L, Dooling DJ, Larson DE, McLellan MD, Chen K, Koboldt DC, Fulton RS, Delehaunty KD, McGrath SD, et al. Повторяющиеся мутации обнаружены путем секвенирования генома острого миелоидного лейкоза. Н. Энгл. J. Med. 2009; 361: 1058–1066. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 11. Стивенс П.Дж., МакБрайд DJ, Лин М.Л., Варела I, Pleasance ED, Симпсон Дж.Т., Стеббингс Л.А., Леруа С., Эдкинс С., Муди Л.Дж. и др. Сложные ландшафты соматической перестройки в геномах рака молочной железы человека. Природа. 2009; 462: 1005–1010. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 12. Хайдер С., Баллестер Б., Смедли Д., Чжан Дж., Райс П., Каспршик А. Центральный портал BioMart - единый доступ к биологическим данным. Nucleic Acids Res. 2009; 37: W23 – W27. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] 13. Штейн Л.Д., Мунгалл С., Шу С., Коди М., Мангоне М., День А., Никерсон Е., Стаджич Д.Е., Харрис Т.В., Арва А. и др. Универсальный браузер генома: строительный блок для базы данных системы модельных организмов. Genome Res. 2002; 12: 1599–1610. [ PMC бесплатная статья ] [ PubMed ] [ Google ученый ] Статьи из исследования нуклеиновых кислот предоставлены здесь благодаря изданию Oxford University Press