dimonta , ltd and research computing center of lomonosov moscow state university
DESCRIPTION
Программа прямого обобщенного докинга FLM: валидация и исследование спектра энергетических минимумов комплексов белок- лиганд. И.В. Оферкин , Е.В. Каткова, А.В. Сулимов , В.Б . Сулимов. f. Dimonta , Ltd and Research Computing Center of Lomonosov Moscow State University. 2. - PowerPoint PPT PresentationTRANSCRIPT
f
Dimonta, Ltd and Research Computing Center of Lomonosov Moscow State University
И.В. Оферкин, Е.В. Каткова, А.В. Сулимов, В.Б. Сулимов
Программа прямого обобщенного докинга FLM: валидация и исследование спектра энергетических минимумов комплексов
белок-лиганд
210.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
Действие лекарства
Болезнь
Блокировка работы
активного центра
Белок
Активный Центр Белка
Белок Человека Белок Вируса
Органическая
молекула -
ингибитор
2
Работа фермента3
𝜐=𝜐𝑚𝑎𝑥 [𝑆]𝐾𝑚+[𝑆]
Enzyme Substrate
Product
ES
(Белок Человека Белок Вируса)
концентрация субстратаскорость реакции
константа Михаэлиса
Работа фермента в присутствии ингибитора:competitive inhibition
4
𝜐=𝜐𝑚𝑎𝑥 [𝑆 ]
𝐾𝑚(𝟏+[ 𝑰 ]𝑲 𝒊
)+[𝑆 ]
Inhibitor𝐾 𝑖=
[𝐸 ] [ 𝐼 ][𝐸𝐼 ]
[E] - концентрация свободного фермента[I] - концентрация свободного ингибитора[EI] - концентрация заингибированного фермента
510.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
Для многих болезней известны белки-мишени, блокирование работы которых лечит болезнь
Ингибитор
Активный Центр Белка-Мишени
Белок
Блокирование работы белка осуществляется молекулами – ингибиторами
Основа нового лекарства – новые ингибиторы
15 Лет!
$500 M
50% временизатрачиваетсяна разработкуингибиторов:экспериментальнометодом проб и ошибок
Суперкомпьютеры ускоряют разработку ингибиторов
5
610.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
Стадии разработки нового лекарства
Разработка базового соединенияLead compound
Доклинические испытания базового соединения на животных
Клинические испытания на людях
Ключевой Самый дешевый этап
10-15 лет $ 500 000 000
Начальный этап
6
710.03.2010 В.А.Садовничий, В.Б.Сулимов, НИВЦ МГУ
Докинг, скоринг и скрининг – основа конструирования лекарств
• Докинг – позиционирование лиганда в активном центре белка
• Скоринг – оценка энергии связывания лиганда с белком• Скрининг – перебор больших баз данных молекул с
целью поиска кандидатов в ингибиторы – нужны суперкомпьютеры
Молекулярное МоделированиеПомогает быстрее и дешевле
выполнять начальную стадию разработки
7
Влияние ингибитора на скорость реакции8
𝜐=𝜐𝑚𝑎𝑥 [𝑆 ]
𝐾𝑚(𝟏+[ 𝑰 ]𝑲 𝒊
)+[𝑆 ]
𝜐
[𝑆]0
1¿ [ 𝐼 ]=02¿ [ 𝐼 ]=𝐾 𝑖
3¿ [𝐼 ]=3𝐾 𝑖
Задача: найти ингибитор с низкой Ki9
𝐾 𝑖=[𝐸 ][ 𝐼 ][𝐸𝐼 ]
𝑅𝑇 ∗𝐿𝑛 (𝐾 𝑖 )=∆𝐺=𝐺𝐸𝐼−𝐺𝐸−𝐺 𝐼
𝐺=𝐻−𝑇𝑆
газовая постоянная (8.31 Дж/К*моль)
температура(310 К)
константа ингибирования
свободная энергия связывания белка с ингибитором
энтальпия энтропия
ΔG = -10 ккал/моль лучше, чем ΔG = -5 ккал/моль
10
nn
kTWU
ndpdpdxdxZ e 3131
/)(
3......
)2(
1
𝐺=−𝑅𝑇 ∗𝐿𝑛(𝑍 )
Движение лиганда в белке-мишени
статистическая сумма (configuration integral)
Вычисление ΔG [1]11• Белок состоит из 103-104 атомов, лиганд из 101-102 атомов
• Точность вычисления ΔG должна быть лучше, чем 1 ккал/моль = 0.04 эВ
• Она не достигнута в существующих программах докинга
• Многие программы докинга используют подгоночные коэффициенты в
функции скоринга
• Хорошие результаты получаются только для определенных белков и лигандов,
но не для произвольно взятого белка и лиганда
• Правильное позиционирование лиганда еще не означает правильное
вычисление ΔG
Вычисление ΔG [2]12
• Обычно используется силовое поле, которое плохо описывает
межмолекулярные взаимодействия, в частности, водородные связи
• Взаимодействие с растворителем не описывается или описывается весьма
грубо, в то время как оно весьма существенно: ε=78.5
• Находится только одно положение связывания лиганда
• Сложно учесть подвижность не только атомов лиганда, но и атомов белка,
хотя бы водородов белка в активном центре
• Должен производиться поиск минимума(ов) и комплекса лиганд-белок, и
свободного белка, и свободного лиганда
В программах докинга слишком много разных допущений и приближений, возможно, компенсирующих друг друга
SOL: программа классического докинга13поиск потенциальной энергии глобального минимума
расчет свободной энергии <--
силовое поле MMFF94
торсионно подвижный лиганд
жесткий белок, представленный сеткой потенциалов
Силовое поле MMFF94
E(r1, ..., rN) = [valence interactions] + [nonvalence interactions]
r1
r2
r3
EBij + EAijk + EBAijk + ETijkl + EOOPijkl EQij + EvdWij
EBij = Aij*Δrij
2 + Bij*Δrij
3 + Cij*Δrij
4
Δrij
EQij = Aqiqj/(Δrij+0.05)
Δrij
EAijk = Aijk*αijk
2 + Bijk*αijk
3
αijk
14
Ограничения SOL
1. расчет потенциальной энергии вместо свободной
2. использование сетки потенциалов
3. очень упрощенная модель растворителя
4. упрощенная MMFF-типизация
5. учет энтропии через число торсионов, что неправильно
[Chang, C.A.; Chen, W.; Gilson, M.K. Ligand configurational
entropy and protein binding. PNAS, 2007, 104, 1534-1539]
15
CSAR benchmark 201216
17
nn
kTWU
ndpdpdxdxZ e 3131
/)(
3......
)2(
1
𝐺=−𝑅𝑇 ∗𝐿𝑛(𝑍 )
Аппроксимация U(x) независимыми гармоническими ямами
Z = Z1 + Z2
G = -kT*ln(Z)
18
jkT
kT
kT
E
i
eee i
j
iji
Z/
2/
1*
0
22 комплекса для тестирования FLM1C5YQ=+1NA=20NT=2
1SQOQ=+1NA=34NT=4
1VJAQ=+1NA=61NT=17
- 4 complexes of CHK1 (4FT0, 4FT9, 4FSW, 4FTA);- 2 complexes of ERK2 (4FV5, 4FV6);- 3 complexes of PIN1 (3IKD, 3IKG, 3JYJ);- 3 complexes of RNase A (3D6O, 3D6P, 3D8Z);- 2 complexes of thrombin (1DWC, 1TOM);- 6 complexes of urokinase (1C5Y, 1F5L, 1O3P, 1SQO, 1VJ9, 1VJA);- 2 complexes of factor Xa (2P94, 3CEN).
19
22 комплекса для тестирования FLM20экспериментально известно
положение связывания лиганда (нативное положение лиганда)
константа ингибирования Ki
∆𝐺=𝑅𝑇 ∗𝐿𝑛 (𝐾 𝑖 )
Геометрическая близость (RMSD) к нативному положению
Корреляция теоретических энергий связывания с логарифмом констант ингибирования
Программа FLM [1]Выбор системы: комплекс, свободный белок или свободный лиганд
Анализ торсионных и декартовых степеней свободы
Задание случайных начальных конфигураций в торсионах (~108)
c1 c2 c3 c5
Локальная оптимизация LBFGS в декартовых (~106)
m1 m2 m3
Проверка на совпадение
m1 m2
Пересчет пот. энергии с растворителем, расчет частот, Gi, Hi, TSi
c4
m4
(всего ~103)
21
Программа FLM [2]22
Программа FLM [3]23
• силовое поле MMFF94
• отсутствует учет растворителя
• задание начального положения лиганда - в торсионных
координатах
• локальная оптимизация начального положения лиганда - в
декартовых координатах - методом L-BFGS: квазиньютоновский
градиентный метод, критерий остановки - неубывание энергии
вдоль градиента на шаге > 10-5 Å
Быстродействие FLM
Эффективность на 8192 ядрах ~90%
Докинг 1 комплекса 25 000 CPU*hours
3*105 пробных оптимизаций3*106 пробных оптимизаций
Докинг 1 свободного лиганда 100 CPU*hours
1C5Y (NA = 20, NT = 2) 1VJ9 (NA = 74, NT = 19)3*105 пробных оптимизаций9*105 пробных оптимизаций
Всего затрачено на 22 комплекса ~500 000 CPU*hours
24
Одна пробная оптимизация лиганда в комплексе: 1-10 минутСравнимо с single point MOPAC-расчетом или mcbhSOLV-расчетом
Быстродействие MOPAC25
Быстродействие MOPAC in vacuo [PM7 MOZYME]
комплекс оптимизация по лиганду
свободный лиганд оптимизация
свободный белок single point
1C5Y 1VJ94 sec 2 min
14 min 12 min
7 hours 8 hours
ω102 = 4.7*1012 Hz, ω102 = 3.3*1012 Hz
Пример нижних мод 1sqo в двух минимумах
26
Пример результатов FLM для урокиназы 1vja27
22 комплекса - "8" хороших и "14" плохих
Protein PDBID
Protein-ligand complex Free ligand
∆E, kcal/mol NN ENN-E1,
kcal/mol
Eopt.nat.-E1,
kcal/mol
∆E, kcal/mol Nminima
CHK1
4FT0 70.5 38 24.8 29.5 1.08 324FT9 44.7 30 15.1 18.3 28.2 254FSW 264 7 14.8 15.4 0.00 14FTA 69.7 Ø Ø 91.2 17.4 56
ERK24FV5 39.8 419 33.0 36.6 14.8 > 10244FV6 15.8 Ø Ø 19.3 5.07 > 1024
PIN13IKD 16.5 9 2.08 2.25 20.3 > 10243IKG 15.9 29 6.72 19.4 18.8 > 10243JYJ 15.1 Ø Ø 15.2 13.3 > 1024
RNase A3D6O 25.2 Ø Ø 49.2 33.7 1973D6P 25.9 Ø Ø 30.9 34.3 1213D8Z 44.8 Ø Ø 55.6 33.4 122
thrombin1DWC 27.0 958 26.4 41.5 12.8 > 10241TOM 15.3 Ø Ø 62.3 9.76 > 1024
urokinase
1C5Y 670 1 0.00 0.00 0.00 41F5L 76.3 1 0.00 0.00 20.4 101O3P 20.8 45 5.09 5.20 20.6 1041SQO 99.2 1 0.00 0.08 2.96 321VJ9 14.2 1 0.00 6.60 4.87 > 10241VJA 11.3 7 1.18 4.66 6.30 > 1024
factor Xa2P94 20.3 3 0.92 9.55 15.1 > 10243CEN 20.2 1 0.00 14.0 17.4 > 1024
28
Пример результатов FLM для урокиназы 1vja~4*105 пробных оптимизаций, ~3*104 CPU-часов
E G H TS-275.046 -19.4813 60.22173 79.70305-275.052 -19.444 60.21667 79.66067-272.593 -18.5788 62.55772 81.13655-272.597 -18.5334 62.5546 81.08802-274.507 -18.4823 60.87013 79.35244-273.159 -18.4117 62.10252 80.51422-273.164 -18.3745 62.09804 80.47256-272.248 -17.679 62.82974 80.50879-273.446 -17.6338 62.02548 79.6593-272.245 -17.6104 62.83353 80.44392
29
Результаты FLM для урокиназы и фактора Xa (6+2)(сравнение с экспериментом)
30ра
счет
эксперимент
MMFF94, PM7, PM7 COSMO сравнение с экспериментом
31
MMFF94, PM7, PM7 COSMO энергии минимумов 4FT032
MMFF94 PM7 PM7 COSMO
Выводы [1]
1. Получен валидационный набор минимумов
2. Нативное положение может быть далеко от
глобального минимума (как по RMSD, так и по энергии)
3. Парадигма докинга неточна: глобальный минимум
энергии может лежать далеко от нативного положения
4. Основную роль играет потенциальная энергия
глобального минимума
33
Выводы [2]
1. Теоретические энергии связывания на порядок
превосходят экспериментальные
2. Диапазон изменений PM7 COSMO энергий связывания
существенно меньше, чем у MMFF94 и PM7 энергий
3. PM7 COSMO чаще получает близкое к нативному
положению в глобальном минимуме
4. Изменение способа расчета энергии существенно
переупорядочивает минимумы
34
Перспективы развития
• Уточнение расчета потенциальной энергии• Учет растворителя (PCM)• Ускорение PCM-расчетов (MCBHSOLV)
• Более адекватное силовое поле• Квантово-химические расчеты межмолекулярного
взаимодействия• Учет подвижности белка• Учет ангармонизма колебаний?• Ускорение вычислений (требуется по крайней мере в
1000 раз):– Более направленный, чем Монте-Карло, алгоритм поиска
низкоэнергетичных минимумов (TTDOCK?)– Неполная оптимизация– Иерархический расчет энергий (MMFF94 -> PCM -> PM7)
35
Спасибо за внимание