banner
Hogar / Noticias / Macrociclización de moléculas lineales mediante aprendizaje profundo para facilitar el descubrimiento de candidatos a fármacos macrocíclicos
Noticias

Macrociclización de moléculas lineales mediante aprendizaje profundo para facilitar el descubrimiento de candidatos a fármacos macrocíclicos

Jul 07, 2023Jul 07, 2023

Nature Communications volumen 14, número de artículo: 4552 (2023) Citar este artículo

2819 Accesos

8 altmétrico

Detalles de métricas

El interés en los macrociclos como posibles agentes terapéuticos ha aumentado rápidamente. La macrociclación de moléculas acíclicas bioactivas proporciona una vía potencial para producir nuevos andamios químicos, que pueden contribuir a la mejora de la actividad biológica y las propiedades fisicoquímicas de estas moléculas. En este estudio, proponemos un método de macrociclación computacional basado en la arquitectura Transformer (que llamamos Macformer). Aprovechando el aprendizaje profundo, Macformer explora el vasto espacio químico de análogos macrocíclicos de una molécula acíclica determinada agregando diversos enlaces compatibles con la molécula acíclica. Macformer puede aprender de manera eficiente las relaciones implícitas entre estructuras acíclicas y macrocíclicas representadas como cadenas SMILES y generar muchos macrociclos con diversidad química y novedad estructural. En escenarios de aumento de datos que utilizan conjuntos de datos de prueba ChEMBL internos y ZINC externos, Macformer muestra un excelente rendimiento y capacidad de generalización. Mostramos la utilidad de Macformer cuando se combina con simulaciones de acoplamiento molecular y validación experimental basada en laboratorio húmedo, aplicándolo al diseño prospectivo de inhibidores macrocíclicos de JAK2.

Los macrociclos, típicamente definidos como pequeñas moléculas cíclicas o péptidos con estructuras de anillo que constan de 12 o más átomos, han surgido como andamios químicos prometedores en el campo del descubrimiento de nuevos fármacos1,2. Las distintas propiedades fisicoquímicas, incluido el alto peso molecular y los abundantes donantes de enlaces de hidrógeno3, hacen que esta clase estructural ocupe un espacio químico más allá de la regla de cinco de Lipinski4. En comparación con sus análogos lineales, los macrociclos tienden a adoptar conformaciones restringidas preorganizadas y establecer contactos extendidos con objetivos. En consecuencia, tienen el potencial de exhibir afinidades de unión mejoradas, selectividades mejoradas o características farmacológicas superiores5,6. Los macrociclos se han utilizado con éxito como agentes terapéuticos potenciales para diversos objetivos farmacéuticos, como quinasas, proteasas y receptores acoplados a proteína G. En particular, debido a sus características distintivas, los macrociclos se consideran un quimiotipo privilegiado para atacar algunas proteínas desafiantes que son difíciles de tratar con los fármacos tradicionales de moléculas pequeñas7, cerrando así la brecha entre las moléculas pequeñas y los productos biológicos grandes. Por ejemplo, los macrociclos predominan en los inhibidores comercializados del virus de la hepatitis C NS3/4A, que posee un surco poco profundo y expuesto a disolventes que plantea desafíos para la unión de moléculas pequeñas8. También se han informado las ventajas de los macrociclos en la modulación de las interacciones proteína-proteína con superficies grandes, planas y dinámicas9.

Además de los macrociclos naturales, los análogos sintéticos derivados de principios de la química medicinal son otra fuente importante de compuestos macrocíclicos10,11. La modificación macrocíclica de compuestos activos acíclicos conocidos es una estrategia sencilla y eficaz para obtener nuevos andamios macrocíclicos sin pasar por las restricciones de propiedad intelectual y que pueden lograr las propiedades farmacológicas deseadas12. Por ejemplo, Lorlatinib, un inhibidor macrocíclico aprobado por la FDA que se dirige a la quinasa del linfoma anaplásico, se derivó del crizotinib acíclico. Lorlatinib mostró una selectividad de quinasa mejorada y una mayor exposición al sistema nervioso central13. Esto demuestra cómo la modificación macrocíclica de compuestos conocidos puede conducir al desarrollo de fármacos nuevos y mejorados. Aunque se han aprobado más de 80 fármacos macrocíclicos para uso clínico14, los macrociclos todavía se explotan escasamente en los proyectos de diseño de fármacos, en parte debido a su intratabilidad sintética y a la deficiencia de enfoques eficientes de macrociclación15.

Dada una molécula lineal biológicamente activa como punto de partida, el diseño racional exitoso de macrociclos reportado generalmente implica dos pasos clave. En primer lugar, se añaden enlaces macrocíclicos que son compatibles con el compuesto lineal, lo que da como resultado la formación de macrociclos. En segundo lugar, se evalúa la compatibilidad entre los macrociclos y el bolsillo de unión del objetivo. Para el segundo paso, los métodos de investigación disponibles son relativamente explícitos y muchos métodos de simulación comúnmente utilizados en el diseño de fármacos, como la optimización de la conformación y el acoplamiento molecular, pueden ayudar en este proceso. Si podemos generar abundantes macrociclos con diversidad química agregando enlaces estructuralmente diversos en el primer paso, sin duda aumentará la posibilidad de obtener nuevos candidatos macrocíclicos después de la posterior predicción de unión del compuesto objetivo. Sin embargo, la macrociclación de compuestos lineales en la etapa inicial está impulsada principalmente por el conocimiento empírico de los químicos medicinales. Si bien los resultados finales a menudo se presentan, los procedimientos detallados involucrados a menudo no se describen adecuadamente en la literatura científica. Este procedimiento opaco y no estandarizado es difícil de seguir para investigadores sin experiencia, y el conocimiento empírico es insuficiente para cubrir el vasto espacio químico de los conectores macrocíclicos.

Aunque rara vez se mencionan en las publicaciones, las herramientas computacionales han demostrado aplicaciones exitosas para facilitar el proceso de macrociclación16,17. Wagner y cols. 18 y Sindhikara et al. 19 utilizaron una búsqueda en la base de datos de enlazadores geométricamente restringida y una estrategia de conexión de enlazadores para generar macrociclos a partir de ligandos acíclicos. En los estudios, primero se construyó un conjunto conformador de fragmentos de enlazadores, a partir del cual los enlazadores generalmente se filtraban aplicando criterios geométricos, por ejemplo, compatibilidad de distancia y ángulo entre los átomos a conectar, para formar macrociclos iniciales utilizando el sistema tridimensional (3D). ) estructura del ligando acíclico. Utilizando acoplamiento molecular, MM/GBSA y/o cálculo de perturbación de energía libre en combinación para evaluar las interacciones con el objetivo, se identificaron candidatos prometedores a partir de los macrociclos generados. Sin embargo, estos métodos solo pueden enumerar bibliotecas de enlazadores prediseñadas, sin la capacidad de derivar nuevos enlazadores estructuralmente novedosos. Además, el enfoque en la coincidencia conformacional local de átomos conectados puede no proporcionar una comprensión integral de la estructura macrocíclica general. Además, estas herramientas no están disponibles públicamente, lo que dificulta su uso y colaboración generalizados. Dado que la preocupación por los estudios de candidatos a fármacos macrocíclicos ha crecido a un ritmo notable tanto en la industria como en las instituciones académicas, existe una necesidad urgente de desarrollar herramientas computacionales prácticas para ayudar en la ciclación de moléculas bioactivas lineales.

La inteligencia artificial, en particular la tecnología de aprendizaje profundo, ha mostrado grandes potenciales en diversas etapas del proceso de descubrimiento de fármacos, incluida la generación de moléculas de novo, el salto de andamios, la optimización estructural y la predicción de actividades20,21,22,23,24. Sin embargo, el entrenamiento de redes neuronales normalmente requiere grandes cantidades de datos para lograr una alta precisión y capacidad de generalización25. Por lo tanto, las aplicaciones actuales del aprendizaje profundo en el campo del desarrollo de fármacos se han centrado principalmente en moléculas pequeñas similares a los fármacos. Hasta donde sabemos, la implementación de la macrociclación de moléculas lineales mediante la utilización de algoritmos de aprendizaje profundo sigue siendo un área poco explorada. Las razones subyacentes son complicadas, mientras que el número relativamente pequeño de macrociclos disponibles para el entrenamiento del modelo, debido a su estado subexplotado a largo plazo, es probablemente el más relevante.

Las moléculas químicas se pueden representar como cadenas del Sistema de entrada de línea de entrada molecular simplificado (SMILES)26, un lenguaje químico naturalmente adecuado para modelos de aprendizaje profundo basados ​​en secuencias. Se han utilizado diferentes representaciones SMILES de una misma estructura química como método de aumento de datos para obtener modelos generalizadores para regímenes de datos pequeños27,28,29. Aquí, proponemos un modelo basado en Transformer llamado Macformer para macrociclación automatizada. Dado un compuesto lineal representado como una cadena SMILES con dos etiquetas de sitio de ciclación, Macformer pretende explorar el vasto espacio químico de sus análogos macrocíclicos aprovechando los beneficios de los modelos generativos profundos. A diferencia de los métodos de ciclación computacional mencionados anteriormente, Macformer aborda el problema del diseño del esqueleto macrocíclico como una tarea de traducción automática mediante el manejo de secuencias SMILES de un extremo a otro. Al emplear una estrategia de aumento de datos con cadenas SMILES aleatorias, Macformer aprende de manera eficiente las relaciones de mapeo implícitas entre la sintaxis SMILES de estructuras acíclicas y macrocíclicas. Puede completar automáticamente el enlazador faltante del fragmento acíclico de entrada para generar los correspondientes andamios macrocíclicos con diversidad química y novedad estructural. Aplicamos Macformer a la macrociclación de Fedratinib, un inhibidor de JAK2 aprobado por la FDA. Como los macrociclos se dedujeron sin las limitaciones de objetivos específicos en Macformer, los análogos macrocíclicos de Fedratinib generados por Macformer se sometieron a cálculos de acoplamiento molecular. Con base en las posiciones de acoplamiento en el sitio de unión de ATP de JAK2 y una estimación de la accesibilidad sintética, finalmente se seleccionaron tres macrociclos para la síntesis y prueba a través de experimentos tanto in vitro como in vivo. El compuesto representativo 3 tiene una selectividad de quinasa y propiedades farmacocinéticas mejoradas que Fedratinib. En particular, muestra una eficacia in vivo comparable a la de Fedratinib en una dosis más baja. Estos resultados demuestran el gran potencial de Macformer en el descubrimiento de candidatos a fármacos macrocíclicos.

A partir de una molécula bioactiva acíclica, tomar muestras de un amplio espacio químico de enlazadores macrocíclicos mejoraría eficientemente la probabilidad de acierto de los compuestos principales macrocíclicos. La representación esquemática del marco Macformer se ilustra en la Fig. 1. Es un modelo generativo profundo diseñado para generar análogos macrocíclicos diversos y novedosos de las moléculas acíclicas dadas. Debido a la ausencia de objetivos explícitos para muchos macrociclos bioactivos, la información del objetivo no está incluida en Macformer.

un protocolo de preprocesamiento de datos para generar pares SMILES acíclicos-macrocíclicos para el entrenamiento y evaluación del modelo, y el token "N_7" indica la cantidad de átomos pesados ​​en el camino más corto del enlazador. b Aumento de pares acíclicos-macrocíclicos utilizando SMILES aleatorios de manera alineada con la subestructura. c La arquitectura de red modelo de Macformer. La capa de atención de puntos escalados toma tres matrices como entrada: la matriz Q empaquetada con un conjunto de consultas, la matriz K con claves y la matriz V con valores.

Recopilamos 18357 macrociclos bioactivos de la base de datos ChEMBL30, y las condiciones del filtro son que el número de macroanillos con 12 o más átomos sea inferior a 1 y la longitud de las cadenas SMILES sea inferior a 200. Para imitar el proceso de macrociclación real, atravesando cada combinación de dos enlaces simples en el macroanillo y la posterior filtración del enlazador, se obtuvieron 237728 pares SMILES acíclicos-macrocíclicos únicos para el entrenamiento y la evaluación del modelo (ver más detalles en la sección Preparación de datos de la parte de Métodos). El procedimiento de procesamiento de datos puede considerarse como el proceso inverso de la macrociclación (Fig. 1a), que aumentó drásticamente la cantidad de datos disponibles para el aprendizaje profundo. Las cadenas SMILES acíclicas, que contienen átomos ficticios (*) para etiquetar el sitio de ciclación, representan los compuestos lineales que se macrociclarán y se alimentarán a la red neuronal como secuencias fuente. Las cadenas SMILES macrocíclicas son las secuencias objetivo que se espera que genere el modelo. En consecuencia, el problema de macrociclación se adapta como una tarea de finalización de oraciones basada en lenguaje químico, donde se agregan los enlaces faltantes de los compuestos acíclicos de entrada y se generan los compuestos macrocíclicos intactos. Nuestro método propuesto aquí se basa en la arquitectura Transformer31, que es el modelo de red neuronal de última generación para manejar datos secuenciales. A diferencia de las redes neuronales recurrentes anteriormente populares que procesan datos secuencialmente token por token, Transformer adopta mecanismos de atención e incrustaciones posicionales para el procesamiento holístico de datos secuenciales de entrada (Fig. 1c). El mecanismo de atención permite que el modelo capture información contextual de tokens en cualquier posición, lo que permite la identificación de dependencias de largo alcance entre tokens en una secuencia. Esto significa que todos los tokens en las cadenas SMILES acíclicas de origen, aunque con pesos de atención variables, contribuyen a la generación de cadenas SMILES macrocíclicas en Macformer. Al beneficiarse del método de modelado de información global sobre las secuencias SMILES acíclicas de entrada, se prevé que Macformer infiera enlazadores macrocíclicos más adecuados compatibles con las moléculas acíclicas dadas y genere nuevos macrociclos más cercanos al espacio químico de los macrociclos bioactivos utilizados como conjunto de datos de entrenamiento. Los detalles de nuestro modelo se describen completamente en la sección de Métodos de Macformer.

La notación canónica SMILES, una representación de cadena única para cada molécula, se usa ampliamente debido a su simplicidad. Sin embargo, estudios recientes han demostrado que el aumento de datos mediante el uso de un lote de SMILES aleatorios químicamente idénticos pero sintácticamente diferentes durante el entrenamiento y la inferencia puede modificar en gran medida el rendimiento de los métodos de aprendizaje profundo28,32. Para mejorar la calidad de nuestro modelo, se realizó un aumento de datos para las secuencias de origen y de destino del conjunto de datos de entrenamiento. En particular, los andamios acíclicos de entrada son subestructuras de los macrociclos de salida. Si alimentamos este conocimiento previo al modelo en forma de cadenas SMILES alineadas, ayudará al modelo a comprender la relación entre las secuencias de entrada y salida. Durante este proceso, primero se generaron SONRISAS aleatorias de los andamios acíclicos seleccionando aleatoriamente el átomo inicial y la dirección de la enumeración del gráfico molecular. Posteriormente, se realizaron búsquedas de subestructuras y se reordenaron los números de átomos de los macrociclos de acuerdo con el de la subestructura acíclica. Las SONRISAS aleatorias de los macrociclos finalmente se adquirieron en función de los nuevos números de átomos (Fig. 1b). Esta estrategia alineada con la subestructura minimiza la brecha entre las secuencias de entrada y salida, favoreciendo que el modelo preste más atención a la inferencia del enlazador macrocíclico.

Se entrenaron cuatro modelos con diferentes niveles de aumento (ninguno, ×2, ×5 y ×10). El escenario no aumentado contiene sólo cadenas SMILES canónicas. Además de una copia de SMILES canónicos, los escenarios aumentados n veces contienen n-1 SMILES químicamente equivalentes pero aleatorizados. Todos los modelos convergen muy bien después de ejecutar 50.000 pasos (Figura complementaria 1). Durante el proceso de evaluación del modelo utilizando conjuntos de datos de prueba, cada experimento se realizó diez veces utilizando varias cadenas SMILES. Este enfoque nos permite evaluar la capacidad predictiva de los modelos entrenados en diversas representaciones de SMILES. Se aplicó el algoritmo de búsqueda de haz33 para inferir múltiples secuencias candidatas en los conjuntos de datos de prueba, y se generaron las 10 predicciones principales para cada secuencia de entrada.

Para comparar nuestro modelo con enfoques computacionales sin aprendizaje profundo para la macrociclación automática informados anteriormente, proponemos una tubería para construir macrociclos a partir de estructuras 3D de compuestos lineales a través de la búsqueda en la base de datos de enlazadores (denominada MacLS, figura complementaria 2), siguiendo los trabajos de las referencias. . 18,19. En MacLS, los enlazadores se seleccionaron en función de la compatibilidad de los vectores de unión entre el compuesto acíclico y el enlazador. Para una molécula acíclica o un conector, un vector de unión es el enlace entre el átomo en el sitio de ciclación y el átomo saliente que no se incluirá en los macrociclos generados. Asimismo, la información de destino no se considera en MacLS para una comparación justa con Macformer. Se utilizaron los enlazadores del conjunto de datos de entrenamiento ChEMBL y se produjo un conjunto de conformadores que contiene 163.924 estructuras. Para los conjuntos de datos de prueba internos de ChEMBL y externos de ZINC, las conformaciones de las estructuras químicas lineales se obtuvieron de dos maneras. El primer enfoque implica generar conformaciones desde cero basadas en las cadenas SMILES de las estructuras acíclicas (denominadas MacLS_self). El segundo enfoque implica extraer las conformaciones de las estructuras 3D de baja energía de los macrociclos objetivo correspondientes (denominados MacLS_extra). La base de datos del enlazador se enumeró y filtró primero a través de las restricciones de distancia y ángulo diédrico de los átomos en los vectores de unión. Al conectar los enlazadores restantes al esqueleto acíclico, se adquirieron los compuestos macrocíclicos, clasificados según los valores de desviación cuadrática media (RMSD) entre los átomos de los vectores de unión en los fragmentos acíclicos y los de los enlazadores. Se reservaron los 10 macrociclos principales para cada estructura acíclica en los conjuntos de datos de prueba internos de ChEMBL y externos de ZINC para una comparación justa.

Dada una molécula acíclica, los propósitos de Macformer y MacLS son generar análogos macrocíclicos diversos y novedosos antes de una evaluación adicional del potencial de unión contra el objetivo de interés. Para la tarea específica, los criterios de evaluación no estaban claramente indicados en estudios anteriores. En este trabajo, aplicamos las métricas ampliamente utilizadas de modelos generativos profundos para evaluar el desempeño de nuestro método. Estas métricas incluyen la reconstrucción de la molécula objetivo y la evaluación de la validez química, la novedad y la singularidad de los compuestos generados. La novedad de los enlazadores inferidos y la relación de macrociclación de los compuestos generados también se calcularon como métricas adicionales (ver más detalles en la sección Métricas de evaluación del modelo de la parte de Métodos).

El rendimiento de Macformer y el enfoque de aprendizaje no profundo MacLS en el conjunto de datos de prueba ChEMBL se resumen en la Tabla 1. En comparación con el modelo de referencia sin aumento, amplificar el conjunto de datos de entrenamiento al doble generó un mejor rendimiento en términos de todas las métricas, especialmente para recuperación (96,09% frente a 54,85%), validez (80,34% frente a 66,74%) y novedad del enlazador (Noveltylinker, 58,91% frente a 40,56%). Esto indica que el modelo entrenado con SMILES aleatorios alineados con subestructuras es ventajoso no solo para reconstruir esqueletos macrocíclicos sino también para aprender la sintaxis fundamental del lenguaje químico. En consecuencia, el modelo es capaz de generar cadenas SMILES químicamente significativas con diversidad y novedad estructural. Sin embargo, los modelos entrenados con aumentos de datos de cinco o diez veces no dieron como resultado una mejora significativa adicional del rendimiento en el conjunto de datos de prueba ChEMBL. Este fenómeno concuerda con la conclusión de un estudio previo de que un grado óptimo de aumento de datos es importante para una tarea de aprendizaje determinada27. Vale la pena señalar que todos los modelos podrían alcanzar una tasa de macrociclación superior al 95%, lo que ilustra la capacidad de Macformer para generar compuestos macrocíclicos. Los valores generales de unicidad son inferiores al 66 %, lo que puede atribuirse a la redundancia de los compuestos objetivo en el conjunto de datos de prueba ChEMBL. Entre los 23771 pares de SMILES acíclicos-macrocíclicos en el conjunto de datos de prueba, hay 10,222 macrociclos únicos, lo que da como resultado una tasa de unicidad externa del 43%. A pesar de esto, los compuestos macrocíclicos generados por Macformer exhiben una singularidad significativamente mayor en comparación con el conjunto de datos de prueba original. Los resultados confirman la capacidad de Macformer para crear estructuras macrocíclicas diversas y nunca antes vistas que van más allá del conjunto de datos de macrociclos ChEMBL disponible.

Para evaluar el método MacLS, primero se construyeron las conformaciones de los compuestos acíclicos directamente a partir de sus notaciones SMILES. En este escenario, MacLS_self solo genera un 17,05% de macrociclos válidos. La muy baja validez se atribuye principalmente a las conformaciones lineales extendidas de los compuestos acíclicos originales que no son adecuados para la macrociclación. Cuando se utilizan las conformaciones más plegadas extraídas de las estructuras 3D preformadas de los macrociclos objetivo, la validez de los macrociclos generados por MacLS_extra mejora enormemente, lo que implica una alta dependencia del método de macrociclación sin aprendizaje profundo de las conformaciones dadas del andamio acíclico. En comparación con Macformer, MacLS funciona mejor en términos de singularidad y novedad molecular (Noveltymol). Sin embargo, MacLS no puede derivar nuevos enlazadores de novedad estructural, lo que lleva a valores de Noveltylinker del 0%. Además, MacLS reconstruye los macrociclos objetivo en proporciones muy bajas, sólo 0% y 4,16% para MacLS_self y MacLS_extra, respectivamente. Los resultados no son sorprendentes, ya que MacLS simplemente tiene en cuenta las restricciones geométricas asociadas con los vectores de unión, que son información local de poca ayuda para reconstruir los macrociclos objetivo.

Estos métodos se evaluaron más a fondo en un conjunto de datos de prueba externo adicional que contenía 5551 pares SMILES acíclicos-macrocíclicos, que se extrajeron de 486 macrociclos bioactivos en la base de datos ZINC. En comparación con los de la base de datos ChEMBL, estos macrociclos tienen pesos moleculares más bajos y longitudes de SONRISAS más cortas (Figura complementaria 3). Como se muestra en la Tabla 2, los modelos aumentados también pueden proporcionar un rendimiento sistemáticamente mejorado en el conjunto de datos ZINC externo. Ambos modelos entrenados con aumentos de 5 y 10 veces podrían recuperar más del 80 % de los compuestos macrocíclicos originales, generar más del 84 % de cadenas SMILES válidas y lograr más del 99 % de novedad y macrociclación. Estos resultados indican que Macformer tiene una excelente capacidad de generalización en escenarios de aumento de datos.

El rendimiento de MacLS en el conjunto de datos de prueba ZINC externo es similar al del conjunto de datos de prueba ChEMBL. Básicamente, MacLS no pudo aprender suficientes conocimientos previos a través del proceso de capacitación como Macformer, por lo que los resultados de la evaluación de MacLS en los dos conjuntos de datos de prueba son similares y, en teoría, pueden extrapolarse a otros conjuntos de datos.

Independientemente de la derivación de enlazadores estructuralmente nuevos, tanto Macformer como MacLS demuestran la capacidad de generar compuestos macrocíclicos con novedad estructural. Esto plantea la cuestión de si existen distinciones entre los espacios químicos de estos nuevos compuestos. Para explorar esta pregunta, primero evaluamos la similitud estructural entre los macrociclos objetivo novedosos y reales generados utilizando huellas dactilares de Morgan (radio de 2 enlaces) implementadas en RDKit v2020.03.3.034. Para un compuesto objetivo determinado, se calcularon y promediaron sus valores del coeficiente de Tanimoto (Tc) con todos los nuevos compuestos generados correspondientes para obtener la puntuación final. Como se ilustra en la Fig. 2a, la mayoría de los nuevos compuestos generados tienen puntuaciones promedio de Tc superiores a 0,7, debido a las subestructuras comunes entre los compuestos acíclicos y macrocíclicos. Sin embargo, Macformer tiende a generar nuevos productos químicos con mayor similitud estructural con los compuestos macrocíclicos objetivo que MacLS_extra.

a Distribución del coeficiente de Tanimoto promedio entre los macrociclos objetivo novedosos y reales generados. ChEMBL, Macformer, ×5, n = 23772; ChEMBL, MacLS_extra, n = 23765; ZINC, Macformer, ×5, n = 5514; ZINC, MacLS_extra, n = 5551. b Gráfico UMAP de las huellas digitales Morgan de 1024 bits de los enlazadores en el conjunto de datos de entrenamiento ChEMBL (n = 9243 enlazadores) y los nuevos enlazadores generados por Macformer en la prueba ChEMBL (n = 9039 enlazadores) y ZINC (n = 2082 enlazadores) conjuntos de datos, respectivamente. c Macrociclación retrospectiva de un inhibidor del punto de control quinasa 1 (CHK1)64 por Macformer. Se marcaron los valores de Tc entre los compuestos novedosos y diana generados. Los datos de origen se proporcionan como un archivo de datos de origen.

El resultado anterior es algo inesperado, ya que Macformer puede inferir enlaces novedosos que no están presentes en el conjunto de datos de entrenamiento, mientras que MacLS_extra no posee esta capacidad. Posteriormente, sondeamos el espacio químico de los nuevos enlazadores calculando sus huellas dactilares Morgan de 1024 bits. Además, utilizamos el algoritmo de proyección y aproximación de colectores uniformes (UMAP)35 para la reducción de dimensionalidad. UMAP puede preservar mejor las relaciones de similitud entre puntos de datos en el espacio original de alta dimensión que la incrustación de vecinos estocásticos distribuidos en t36. Como se muestra en la Fig. 2b, los enlazadores estructuralmente novedosos generados por Macformer en la prueba ChEMBL y los conjuntos de datos ZINC están ubicados en el espacio químico que rodea a los enlazadores del conjunto de datos de entrenamiento ChEMBL. Mientras tanto, además de ejecutar la macrociclación, Macformer puede introducir simultáneamente modificaciones menores en la subestructura lineal inicial para generar nuevas estructuras con alta similitud con los macrociclos objetivo (Fig. 2c).

Además, utilizamos Pipeline Pilot v201737 para calcular siete propiedades moleculares: peso molecular (MW), AlogP, área de superficie polar (PSA), número de aceptores de enlaces de hidrógeno (NHA), número de donantes de enlaces de hidrógeno (NHD), estimaciones cuantitativas. de semejanza con las drogas (QED) y accesibilidad sintética (SA). Tanto para la prueba ChEMBL como para los conjuntos de datos ZINC, los nuevos macrociclos generados por MacLS_extra tienden a tener diferencias estadísticas más significativas con los objetivos que los generados por Macformer (Figuras complementarias 4 y 5). Los resultados indican que el espacio químico de los nuevos macrociclos generados por Macformer está más cerca del de los bioactivos reales. Esto puede beneficiarse de la estrategia de aumento de datos mediante el uso de SMILES aleatorios alineados con subestructuras, que expone la información estructural de una misma molécula desde varios puntos de vista y hace que Macformer sea poderoso para comprender las limitaciones del espacio químico macrocíclico.

Para revelar cómo funciona Macformer en esta tarea específica de macrociclación automática, se analizaron los pesos de atención entre las secuencias de entrada y salida desde la subcadena y la escala de token, respectivamente (Figura complementaria 6). Las subcadenas o tokens en las secuencias de entrada tienden a tener el mayor impacto en la generación de las mismas subcadenas o tokens en la secuencia predicha, que garantizan la reproducción del fragmento acíclico inicial en los macrociclos generados. Al inferir la subcadena enlazadora macrocíclica, nuestro modelo mostró una manera sistemática, ya que las discrepancias en términos de pesos de atención entre diferentes subcadenas de la secuencia fuente no son significativas. Esto indica que Macformer es capaz de combinar las características latentes de la secuencia SMILES acíclica de entrada e incorporar el conector apropiado al fragmento lineal original. Esta capacidad surge del conocimiento previo que ha adquirido sobre la relación entre los fragmentos acíclicos y sus correspondientes enlazadores macrocíclicos en el conjunto de datos de entrenamiento.

En los últimos años, los macrociclos han ganado mucha atención por su potencial como inhibidores de quinasas. Con fines de evaluación prospectiva, se empleó Macformer para diseñar inhibidores macrocíclicos de Janus quinasa 2 (JAK2). JAK2 pertenece a las quinasas intracelulares de la familia de proteínas tirosina JAK no receptoras y es un objetivo importante para el tratamiento de neoplasias mieloproliferativas y artritis reumatoide38,39. En combinación de simulación de acoplamiento molecular y análisis basado en química medicinal, William et al. diseñó el inhibidor macrocíclico de JAK2 Pacritinib40. Este inhibidor se derivó de la estructura de fenilaminopirimidina, muy patentada, y ha sido aprobado para tratar la mielofibrosis41.

En nuestro estudio, la estructura acíclica inicial se derivó de Fedratinib, un inhibidor de JAK2 de molécula pequeña aprobado para el tratamiento de la mielofibrosis42. Se informa que fedratinib es altamente selectivo para JAK2 sobre otras quinasas JAK, pero su perfil selectivo contra el quinasa más amplio es decepcionante43,44. Los efectos fuera de objetivo sobre otras quinasas pueden causar reacciones adversas indeseables. Esperamos que la macrociclación obtenga esqueletos patentados con selectividad de quinasa mejorada y otras propiedades. Los puntos de conexión de la macrociclación se establecieron en los dos anillos de fenilo terminales. Mientras tanto, se eliminó el resto terc-butilsulfonamida, que puede causar contactos desfavorables con Asp99445, para mejorar la viabilidad sintética de los macrociclos generados. Se agregaron tokens que representan el número de átomos pesados ​​en el camino más corto de los enlazadores, que van de tres a nueve, antepuestos a la secuencia SMILES para maximizar la variedad de los enlazadores macrocíclicos. Para aumentar la diversidad de los macrociclos predichos, cada secuencia fuente de SMILES se multiplicó por diez. Infiriendo por Macformer con un tamaño de haz de 10, finalmente se obtuvieron 700 secuencias SMILES de salida, que incluían 281 moléculas macrocíclicas novedosas únicas (Fig. 3).

Los puntos de conexión de macrociclación, marcados con asteriscos (*) para una identificación clara, están ubicados deliberadamente en los dos anillos de fenilo terminales de Fedratinib. Para mejorar la diversidad de los macrociclos predichos, al comienzo de la secuencia SMILES se insertan fichas que indican el número de átomos pesados ​​en el camino más corto de los enlazadores (N_x), que van de tres a nueve. Posteriormente, cada secuencia fuente de SMILES se multiplica por diez. En las supuestas poses de acoplamiento de los inhibidores macrocíclicos de JAK2, los enlaces de hidrógeno críticos se resaltan como guiones negros.

También se evaluó el método MacLS tradicional por su potencial en la macrociclación de Fedratinib, y se reservaron los 300 principales análogos macrocíclicos en función de la conformación bioactiva cristalográfica de Fedratinib en complejo con el dominio quinasa JAK2 (código PDB 6VNE)45. Utilizando el protocolo GlideSP de Maestro v10.146, los macrociclos generados por ambos métodos se acoplaron, respectivamente, al sitio de unión de ATP de JAK2. Las puntuaciones de acoplamiento, cuanto más bajas (más negativas), mejor, se utilizaron como métricas de evaluación. Una comparación de las puntuaciones de acoplamiento (Figura 7 complementaria) muestra que los macrociclos generados por Macformer tienen valores más bajos que los de MacLS, lo que significa que es más probable que Macformer genere inhibidores macrocíclicos activos de JAK2. Podemos explicar este fenómeno desde dos aspectos. Por un lado, el método MacLS sin aprendizaje profundo simplemente considera la coincidencia de parámetros geométricos relacionados con la formación de nuevos enlaces químicos macrocíclicos, para mantener la orientación bioactiva del compuesto lineal. Sin embargo, durante la optimización estructural general o la unión inducida por el objetivo de los compuestos macrocíclicos, las conformaciones de muchas subestructuras acíclicas pueden cambiar ligeramente para desviarse de la activa. Por otro lado, Macformer pudo captar la información estructural completa de los compuestos acíclicos y macrocíclicos a través del modelado global en secuencias SMILES con arquitectura Transformer e inferir enlaces que coincidan con las moléculas acíclicas dadas. La compatibilidad general de los compuestos acíclicos de partida con los conectores puede ayudar a preservar las conformaciones activas de las subestructuras acíclicas y facilitar la unión de los macrociclos con el objetivo.

En el estudio de caso prospectivo, nuestros esfuerzos se centran principalmente en la introducción de conectores macrocíclicos, por lo que se ignoraron los compuestos generados con grupos sustituyentes adicionales en el fragmento inicial y aquellos que se someten a saltos de andamio. Los 218 compuestos macrocíclicos finalmente elegibles generados por Macformer se reservaron para un estudio más profundo. Después de una inspección visual de las posturas de acoplamiento y una estimación de la accesibilidad sintética basada en experiencias, finalmente se seleccionaron tres compuestos para su síntesis y evaluación de su potencia contra JAK2. Como se muestra en la Fig. 3, el resto acíclico inicial muestra una postura de unión similar a la de Fedratinib, y la macrociclación conserva las interacciones críticas de enlaces de hidrógeno entre los compuestos 1 a 3 y el residuo Leu932 en la región bisagra. A pesar de la novedad estructural de los tres compuestos seleccionados, sus enlazadores introducidos se ven en muchos macrociclos del conjunto de datos de entrenamiento ChEMBL. Específicamente, los conectores de los compuestos 2 y 3 están presentes en los fármacos aprobados Lorlatinib y Pacritinib, respectivamente. Sin embargo, hasta donde sabemos, el conector del compuesto 1 no se ha informado para el diseño de inhibidores macrocíclicos y selectivos de JAK2. En lugar de perseguir extremadamente los nuevos enlazadores, nuestra principal preocupación es sintetizar estos compuestos macrocíclicos, que también es la premisa de una evaluación adicional de la actividad. La presencia de estos enlazadores en macrociclos auténticos generalmente implica una mejor viabilidad sintética, y los tres macrociclos que cubren tres esqueletos químicos distintos se sintetizaron finalmente a través de tres rutas diferentes (Métodos complementarios, figuras complementarias 9-17).

Tras un examen retrospectivo de los 300 macrociclos generados por MacLS, no se encontró ninguno de los tres compuestos, lo que demuestra la practicidad de nuestro método de aprendizaje profundo para identificar potentes inhibidores macrocíclicos de JAK2 que pueden haber sido pasados ​​por alto con los métodos tradicionales. Curiosamente, sólo hay dos macrociclos en común entre los compuestos generados por Macformer y MacLS. Aunque no se practica en este estudio, creemos que las posibilidades de obtener compuestos de plomo macrocíclicos potentes aumentarán considerablemente si los compuestos obtenidos mediante los dos métodos se combinan para una mayor investigación.

Posteriormente se realizaron ensayos enzimáticos de los compuestos 1 a 3 contra JAK2 y se midieron los valores de CI50 de los compuestos 1 a 3 en 0,07, 0,364 y ​​0,006 μM, respectivamente (Tabla 3). El compuesto 3 más potente exhibe una actividad de rango nanomolar de un solo dígito similar en comparación con Fedratinib. Para evaluar la especificidad de los dos macrociclos más potentes, 1 y 3, se probaron sus perfiles de selectividad de quinasa frente a un panel diverso de 468 quinasas a una concentración de 100 nM en la plataforma DiscoveRx KINOMEscan, y se utilizó Fedratinib como control (Fig. 4). ). Sólo 10 y 17 quinasas de tipo salvaje se ven afectadas por los compuestos 1 y 3, respectivamente, mientras que el número de quinasas de tipo salvaje inhibidas por Fedratinib es 34 (control porcentual <35%). Fedratinib muestra unión a una amplia gama de quinasas, mientras que los compuestos 1 y 3 se dirigen principalmente al grupo TK y tienen un efecto insignificante en el grupo CMGC, CAMK y AGC. Los resultados sugieren que los compuestos macrocíclicos 1 y 3 tienen perfiles de selectividad de cinoma superiores a los de Fedratinib.

La afinidad se define como el porcentaje del control DMSO (control porcentual), donde el valor más bajo sugiere una inhibición más fuerte. Los datos de origen se proporcionan como un archivo de datos de origen.

También se investigaron los efectos antiproliferativos de los compuestos 1 a 3 sobre la eritroleucemia humana (HEL) y las células megacarioblásticas SET-2, ambas dependientes de JAK2V617F. Los resultados revelaron que los compuestos 1 y 3 podrían suprimir la proliferación de ambas líneas celulares, y el compuesto 1 mostraba una potencia micromolar de un solo dígito comparable en comparación con Fedratinib. Al igual que otros inhibidores de JAK2 tipo I47,48, los compuestos 1 y 3 aumentaron la fosforilación de JAK2 en el sitio Y1007/8 en las células HEL, pero bloquearon eficientemente la fosforilación en el sitio Y221 de una manera dependiente de la dosis (Fig. 5), lo cual es esencial. para la activación completa de JAK249. Además, ambos compuestos inhibieron significativamente la activación de su molécula de señalización STAT3 y STAT5.

Se utilizó fedratinib a 1 μM como control positivo. Se realizaron tres réplicas independientes obteniendo resultados similares. Los datos de origen se proporcionan como un archivo de datos de origen.

Se investigaron las propiedades farmacocinéticas (PK) preliminares in vivo de los compuestos 1 y 3 y Fedratinib en ratones después de la administración intravenosa (iv, 5 mg/kg) y oral (vo, 5 mg/kg). Los perfiles farmacocinéticos se muestran en la figura complementaria 8 y el análisis de los parámetros farmacocinéticos se resume en la tabla 4. El compuesto 3 mostró propiedades farmacocinéticas superiores en general a las de Fedratinib, excepto por una biodisponibilidad ligeramente menor (F, 9,4 % frente a 11,7 %). Después de la dosificación oral, el compuesto 3 mostró una vida media más larga (T1/2, 10,07 frente a 4,70 h) y una mayor exposición sistémica (AUCinf, 114,69 frente a 50,19 h*ng/ml). En comparación con Fedratinib, el compuesto macrocíclico 1 también mostró ventajas en términos de propiedades farmacocinéticas orales, por ejemplo, mayor exposición sistémica (106,00 frente a 50,19 h*ng/ml) y biodisponibilidad (14,1% frente a 11,7%). Los perfiles farmacocinéticos holísticamente favorables de los dos macrociclos sugieren que la macrociclación es una estrategia eficaz para mejorar la estabilidad metabólica in vivo de Fedratinib.

Se ha informado sobreexpresión de JAK2 en pacientes con enfermedad inflamatoria intestinal (EII), lo que significa que la inhibición de JAK2 puede contribuir al tratamiento de la EII50,51. Para evaluar el potencial terapéutico de los inhibidores macrocíclicos de JAK2 para la EII, establecimos el modelo de colitis inducida por sulfato de dextrano sódico (DSS)52. El modelo de colitis DSS recapitula muchas características clínicas y patológicas de la EII humana, como heces con sangre, pérdida de peso, diarrea e infiltración de células inflamatorias, y se utiliza ampliamente en la investigación de la EII como modelo preclínico para estudios iniciales. Se utilizó salicilazosulfapiridina53 como control positivo. Después de considerar exhaustivamente la actividad enzimática y celular, la selectividad del cinoma y las propiedades PK, se seleccionó el compuesto macrocíclico 3 para la prueba de eficacia in vivo. Según resultados farmacocinéticos anteriores, Fedratinib se administró al doble (10 mg/kg) de la dosis del compuesto 3 (5 mg/kg). Como se muestra en la Fig. 6a, la administración del compuesto 3 y Fedratinib podría aliviar la disminución del peso corporal causada por DSS al 3,5% (p/v). Las puntuaciones del índice de actividad de la enfermedad (DAI) del compuesto 3 y del grupo de tratamiento con Fedratinib disminuyeron significativamente desde el día 8 (Fig. 6b). Además, se descubrió que el tratamiento con el compuesto 3 y Fedratinib disminuía la relación entre el peso y la longitud del colon, una medida sustituta de la inflamación del colon, en comparación con el grupo modelo (Fig. 6c). Luego se analizó la gravedad de la inflamación del colon mediante tinción con H&E. Obviamente, hubo una respuesta inflamatoria significativa en el grupo modelo, que se caracterizó por una infiltración significativa de células inflamatorias, pérdida de células caliciformes, pérdida casi completa de las criptas, hiperplasia epitelial reactiva, edema submucoso y vellosidades colónicas irregulares. Por el contrario, los ratones tratados con el compuesto 3 y Fedratinib mostraron menos infiltración de células inflamatorias en el tejido del colon, arquitectura colónica intacta con ulceración menos aparente y puntuaciones histológicas más bajas (Fig. 6d-f). En conjunto, estos resultados indican que el compuesto 3 y Fedratinib pueden mejorar los síntomas de la colitis murina inducida por DSS, y que el compuesto 3 mostró una eficacia terapéutica comparable a la de Fedratinib en una dosis más baja.

a El peso diario cambia en cada grupo (n = 8 ratones por grupo). b Las curvas de cambio de puntuación DAI durante el experimento (n = 8 ratones por grupo). c La relación entre el peso y la longitud del colon en cada grupo. Control, n = 8 tejidos de colon; modelo, n = 8 tejidos de colon; SASP, n = 8 tejidos de colon; compuesto 3, n = 7 tejidos de colon; Fedratinib, n = 7 tejidos de colon. d Las puntuaciones histológicas basadas en los criterios de Ameho62 en cada grupo. Control, n = 8 tejidos de colon; modelo, n = 7 tejidos de colon; SASP, n = 8 tejidos de colon; compuesto 3, n = 7 tejidos de colon; Fedratinib, n = 5 tejidos de colon. e Secciones de tejido representativas teñidas con H&E que ilustran las características del colon de cada grupo. Barra de escala, 500 μm. f Secciones de tejido representativas teñidas con H&E que ilustran las características del colon de cada grupo. Barra de escala, 100 μm. Los valores se muestran como medias ± SEM y el análisis estadístico se realizó con ANOVA unidireccional seguido de una prueba post-hoc de LSD. Los datos de origen se proporcionan como un archivo de datos de origen.

Como inhibidor de JAK2, el compuesto macrocíclico 3 ha demostrado eficacia terapéutica preliminar para la EII en nuestro estudio inicial utilizando el modelo de colitis aguda DSS. Sin embargo, aún quedan muchas cuestiones por abordar mediante una investigación exhaustiva. Desde el punto de vista mecanicista, JAK2 participa profundamente en la señalización de citoquinas y hormonas hematopoyéticas, y el posible efecto secundario de la mielosupresión hace que JAK2 sea controvertido como objetivo terapéutico para la EII54. Por lo tanto, los indicadores asociados con la mielosupresión deben monitorearse cuidadosamente para pruebas in vivo, con el fin de aclarar la eficacia y seguridad de los inhibidores selectivos de JAK2 para la EII. Mientras tanto, se recomiendan modelos animales de EII crónica para imitar mejor las condiciones patológicas crónicas en humanos.

Para abordar el problema de la macrociclación automática aprovechando los beneficios del aprendizaje profundo, desarrollamos el modelo Macformer sobre la base de la arquitectura Transformer. A partir de una estructura acíclica representada como cadenas SMILES y etiquetada con dos puntos de unión, Macformer se dedica a generar automáticamente los análogos ciclados correspondientes. Con habilidades de aumento de datos utilizando notaciones SMILES aleatorias alineadas con subestructuras, Macformer es capaz de capturar las conexiones ocultas entre las secuencias SMILES lineales de origen y macrocíclicas objetivo del conjunto de datos de entrenamiento ChEMBL y producir macrociclos de manera eficiente con diversidad química y novedad tanto en ChEMBL interno como en ZINC externo. conjunto de datos de prueba. El excelente rendimiento y la capacidad de generalización de Macformer implican su potencial para el diseño de compuestos macrocíclicos, ampliando así la aplicación de la tecnología de aprendizaje profundo en el campo del descubrimiento de fármacos.

El objetivo final del desarrollo de métodos computacionales es ayudar en el proceso práctico de diseño de fármacos. Siguiendo esta filosofía, se utilizó Macformer para diseñar inhibidores macrocíclicos de JAK2, con la estructura central de Fedratinib como estructura acíclica original. Los macrociclos generados por Macformer se acoplaron al sitio de unión de ATP de JAK2 para evaluar más a fondo sus interacciones con el objetivo, que se utilizaron como criterio de importación para la posterior selección de compuestos. Entre los 218 nuevos macrociclos generados con distintos enlazadores, tres fueron sintetizados y probados para determinar sus actividades biológicas. Entre ellos, los compuestos 1 y 3 exhibieron actividades de inhibición contra JAK2 tanto a nivel enzimático como celular, y mostraron un perfil de selectividad mejorado contra 468 quinasas y propiedades PK favorables que Fedratinib. Además, el compuesto 3 manifestó un efecto antiinflamatorio in vivo sobre la colitis murina inducida por DSS a una dosis más baja que Fedratinib. El estudio de caso prospectivo valida la viabilidad de Macformer, que puede proporcionar posibles estructuras macrocíclicas para un mayor desarrollo de candidatos a fármacos dirigidos a la quinasa JAK2, así como a otros objetivos farmacológicos. Se espera que, como poderoso complemento del método tradicional de macrociclación, Macformer desempeñe un papel valioso en el diseño de candidatos a fármacos macrocíclicos.

El conjunto de datos macrocíclicos se recopiló de la base de datos ChEMBL30 y solo se retuvieron los compuestos que cumplieron los siguientes criterios: 1) contienen solo un macroanillo con 12 o más átomos; 2) el tipo de molécula está etiquetado como “molécula pequeña”; 3) los datos de bioactividad no están vacíos; 4) la longitud de las cadenas canónicas de SMILES es inferior a 200. La representación canónica de SMILES se generó usando RDKit y la información estereoquímica se eliminó para simplificarla. Después de la filtración de estructuras duplicadas, se derivaron 18.357 macrociclos únicos.

Para adquirir pares acíclicos-macrocíclicos coincidentes, los macrociclos se fragmentaron en dos subestructuras mediante el corte simultáneo de dos enlaces simples del macroanillo. La subestructura con átomos más pesados ​​se clasificó como análoga acíclica y la otra como enlazante. Para cada compuesto macrocíclico en el conjunto de datos, el proceso de fragmentación crearía múltiples combinaciones de análogo acíclico y enlazador correspondiente. Desde la perspectiva de la accesibilidad sintética, debería ser preferible el enlazador de macrociclo estructuralmente simple. En consecuencia, los enlazadores se filtraron según los siguientes criterios: 1) contienen sólo una estructura de anillo con 6 átomos o menos; 2) el número de átomos pesados ​​en el camino más corto está restringido dentro del rango de 3 a 9; 3) la relación entre el número de átomos pesados ​​en el camino más corto y el conector completo es superior a 0,6; 4) la relación entre el número de átomos pesados ​​del conector y el compuesto macrocíclico original es inferior a 0,25. Las cadenas SMILES del análogo acíclico también se canonicalizaron usando RDKit, con los dos puntos de corte marcados con átomos ficticios. La información en términos de longitud del enlazador se agregó como un token antepuesto a la secuencia. Mediante los tokens de longitud del enlazador correspondientes55, el conjunto de datos resultante que contiene un total de 237,728 pares acíclicos-macrocíclicos emparejados únicos se dividió aleatoriamente en un conjunto de entrenamiento (80%), una validación y un conjunto de prueba (10% para cada uno).

Recopilamos 486 macrociclos bioactivos de la base de datos ZINC, todos los cuales no están presentes en el conjunto de datos ChEMBL. Luego se extrajeron 5551 pares de SMILES acíclicos-macrocíclicos como un conjunto de datos de prueba externo utilizando el mismo protocolo de procesamiento de datos.

Se generaron múltiples SONRISAS aleatorias utilizando RDKit como medio para lograr el aumento de datos. Una molécula se puede representar como un gráfico 2D, del cual se pueden derivar notaciones SMILES lineales enumerando los nodos del gráfico siguiendo un cierto orden topológico. Al establecer el parámetro doRandom de la función MolToSmiles como Verdadero, RDKit seleccionaría aleatoriamente un nodo inicial y la ruta topológica para enumerar el gráfico de moléculas, luego se generaron SONRISAS aleatorias de los andamios acíclicos de entrada. Las SONRISAS aleatorias de los macrociclos objetivo se generaron de manera restringida. Después de que RDKit haga coincidir la subestructura, se devolverán los índices de los átomos del macrociclo que coinciden con la consulta de subestructura acíclica. Estos índices se colocaron primero, seguidos de los números atómicos de otros restos estructurales, para reordenar los átomos del macrociclo. Finalmente se obtuvieron las SMILES aleatorias del macrociclo objetivo según los nuevos números atómicos.

El modelo se implementó con base en la arquitectura Transformer31, que tiene una arquitectura codificador-decodificador autorregresivo por pasos. Tanto las secuencias SMILES de origen como las de destino están tokenizadas e incrustadas en una matriz entrenable, con el tamaño del vector de incrustación establecido en 256 para cada token. Además, las funciones seno y coseno se utilizan como codificación posicional para indicar la posición de diferentes tokens en la secuencia:

donde pos es la posición e i denota el iterador utilizado para construir este vector, que va de 0 a demb/2. Las codificaciones posicionales se agregan a las incrustaciones de tokens y cada secuencia finalmente se representa de la siguiente manera:

donde xi es el vector del iésimo token (con vectores posicionales agregados) en una secuencia que contiene n tokens.

Las matrices de incrustación de las secuencias fuente se introducen en el codificador para generar una representación latente L = (l1, l2,…, ln,) para inicializar el proceso de decodificación. Tanto el codificador como el decodificador están apilados en capas idénticas. Cada capa de codificador consta de una subcapa de atención de múltiples cabezales y una subcapa de red de retroalimentación posicional. A diferencia del codificador, se inserta una subcapa de atención de codificador-decodificador adicional en cada capa de decodificador, que realiza atención de múltiples cabezales sobre la salida de la pila de codificador y ayuda al decodificador a concentrarse en los lugares apropiados en la secuencia de entrada.

El mecanismo de atención de múltiples cabezales permite que el codificador y el decodificador observen diferentes tokens simultáneamente, por lo que el modo transformador puede hacer frente con éxito a dependencias de largo alcance. En este estudio, una unidad de atención de múltiples cabezales comprende ocho capas de atención de puntos escalados que se ejecutan paralelamente, que se concatenan y proyectan en los valores finales. La capa de atención de puntos escalados toma tres matrices como entrada: la matriz Q empaquetada con un conjunto de consultas, la matriz K con claves y la matriz V con valores. La atención se calcula de la siguiente manera:

donde dk es un factor de escala que depende del tamaño de las matrices de peso.

Al final del modelo Transformer, la transformación lineal y la función softmax se aplican sucesivamente para convertir la salida del decodificador en probabilidades predichas del siguiente token. Para una secuencia fuente particular, el objetivo del entrenamiento es minimizar la brecha entre la secuencia predicha y su secuencia objetivo correspondiente, que se estima mediante la función de pérdida de entropía cruzada:

donde k es el número de token de la secuencia objetivo, y yi y mi son la verdad fundamental y los valores predichos en la iésima posición de la secuencia objetivo, respectivamente.

En nuestro estudio, el modelo Transformer se construyó con cuatro capas de codificador y decodificador de tamaño 256, respectivamente, lo que resultó en un total de 12 M de parámetros entrenables. Se utilizó una tasa de abandono de 0,1 tanto en la capa densa como en la de atención para realizar la regularización. El modelo se optimizó utilizando el optimizador Adam56 con β1 = 0,9 y β2 = 0,998, y la tasa de aprendizaje varió utilizando 8000 pasos de calentamiento durante el curso del entrenamiento. El tamaño del lote se estableció en 2048 tokens y los gradientes se acumularon en cuatro lotes antes de actualizar los parámetros. El modelo fue entrenado en 200.000 pasos en una GPU (NVIDIA TESLA V100). Se guardó un punto de control cada 10.000 pasos y luego se aplicó para la validación del modelo en el conjunto de validación. La estrategia de forzar a los docentes se adoptó durante los cursos de capacitación y validación, por lo que el token de salida se predijo en función del valor de verdad fundamental del paso temporal anterior57. Todos los experimentos se llevaron a cabo con la versión PyTorch de OpenNMT58.

Se adoptó el algoritmo de búsqueda de haz33 para decodificar las secuencias fuente de los conjuntos de datos de prueba. A medida que se construyen las secuencias predichas, la búsqueda del haz expande todos los siguientes tokens posibles mientras realiza un seguimiento de las k secuencias principales en función del producto de las probabilidades de cada token.

Para garantizar que los macrociclos se construyan utilizando los mismos datos que los de Macformer, se utilizaron 9243 enlazadores únicos del conjunto de datos de entrenamiento ChEMBL para construir la base de datos de enlazadores 3D. Se generaron un máximo de 20 conformaciones de baja energía para cada enlazador y se adquirieron un total de 163.924 estructuras. Este proceso se implementó utilizando RDKit, siguiendo el procedimiento propuesto por la ref. 59. Las conformaciones de los compuestos acíclicos y macrocíclicos se generaron utilizando el mismo método, y se reservaron las 3 principales conformaciones de baja energía para cada estructura química. Para acelerar el proceso de macrociclación, primero se filtraron los enlazadores mediante criterios geométricos. Para las estructuras acíclicas 3D y los enlazadores, se calcularon dos parámetros de distancia, uno entre los dos átomos salientes en los dos vectores de unión y el otro entre sus átomos adyacentes. El ángulo diédrico de los dos vectores de unión también se calculó como parámetro adicional (Figura complementaria 2). El umbral de distancia entre la estructura acíclica y el enlazador se estableció en 0,5 Å, y el umbral del ángulo diédrico se estableció en 20 °. Después de superponer los vectores de unión de la estructura acíclica dada y la de los enlazadores que satisfacen las restricciones geométricas, se calcularon los valores de RMSD entre los átomos de los vectores de unión (https://github.com/charnley/rmsd) y se determinaron los 10 enlazadores principales. Se utilizaron para construir macrociclos.

El rendimiento de Macformer y MacLS se evaluó mediante métricas ampliamente utilizadas en trabajos anteriores de generación molecular60.

La recuperación es el porcentaje de macrociclos objetivo pronosticados correctamente del conjunto de datos de prueba.

La validez es el porcentaje de moléculas químicamente válidas generadas.

La unicidad es el porcentaje de moléculas únicas en las moléculas válidas generadas.

Novedadmol es el porcentaje de moléculas nuevas, que no están presentes en el conjunto de entrenamiento, en las moléculas válidamente únicas generadas.

El enlazador de novedad es el porcentaje de moléculas nuevas, que tienen enlaces nuevos que no están presentes en el conjunto de entrenamiento, en las moléculas válidamente únicas generadas.

La macrociclación es el porcentaje de macrociclos en las moléculas válidamente únicas generadas y es una métrica distinta para el método de macrociclación.

La estructura cristalina de la unión de JAK2 con Fedratinib (código PDB 6VNE) se derivó del Protein Data Bank y se preparó utilizando el Asistente de preparación de proteínas de Maestro v10.1. La caja que encierra la rejilla se colocó en el centroide del ligando cristalográfico y se estableció un factor de escala de 0,8 para radios de van der Waals con cargas atómicas parciales inferiores a 0,15 para suavizar las partes no polares del receptor. Las estructuras tridimensionales de los compuestos se generaron y minimizaron con el módulo Ligprep v3.3. Se adoptó el enfoque de precisión estándar (SP) de Glide para acoplar las moléculas al sitio de unión con los parámetros predeterminados, y solo se mantuvo la postura superior para cada molécula.

Los ensayos de actividad de la quinasa JAK se realizaron utilizando el kit de ensayo de quinasa Z'-LYTETM (Life Technologies, pv4122). Las reacciones enzimáticas incluyen volúmenes de 10 μL de 1 × tampón quinasa (HEPES 50 mM, pH 7,5, MgCl2 10 mM, EGTA 1 mM, Brij-35 al 0,01%) junto con ATP 25 μM, JAK2 0,05–0,42 ng, sustrato peptídico 2 μM (Tyr06). ), y varias concentraciones de compuestos. La mezcla se añadió a la microplaca de 384 pocillos, se agitó suavemente y luego se incubó a temperatura ambiente durante 1 h. Posteriormente, se agregaron 5 μL de solución de desarrollo al pocillo para incubar durante 1 h más. Finalmente, se agregaron 5 μL de reactivo de parada para detener la reacción. La fluorescencia se midió con excitación a 400 nm y emisión a 445 y 520 nm. Los valores de IC50 se calcularon utilizando GraphPad Prism v8.0.3 y se realizaron tres experimentos paralelos.

Las células de leucemia eritroide humana (HEL 92.1.7) se adquirieron de la Colección Americana de Cultivos Tipo (ATCC, TIB-180), y las células megacarioblásticas humanas (SET2) se obtuvieron de la Colección Alemana de Microorganismos y Cultivos Celulares (DSMZ, ACC 608). ). Las actividades antiproliferativas de los compuestos se evaluaron utilizando el kit de recuento de células WST-8-8 (Elabscience). Se sembraron células HEL y SET-2 a razón de 5000 células/pocillo en 70 µl de medio RPMI-1640 (Hyclon) con FBS al 10 % (Gibco) en la placa de 96 pocillos y se incubaron durante la noche a 37 °C con CO2 al 5 %. Los compuestos se diluyeron en serie en medio RPMI-1640 y las células se trataron por separado con 30 μl de diversas concentraciones de compuestos durante 72 h. La concentración final de DMSO en los pocillos de cultivo fue del 0,1%, lo que no tuvo ningún efecto sobre la viabilidad celular. Finalmente, se agregaron 10 μL de solución CCK-8 a los pocillos. 4 h después, se registraron los valores de absorbancia a 450 nm. Los valores de CI50 se determinaron utilizando GraphPad Prism v8.3.0 y se realizaron tres experimentos paralelos.

Las células HEL se agregaron en placas de seis pocillos (2 x 106 células/pocillo) y luego se colocaron en la incubadora (37 °C, 5% de CO2). Después de 24 h, los compuestos probados se diluyeron en medio RPMI-1640 (concentración final de DMSO = 0,1%) con diferentes concentraciones (0 μM, 0,3 μM, 1 μM, 3 μM y 10 μM) se agregaron por separado a los pocillos y Se incubaron durante otras 0,5 h, luego se recogieron y lisaron las células. Las proteínas de cada muestra se aislaron mediante SDS-PAGE y se transfirieron a una membrana de PVDF. Las membranas se bloquearon en leche al 5 % (TBST) durante 1 h a temperatura ambiente y posteriormente se incubaron con el anticuerpo primario indicado en tampón de bloqueo durante la noche a 4 °C. Los anticuerpos primarios se usaron de la siguiente manera: p-Y1007/8-JAK2 (#3771, CST, 1:1000), p-Y221-JAK2 (#11150, SAB, 1:500), p-Y705-STAT3 (#11045, SAB, 1:1000), p-Y694-STAT5 (#13386, SAB, 1:2000), STAT3 (10253-2-AP, Proteintech, 1:4000), STAT5 (12071-1-AP, Proteintech, 1: 4000), JAK2 (E-AB-70193, Elabscience, 1:2000) y β-actina (E-AB-20034, Elabscience, 1:10000). Luego, las membranas se lavaron con TBST (3 × 5 min), se incubaron con anticuerpo secundario conjugado con HRP durante 1 hora a temperatura ambiente, se lavaron nuevamente y luego se expusieron mediante el método de quimioluminiscencia utilizando el sistema de inmunotransferencia ECL mejorado (Tanon, Shanghai, China). . Todos los experimentos se repitieron por triplicado. Las bandas de transferencia se cuantificaron mediante densitometría utilizando el software Image J v1.51.

El perfil de selectividad de quinasa se realizó utilizando la plataforma DiscoveRx KINOMEscan. Los compuestos se seleccionaron a una concentración de 100 nM frente a un panel de 468 quinasas. Los compuestos de prueba se prepararon como soluciones madre 40X en DMSO al 100 % y se diluyeron directamente en el ensayo. Los resultados se definieron como un porcentaje de señal entre el control negativo (DMSO, 100 % de control) y el positivo (compuesto de control, 0 % de control), que se calculó de la siguiente manera: porcentaje de control = [(señal del compuesto de prueba - señal de control positivo )/(señal de control negativo − señal de control positivo)] × 100.

Los parámetros farmacocinéticos de los compuestos en ratones BALB/c macho (6 a 7 semanas, 20 a 25 g, Shanghai SLRC animal de laboratorio Co. Ltd) fueron realizados por Hangzhou Leading Pharmatech Co., Ltd. Los ratones se mantuvieron a temperatura- sala de control (22–25 °C, humedad relativa 52–63%) con ciclos de luz/oscuridad de 12 h, y se les permitió libre acceso a alimentos y agua durante 3 días para adaptarse al entorno antes del experimento. Las soluciones de dosificación de 1 mg/ml del compuesto 3 y Fedratinib se prepararon en el vehículo solubilizante (DMSO al 5 %/PEG400 al 30 %/solución salina al 65 %) para administración intravenosa y oral. Se usó el mismo vehículo para el compuesto 1 en administración oral, mientras que en administración intravenosa se usó DMSO al 5 %/solución al 15 % (solución al 100 %)/solución salina al 80 %. Los ratones se administraron por separado a un grupo de tres ratones por momento para administración intravenosa (5 mg/kg) u oral (5 mg/kg). Se recogieron muestras de sangre a las 0,083, 0,25, 0,5, 1, 2, 4, 8 y 24 h después de la administración intravenosa, y a las 0,25, 1, 2, 3, 4, 6, 8 y 24 h después de la administración oral. Luego, las muestras se separaron mediante centrifugación y se analizaron mediante LC-MS/MS (XEVO TQ-S) para determinar las concentraciones plasmáticas del fármaco. Los parámetros PK se calcularon utilizando el modelo no compartimental con Phoenix WinNonLin v8.0. Los procedimientos experimentales con animales fueron aprobados por el Comité de Ética en Investigación en Medicina de Hangzhou Leading Pharmatech Co., Ltd.

Se obtuvieron ratones BALB/c macho (6 semanas, ~20 g) de Shanghai Sippr-BK Laboratory Animal Co. Ltd. Los ratones se mantuvieron en una sala con temperatura controlada (25 °C, humedad relativa 40-60%) con 12 h ciclos de oscuridad/luz, y se les permitió libre acceso a alimentos y agua durante 1 semana para adaptarse al entorno antes del experimento. Todos los procedimientos experimentales con animales fueron aprobados por el Comité de Ética en Investigación en Medicina de la Universidad de Ciencia y Tecnología del Este de China.

La colitis aguda se indujo reemplazando el agua potable con DSS al 3,5% (PM: 36.000–50.000, YEASEN) durante 7 días (del día 1 al día 7), durante los cuales los ratones de control sanos recibieron agua potable normal. Los ratones modelo se dividieron en cuatro grupos y se incluyeron ocho ratones en cada grupo el día 8. Los compuestos a evaluar se formularon en el vehículo solubilizante (5% DMSO/30% PEG400/65% solución salina) y se administraron por vía intragástrica, una administración de rutina. método que también se utilizó en la prueba in vivo previamente informada en ratones de Fedratinib61, a diferentes grupos en un tiempo fijo desde el día 8 al día 14. Mientras tanto, se administró solvente por vía intragástrica al grupo de control y al grupo modelo. El día 15, se sacrificaron los ratones y se midieron la longitud y el peso de cada colon.

El peso corporal, la consistencia de las heces y la presencia de sangre en las heces se registraron diariamente por la mañana. El DAI se evaluó mediante los criterios: 0, pérdida de peso corporal inferior al 1%, heces normales, sin sangrado rectal; 1, pérdida de peso corporal del 1 al 4,99%, heces más blandas, sangrado rectal débil; 2, pérdida de peso corporal del 5 al 10%, diarrea moderada, sangre visual en las heces; 3, peso corporal superior al 10%, diarrea, sangrado rectal reciente. La puntuación máxima fue 9, que fue la suma de las puntuaciones. Se recogió aproximadamente 1 cm de tejido de colon, que está a 0,5 cm del margen anal, y se utilizó el área ileocecal para el examen histopatológico. Después de la tinción con H&E, los tejidos se calificaron en condiciones simple ciego para evaluar los niveles de inflamación y daño tisular en el colon siguiendo los criterios propuestos por la ref. 62. Los análisis estadísticos se realizaron utilizando SPSS v24.0.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

La estructura cristalográfica de Fedratinib en complejo con JAK2 utilizada en este estudio está disponible en la base de datos PDB con el código de acceso 6VNE. Los pares SMILES acíclicos-macrocíclicos extraídos de las bases de datos ChEMBL y ZINC, respectivamente, y los modelos previamente entrenados generados en este estudio están disponibles en GitHub https://github.com/yydiao1025/Macformer. Los datos originales se proporcionan con este documento.

El código fuente de Macformer y los scripts Python v3.6.10 de preparación de datos asociados están disponibles en GitHub (https://github.com/yydiao1025/Macformer)63.

Mallinson, J. & Collins, I. Macrociclos en el descubrimiento de nuevos fármacos. Medicina del futuro. Química. 4, 1409-1438 (2012).

Artículo CAS PubMed Google Scholar

Tron, AE y cols. Descubrimiento del inhibidor AZD5991 específico de Mcl-1 y actividad preclínica en mieloma múltiple y leucemia mieloide aguda. Nat. Comunitario. 9, 5341 (2018).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Giordanetto, F. & Kihlberg, J. Fármacos macrocíclicos y candidatos clínicos: ¿qué pueden aprender los químicos medicinales de sus propiedades? J. Med. Química. 57, 278–295 (2014).

Artículo CAS PubMed Google Scholar

Lipinski, CA Regla de cinco en 2015 y más allá: limitaciones estructurales del objetivo y del ligando, estructura química del ligando y decisiones de proyectos de descubrimiento de fármacos. Adv. Entrega de drogas. Rev. 101, 34–41 (2016).

Artículo CAS Google Scholar

Marsault, E. & Peterson, ML Los macrociclos son grandes ciclos: aplicaciones, oportunidades y desafíos de los macrociclos sintéticos en el descubrimiento de fármacos. J. Med. Química. 54, 1961-2004 (2011).

Artículo CAS PubMed Google Scholar

Whitty, A. y col. Cuantificar las propiedades camaleónicas de los macrociclos y otros fármacos de alto peso molecular. Descubrimiento de drogas. Hoy 21, 712–717 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Heinis, C. Herramientas y reglas de DESCUBRIMIENTO DE FÁRMACOS para macrociclos. Nat. Química. Biol. 10, 696–698 (2014).

Artículo CAS PubMed Google Scholar

Zajac, M. y col. Hepatitis C: nuevos medicamentos y perspectivas de tratamiento. EUR. J. Med. Química. 165, 225–249 (2019).

Artículo CAS PubMed Google Scholar

Dougherty, PG, Qian, ZQ & Pei, DH Macrociclos como inhibidores de la interacción proteína-proteína. Bioquímica. J 474, 1109-1125 (2017).

Artículo CAS PubMed Google Scholar

Abdelrahim, EMM, Shabani, S. & Domling, A. Macrociclos artificiales. Óptica 29, 1136-1151 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Vendeville, S. y Cummings, MD Macrociclos sintéticos en el descubrimiento de fármacos de molécula pequeña. Año. Rep. Med. Química. 48, 371–386 (2013).

CAS Google Académico

Cummings, MD y Sekharan, S. Diseño de macrociclo basado en estructuras en el descubrimiento de fármacos de molécula pequeña y métricas simples para identificar oportunidades de macrociclación de ligandos de molécula pequeña. J. Med. Química. 62, 6843–6853 (2019).

Artículo CAS PubMed Google Scholar

Johnson, TW y cols. Descubrimiento de (10R)-7-amino-12-fluoro-2,10,16-trimetil-15-oxo-10,15,16,17-tetrahidro-2H-8,4-(meteno)pirazolo[4,3 -h][2,5,11]-benzoxadiazaciclotetradecina-3-carbonitrilo (PF-06463922), un inhibidor macrocíclico de la quinasa del linfoma anaplásico (ALK) y del oncogén c-ros 1 (ROS1) con exposición cerebral preclínica y potencia de amplio espectro contra mutaciones resistentes a ALK. J. Med. Química. 57, 4720–4744 (2014).

Artículo CAS PubMed Google Scholar

Viarengo-Baker, LA, Brown, LE, Rzepiela, AA y Whitty, A. Definición y navegación del espacio químico del macrociclo. Química. Ciencia. 12, 4309–4328 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Driggers, EM, Hale, SP, Lee, J. & Terrett, NK La exploración de macrociclos para el descubrimiento de fármacos: una clase estructural subexplotada. Nat. Rev. Descubrimiento de Drogas. 7, 608–624 (2008).

Artículo CAS PubMed Google Scholar

Mulligan, VK El papel emergente del diseño computacional en el descubrimiento de fármacos de macrociclo peptídico. Opinión de expertos. Enfermedad por drogas. 15, 833–852 (2020).

Artículo CAS Google Scholar

Hosseinzadeh, P. et al. Diseño computacional integral de macrociclos peptídicos ordenados. Ciencia 358, 1461-1466 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wagner, V. y col. Macrociclización computacional: desde la generación de macrociclos de novo hasta la estimación de afinidad vinculante. ChemMedChem 12, 1866–1872 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Sindhikara, D. y col. Diseño automatizado de macrociclos para aplicaciones terapéuticas: desde pequeñas moléculas hasta péptidos y proteínas. J. Med. Química. 63, 12100–12115 (2020).

Artículo CAS PubMed Google Scholar

Chen, HM, Engkvist, O., Wang, YH, Olivecrona, M. y Blaschke, T. El auge del aprendizaje profundo en el descubrimiento de fármacos. Descubrimiento de drogas. Hoy 23, 1241-1250 (2018).

Artículo PubMed Google Scholar

Zhong, FS et al. Inteligencia artificial en el diseño de fármacos. Ciencia. China Life Sci 61, 1191-1204 (2018).

Artículo PubMed Google Scholar

Schneider, P. y col. Repensar el diseño de fármacos en la era de la inteligencia artificial. Nat. Rev. Descubrimiento de Drogas. 19, 353–364 (2020).

Artículo CAS PubMed Google Scholar

Jimenez-Luna, J., Grisoni, F. & Schneider, G. Descubrimiento de fármacos con inteligencia artificial explicable. Nat. Mach. Intel. 2, 573–584 (2020).

Artículo de Google Scholar

Méndez-Lucio, O., Baillif, B., Clevert, DA, Rouquie, D. y Wichard, J. Generación de novo de moléculas similares a golpes a partir de firmas de expresión genética utilizando inteligencia artificial. Nat. Comunitario. 11, 10 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Jing, YK, Bian, YM, Hu, ZH, Wang, LR & Xie, XQS Aprendizaje profundo para el diseño de fármacos: un paradigma de inteligencia artificial para el descubrimiento de fármacos en la era del big data. AAPS J. 20, 58 (2018).

Artículo PubMed Google Scholar

Weininger, D. SMILES, un lenguaje químico y un sistema de información. 1. Introducción a la metodología y reglas de codificación. J. química. inf. Computadora. Ciencia. 28, 31–35 (1988).

Artículo CAS Google Scholar

Moret, M., Friedrich, L., Grisoni, F., Merk, D. y Schneider, G. Diseño molecular generativo en regímenes de datos bajos. Nat. Mach. Intel. 2, 171–180 (2020).

Artículo de Google Scholar

Arus-Pous, J. et al. Las cadenas SMILES aleatorias mejoran la calidad de los modelos generativos moleculares. J. Cheminform. 11, 71 (2019).

Artículo PubMed PubMed Central Google Scholar

Arus-Pous, J. et al. Decorador de andamios generativo profundo basado en SMILES para el diseño de fármacos de novo. J. Cheminform. 12, 38 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Gaulton, A. y col. ChEMBL: una base de datos de bioactividad a gran escala para el descubrimiento de fármacos. Ácidos nucleicos res. 40, D1100-D1107 (2012).

Artículo CAS PubMed Google Scholar

Vaswani, A. y col. Atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal 30 (Nips 2017), 5998–6008 https://arxiv.org/abs/1706.03762 (2017).

Kimber, TB, Engelke, S., Tetko, IV, Bruno, E. & Godin, G. Efecto de sinergia entre las redes neuronales convolucionales y la multiplicidad de SMILES para mejorar la predicción molecular. Preimpresión en https://arxiv.org/abs/1812.04439 (2018).

Freitag, M. & Al-Onaizan, Y. Estrategias de búsqueda de haces para la traducción automática neuronal. Preimpresión en https://arxiv.org/abs/1702.01806 (2017).

Landrum, G. RDKit: software de quimioinformática de código abierto. http://www.rdkit.org (2016).

McInnes, L., Healy, J. y Melville, J. Umap: aproximación y proyección de variedad uniforme para reducción de dimensiones. Preimpresión en https://arxiv.org/abs/1802.03426 (2018).

Belkina, AC y cols. Los parámetros optimizados automatizados para la incrustación de vecinos estocásticos distribuidos en T mejoran la visualización y el análisis de grandes conjuntos de datos. Nat. Comunitario. 10, 5415 (2019).

Artículo ADS PubMed PubMed Central Google Scholar

Warr, WA Sistemas de flujo de trabajo científico: piloto de tubería y KNIME. J. Computación. Ayudó a Mol. Des. 26, 801–804 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Taylor, PC Eficacia clínica de los inhibidores de JAK liberados en la artritis reumatoide. Reumatología 58, 17-26 (2019).

Artículo de Google Scholar

Hobbs, GS, Rozelle, S. y Mullally, A. El desarrollo y uso de inhibidores de la janus quinasa 2 para el tratamiento de neoplasias mieloproliferativas. Hemat. Oncol. Clínico. N. 31, 613–626 (2017).

Artículo de Google Scholar

William, AD y col. Descubrimiento del macrociclo 11-(2-pirrolidin-1-il-etoxi)-14,19-dioxa-5,7,26-triaza-tetraciclo[19.3.1.1(2,6).1(8,12)] heptacosa-1(25),2(26),3,5,8,10,12(27),16,21,23-decaeno (SB1518), una potente tirosina quinasa-3 similar a Janus quinasa 2/Fms ( JAK2/FLT3) inhibidor para el tratamiento de mielofibrosis y linfoma. J. Med. Química. 54, 4638–4658 (2011).

Artículo CAS PubMed Google Scholar

Mascarenhas, J. et al. Pacritinib versus la mejor terapia disponible, incluido ruxolitinib, en pacientes con mielofibrosis, un ensayo clínico aleatorizado. JAMA Oncol 4, 652–659 (2018).

Artículo PubMed PubMed Central Google Scholar

Blair, HA Fedratinib: primera aprobación. Drogas 79, 1719-1725 (2019).

Artículo CAS PubMed Google Scholar

Davis, MI y col. Análisis completo de la selectividad del inhibidor de quinasa. Nat. Biotecnología. 29, 1046–U1124 (2011).

Artículo CAS PubMed Google Scholar

Zhou, T. y col. Especificidad y mecanismo de acción de los inhibidores de la tirosina quinasa JAK2 ruxolitinib y SAR302503 (TG101348). Leucemia 28, 471–472 (2014).

Artículo de Google Scholar

Davis, RR y cols. Conocimientos estructurales sobre la inhibición de JAK2 por ruxolitinib, fedratinib y sus derivados. J. Med. Química. 64, 2228–2241 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Friesner, RA y cols. Glide: un nuevo enfoque para un atraque y puntuación rápidos y precisos. 1. Método y evaluación de la precisión del atraque. J. Med. Química. 47, 1739-1749 (2004).

Artículo CAS PubMed Google Scholar

Mascarenhas, J. & Hoffman, R. Ruxolitinib: la primera terapia aprobada por la FDA para el tratamiento de la mielofibrosis. Clínico. Res. Cáncer. 18, 3008–3014 (2012).

Artículo CAS PubMed Google Scholar

Hart, S. y col. SB1518, un nuevo inhibidor de JAK2 macrocíclico basado en pirimidina para el tratamiento de neoplasias malignas mieloides y linfoides. Leucemia 25, 1751-1759 (2011).

Artículo CAS PubMed Google Scholar

Argetsinger, LS et al. La autofosforilación de JAK2 en las tirosinas 221 y 570 regula su actividad. Mol. Celúla. Biol. 24, 4955–4967 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Canción, L. et al. Niveles intestinales y sistémicos elevados de la vía interleucina-23/T-helper 17 en pacientes chinos con enfermedad inflamatoria intestinal. Mediadores Inflamación. 2013, 425915 (2013).

Asadzadeh-Aghdaei, H. et al. Regulación positiva independiente de V617F de la expresión del gen JAK2 en pacientes con enfermedad inflamatoria intestinal. J. Celda. Bioquímica. 120, 15746–15755 (2019).

Artículo CAS PubMed Google Scholar

Chassaing, B., Aitken, JD, Malleshappa, M. y Vijay‐Kumar, M. Colitis inducida por dextrano sulfato de sodio (DSS) en ratones. actual. Protocolo. Inmunol. 104, 15.25.1–15.25.14 (2014).

Artículo PubMed Google Scholar

Das, K., Eastwood, M., McManus, J. & Sircus, W. Reacciones adversas durante la terapia con salicilazosulfapiridina y la relación con el metabolismo de los fármacos y el fenotipo del acetilador. N. inglés. J. Med. 289, 491–495 (1973).

Artículo CAS PubMed Google Scholar

Hanzel, J., Hulshoff, MS, Grootjans, J. y D'Haens, G. Terapias emergentes para la colitis ulcerosa. Experto Rev. Clin. Inmunol. 18, 513–524 (2022).

Artículo CAS PubMed Google Scholar

Yang, YY et al. SyntaLinker: enlace automático de fragmentos con redes neuronales de transformadores condicionales profundos. Química. Ciencia. 11, 8312–8322 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam: un método de optimización estocástica. Preimpresión en https://arxiv.org/abs/1412.6980 (2014).

Luong, M.-T., Pham, H. & Manning, CD Enfoques eficaces para la traducción automática neuronal basada en la atención. Preimpresión en https://arxiv.org/abs/1508.04025 (2015).

Klein, G., Kim, Y., Deng, YT, Senellart, J. & Rush, AM OpenNMT: conjunto de herramientas de código abierto para la traducción automática neuronal. En: Proc. 55ª Reunión Anual de la Asociación de Lingüística Computacional (Acl 2017): Demostraciones de sistemas, 67–72 (2017).

Ebejer, JP, Morris, GM & Deane, CM Métodos de generación de conformadores disponibles gratuitamente: ¿qué tan buenos son? J. química. inf. Modelo. 52, 1146-1158 (2012).

Artículo CAS PubMed Google Scholar

Polykovskiy, D. y col. Conjuntos moleculares (MOSES): una plataforma de evaluación comparativa para modelos de generación molecular. Frente. Farmacéutico. 11, 565644 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Werning, G. y col. Eficacia de TG101348, un inhibidor selectivo de JAK2, en el tratamiento de un modelo murino de policitemia vera inducida por JAK2V617F. Célula cancerosa 13, 311–320 (2008).

Artículo de Google Scholar

Ameho, CK y cols. Efecto profiláctico de la suplementación dietética con glutamina sobre la producción de interleucina 8 y factor de necrosis tumoral alfa en la colitis inducida por ácido trinitrobencenosulfónico. Instinto 41, 487–493 (1997).

Artículo CAS PubMed PubMed Central Google Scholar

Diao, Y. & Li, H. Macrociclización de moléculas lineales mediante aprendizaje profundo para facilitar el descubrimiento de candidatos a fármacos macrocíclicos. yydiao/Macformer. Zenodo https://doi.org/10.5281/zenodo.8125850 (2023).

Tao, ZF y cols. Diseño, síntesis y evaluación biológica basados ​​en estructuras de inhibidores de la quinasa 1 del punto de control macrocíclico potentes y selectivos. J. Med. Química. 50, 1514-1527 (2007).

Artículo CAS PubMed Google Scholar

Descargar referencias

Este trabajo fue apoyado en parte por el Programa Nacional Clave de Investigación y Desarrollo de China (2022YFC3400501); y la Fundación Nacional de Ciencias Naturales de China (81825020 y 82150208); HL también contó con el patrocinio del Programa Nacional de Apoyo Especial a Profesionales Eminentes y el Programa Nacional de Apoyo a Jóvenes Profesionales de Primer Nivel.

Laboratorio clave de diseño de nuevos fármacos de Shanghai, Facultad de Farmacia, Universidad de Ciencia y Tecnología del Este de China, Shanghai, 200237, China

Yanyan Diao, Dandan Liu, Huan Ge, Rongrong Zhang, Kexin Jiang, Runhui Bao, Xiaoqian Zhu, Hongjie Bi, Wenjie Liao, Ziqi Chen, Rui Wang, Lili Zhu, Zhenjiang Zhao y Honglin Li

Centro de Innovación para la IA y el Descubrimiento de Fármacos, Universidad Normal del Este de China, Shanghai, 200062, China

Kai Zhang, Qiaoyu Hu y Honglin Li

Laboratorio Lingang, Shanghai, 200031, China

Honglin Li

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

YD desarrolló el método Macformer y escribió el manuscrito; DL, RZ, HB, WL y ZZ sintetizaron los compuestos macrocíclicos; XZ analizó la estabilidad de los compuestos macrocíclicos sintetizados en solución; HG, ZC y LZ evaluaron las actividades de los compuestos contra JAK2 a nivel enzimático y celular; KJ, RB y RW llevaron a cabo los experimentos in vivo; KZ y QH ayudaron a revisar el manuscrito; HL diseñó todo el proyecto y revisó el manuscrito.

Correspondencia a Honglin Li.

Los autores declaran no tener conflictos de intereses.

Nature Communications agradece a Yuemin Bian, Christian Heinis y otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Diao, Y., Liu, D., Ge, H. et al. Macrociclización de moléculas lineales mediante aprendizaje profundo para facilitar el descubrimiento de candidatos a fármacos macrocíclicos. Nat Comuna 14, 4552 (2023). https://doi.org/10.1038/s41467-023-40219-8

Descargar cita

Recibido: 28 de julio de 2022

Aceptado: 18 de julio de 2023

Publicado: 28 de julio de 2023

DOI: https://doi.org/10.1038/s41467-023-40219-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.