- La regulación génica depende de un entramado de códigos ocultos: estructura del ADN, gramática espacial, cromatina, ARN no codificantes y transposones.
- El genoma oscuro, lejos de ser ADN basura, actúa como un sofisticado sistema regulador clave en evolución y enfermedad.
- Modelos de inteligencia artificial como AlphaGenome permiten predecir con gran precisión cómo las variantes genéticas alteran la expresión y el empalme de los genes.

Entender qué reglas ocultas gobiernan la expresión génica se ha convertido en uno de los grandes desafíos de la biología moderna. Sabemos que el ADN guarda las instrucciones básicas, pero cada vez está más claro que, detrás de ese mensaje aparente, existe toda una capa de códigos físicos, espaciales y epigenéticos que deciden cuándo se enciende o apaga un gen, con qué intensidad y en qué tipo de célula.
En el interior de una célula, miles de señales moleculares chocan y se solapan continuamente: factores de transcripción, ARN polimerasas, modificaciones de la cromatina, ARN no codificantes, transposones… El resultado es un paisaje tan complejo que durante años ha ocultado a los verdaderos protagonistas de la regulación. Hoy, gracias a nuevas técnicas experimentales, modelos computacionales de alto rendimiento y herramientas de inteligencia artificial, empezamos por fin a descifrar estas reglas ocultas y a comprender cómo se relacionan con el desarrollo, la adaptación al entorno y la aparición de numerosas enfermedades.
Colisión de señales: cómo se controla realmente la expresión génica
En cada célula, la expresión de los genes surge de una negociación constante entre múltiples señales que compiten o cooperan entre sí. Los factores de transcripción se unen a regiones específicas del ADN para activar o reprimir genes, mientras que las ARN polimerasas inician la copia del ADN a ARN, paso imprescindible para producir proteínas. Pero este esquema clásico resulta demasiado simple: en la práctica, la superposición de señales enmascara los mecanismos clave que determinan la salida final.
Los factores de transcripción (FT) se han descrito tradicionalmente como activadores o represores “puros”, pero estudios recientes muestran que este blanco y negro apenas se da en la realidad. Muchos FT pueden funcionar como activadores en un contexto y como represores en otro, dependiendo de la posición exacta de sus sitios de unión, de las proteínas con las que interaccionan y del estado de la cromatina. Es decir, la misma proteína reguladora puede cambiar de papel según el escenario molecular en el que se encuentre.
Además, la ARN polimerasa no actúa sola: su capacidad para iniciar la transcripción depende de que la cromatina esté más o menos compacta, de que existan determinadas marcas químicas sobre el ADN o las histonas, y de la presencia de ARN no codificantes que facilitan o bloquean su avance. Todo esto genera una red de regulación densa y dinámica, donde pequeñas variaciones de secuencia o estructura pueden disparar cambios profundos en la expresión génica.
Para desenredar este entramado, la biología moderna combina enfoques experimentales controlados con modelos teóricos y computacionales. El objetivo es aislar capas concretas de regulación —por ejemplo, la estructura física del ADN, o el patrón de marcas epigenéticas— y evaluar hasta qué punto explican la actividad de los promotores, los niveles de ARN y, en definitiva, la producción de proteínas.
El código estructural del ADN: más allá de la secuencia
Uno de los avances más llamativos de los últimos años ha sido la identificación de un código físico-estructural oculto en el ADN que ayuda a localizar promotores y regiones reguladoras clave. Tradicionalmente, se asumía que los promotores —las zonas donde se inicia la transcripción— se definían casi exclusivamente por su secuencia de nucleótidos: consensos como TATA, motivos específicos de unión para factores de transcripción, etc.
Sin embargo, investigaciones en biología computacional desarrolladas en centros como el IRB Barcelona, el Barcelona Supercomputing Center (BSC-CNS) y el Centro de Regulación Genómica (CRG) han demostrado que la estructura tridimensional del ADN también actúa como una firma reguladora. Propiedades físico-químicas como el desplazamiento, el deslizamiento, el giro, la inclinación o el balanceo de la doble hélice producen deformaciones locales que podrían ser reconocidas por proteínas reguladoras, independientemente de la secuencia exacta de bases.
Mediante modelos teóricos y simulaciones, estos grupos han caracterizado perfiles físicos típicos de regiones promotoras y han logrado predecir “de novo” nuevas posiciones de inicio de transcripción (TSS). Lo sorprendente es que muchas de estas predicciones, inicialmente etiquetadas como falsos positivos porque no mostraban las secuencias promotoras clásicas, resultaron ser promotores activos una vez verificados en el laboratorio.
Este hallazgo refuerza la idea de que no basta con leer las letras del ADN: es necesario interpretar también cómo se dobla, se retuerce y se adapta en el espacio. La combinación de secuencia y estructura proporciona una señal física capaz de guiar a los factores de transcripción y a la maquinaria de la ARN polimerasa hacia los lugares adecuados, ampliando así la lista de promotores funcionales más allá de lo que predicen los algoritmos convencionales.
La colaboración estrecha entre grupos de modelización molecular y equipos experimentales, repartidos en diferentes instituciones, ha sido clave para validar este código estructural. Esta sinergia entre teoría y experimento demuestra que las aproximaciones computacionales, cuando se apoyan en datos sólidos, pueden revelar capas de información que habían pasado inadvertidas en los análisis clásicos basados solo en la secuencia.
Gramática espacial del ADN y factores de transcripción “camaleónicos”
Más allá del código físico local, varios trabajos han revelado la existencia de una auténtica “gramática espacial” en el ADN, en la que importa tanto la presencia de motivos de unión como su distribución, orden y distancia relativa. Esta gramática influye en cómo cooperan o se estorban los factores de transcripción y en si un conjunto de elementos promueve o reprime la expresión de un gen.
Investigaciones realizadas en universidades estadounidenses han mostrado que la mayoría de factores de transcripción no son estrictamente activadores o represores. En contra de lo que solían contar los manuales, los FT que actúan como activadores “puros” o represores “puros” son, en realidad, minoritarios. La función reguladora depende en gran medida de la posición del sitio de unión respecto al TSS, de las combinaciones con otros factores vecinos y de la arquitectura tridimensional del ADN en esa región.
Cuando se elimina un factor de transcripción que se consideraba un activador, no siempre se observa la caída esperada en la expresión de sus genes diana; en muchos casos, apenas se altera o incluso se incrementa. Esto llevó a los investigadores a concluir que buena parte de los FT tienen un comportamiento camaleónico: pueden activar ciertos genes y reprimir otros, y el resultado final viene marcado por el contexto espacial del genoma.
Esta gramática espacial ayuda a explicar por qué pequeños cambios en la posición de un motivo regulador pueden transformar por completo el efecto de un FT sin necesidad de mutar la proteína reguladora. También pone de manifiesto que las reglas de combinación entre elementos reguladores distan mucho de ser aditivas; más bien se asemejan a las reglas de una sintaxis compleja, en la que el significado de una “palabra” (motivo) depende de su lugar en la frase (región genómica).
El resultado es un panorama en el que la regulación génica depende de una interacción fina entre secuencia, estructura y posición, en lugar de seguir un catálogo sencillo de activadores y represores. Esta visión más matizada obliga a replantear modelos simplistas y abre la puerta a estrategias de diseño racional de elementos reguladores, por ejemplo, en biología sintética.
El genoma oscuro: la gran reserva de reglas ocultas
Cuando finalizó el Proyecto Genoma Humano, una de las mayores sorpresas fue comprobar que menos del 2 % del ADN humano codifica proteínas. Apenas unos 20.000 genes codificadores repartidos en unos 3.000 millones de pares de bases. El resto —un abrumador 98 %— fue bautizado inicialmente como “materia oscura” o “genoma oscuro”, y durante un tiempo se habló incluso de “ADN basura”.
Con el paso de los años, esta visión se ha ido desmontando. Muchos investigadores apuntan que la evolución no suele tolerar el despilfarro: mantener un genoma tan grande tiene un coste, de modo que es razonable pensar que el ADN no codificante cumple funciones relevantes. Los primeros indicios sólidos indican que una de sus tareas principales es regular la expresión de los genes productores de proteínas, actuando como una especie de “software” que gestiona cómo y cuándo se ejecuta el “hardware” proteico.
En esta materia oscura abundan las secuencias repetitivas, especialmente los transposones o elementos móviles, que ocupan cerca de la mitad del genoma de los mamíferos. Inicialmente fueron ignorados por muchos genetistas, que centraron sus análisis en el exoma (la parte codificante). No obstante, la aparición de tecnologías de secuenciación más precisas y de mayor longitud de lectura ha permitido empezar a cartografiar este territorio con mucho mayor detalle.
Experimentos en modelos animales han demostrado que algunos transposones son esenciales para la viabilidad. Al eliminar determinadas secuencias móviles en ratones, aproximadamente la mitad de las crías morían antes de nacer, evidenciando que esos fragmentos repetitivos cumplían una función reguladora crítica. Se han propuesto varias hipótesis sobre su origen: podrían ser vestigios de virus antiguos que se integraron en el ADN y fueron reutilizados, o bien restos de elementos genéticos muy antiguos que acompañan la evolución desde sus inicios.
Estos elementos móviles tienen la particularidad de que pueden cambiar de posición dentro del genoma, generando o revirtiendo mutaciones. En algunos casos, su inserción cerca o dentro de un gen puede modificar drásticamente su patrón de expresión. Incluso se ha sugerido que la pérdida de la cola en el linaje de los grandes simios —un cambio evolutivo clave para la marcha bípeda humana— podría estar relacionada con el movimiento de un transposón hacia un gen implicado en el desarrollo de la columna y la pelvis.
Estudiar esta materia oscura está permitiendo reconstruir un auténtico registro fósil de alteraciones antiguas en nuestro ADN, al tiempo que se arroja luz sobre cómo estos elementos no codificantes intervienen en procesos tan diversos como el desarrollo embrionario, la respuesta al entorno y la predisposición a enfermedades complejas.
ARN no codificantes: el “software” que orquesta los genes
Una parte importante del genoma oscuro se dedica a producir ARN no codificantes, es decir, moléculas de ARN que no sirven como molde directo para proteínas pero que desempeñan papeles reguladores muy variados. Estos ARN pueden ayudar a ensamblar complejos proteicos, bloquear la traducción de ciertos mensajeros, reclutar modificadores de cromatina o guiar a la maquinaria de edición genética hacia regiones concretas.
Varios expertos comparan las proteínas con el hardware biológico y los ARN no codificantes con el software que procesa información ambiental —como la dieta, el ejercicio, el estrés o la exposición a contaminantes— y ajusta en consecuencia la actividad de los genes. En otras palabras, estos ARN actúan como directores de orquesta que coordinan qué genes se activan, en qué momento y en qué tipo celular.
La epigenética, entendida como el conjunto de cambios heredables en la expresión génica que no implican mutaciones en la secuencia de ADN, se apoya en buena medida en estos ARN no codificantes. Al modificar patrones de metilación del ADN, remodelar la cromatina o interferir con la transcripción, pueden mediar la respuesta de largo plazo del organismo a las presiones ambientales, contribuyendo a la adaptación pero también al riesgo de enfermedad.
Numerosos estudios de asociación del genoma completo (GWAS) han revelado que la mayoría de variantes ligadas a enfermedades crónicas comunes —como la diabetes tipo 2, enfermedades cardiovasculares, Alzheimer o trastornos psiquiátricos— se localizan en regiones no codificantes, y muy a menudo en zonas ricas en elementos reguladores y ARN no codificantes. Esto sugiere que muchas patologías complejas surgen no tanto de proteínas defectuosas, sino de un control alterado de cuándo y cuánto se expresan los genes implicados.
En patologías como la esquizofrenia o la depresión, se baraja que un auténtico coro de ARN no codificantes pueda actuar de forma sincronizada para modular la expresión de múltiples genes neuronales. En otros casos, determinados ARN reguladores interfieren con genes supresores de tumores como p53, favoreciendo entornos celulares proclives a la formación de cáncer. Todo apunta a que, si “alimentamos” al genoma oscuro con señales erróneas —por ejemplo, tabaquismo, sedentarismo o dieta muy poco saludable—, estos ARN pueden empujar a los tejidos hacia estados inflamatorios o degenerativos sostenidos.
Este nuevo enfoque ha llamado la atención de la industria farmacéutica, que tradicionalmente se ha centrado en desarrollar fármacos dirigidos contra proteínas. Dado que muchas proteínas clave se expresan en múltiples tejidos y participan en varias rutas biológicas, bloquearlas suele provocar efectos secundarios notables. En cambio, ciertos ARN no codificantes muestran una actividad mucho más específica en tipos celulares concretos o en procesos patológicos muy definidos.
Por ejemplo, se están desarrollando terapias experimentales dirigidas a ARN no codificantes implicados en la fibrosis cardíaca. Al modular estas moléculas reguladoras, se pretende frenar la formación de tejido cicatricial en el corazón con una precisión mayor que la que se lograría atacando proteínas más ubicuas. La esperanza es conseguir medicamentos más eficaces y, al mismo tiempo, más seguros.
Transposones, evolución y enfermedad: el caso de la XDP
Los transposones no solo han contribuido a moldear nuestro pasado evolutivo, sino que también siguen influyendo en la salud actual. Un ejemplo paradigmático es la distonía-parkinsonismo ligada al cromosoma X (XDP), una enfermedad del movimiento que se concentra de forma llamativa en la isla de Panay, en Filipinas.
Esta patología, de curso incurable, combina síntomas similares a la enfermedad de Parkinson con alteraciones del control motor que afectan gravemente a la calidad de vida. Desde su descripción en los años 70, se observó que aparecía casi exclusivamente en personas de ascendencia filipina, lo que apuntaba a un origen genético muy localizado en esa población.
Tras años de investigación, se identificó que todos los afectados comparten una variante específica en el gen TAF1, un gen esencial para la proliferación y el funcionamiento de prácticamente todos los tipos celulares. La clave parece residir en la inserción de un transposón en una región concreta de TAF1, capaz de alterar su expresión a lo largo del tiempo y desencadenar la degeneración neuronal característica de la XDP.
Los análisis genéticos sugieren que esta variante con el transposón insertado pudo surgir hace unos 2.000 años, extendiéndose progresivamente dentro de la población local hasta alcanzar la elevada prevalencia actual en la isla. Este caso ilustra de manera muy clara cómo un elemento del genoma oscuro puede controlar la función de un gen esencial y, al hacerlo, provocar una enfermedad concreta en un grupo humano específico.
Más allá de la XDP, se están descubriendo numerosos ejemplos en los que transposones y otros elementos no codificantes actúan como interruptores de genes críticos, activándolos o reprimiéndolos según el tejido, la etapa del desarrollo o las señales ambientales. Esto refuerza la idea de que buena parte de las reglas ocultas de la expresión génica se esconden en regiones que hace no tanto se consideraban irrelevantes.
Marcas de cromatina: ¿siempre tan importantes como creíamos?
Las marcas de cromatina —como las modificaciones químicas en histonas o la metilación del ADN— se han considerado durante años señales maestras para interpretar el estado de la expresión génica. Muchos modelos computacionales actuales predicen qué genes están activos o inactivos a partir de patrones de estas marcas epigenéticas, y no cabe duda de que, en muchos casos, funcionan razonablemente bien.
No obstante, estudios coordinados por grupos de la Universidad de Barcelona y el CRG han puesto de manifiesto que, al menos en algunos contextos, las marcas de cromatina podrían tener un peso menor del que se pensaba. Analizando datos del proyecto internacional modENCODE —que recoge información funcional exhaustiva de organismos modelo como el gusano C. elegans y la mosca D. melanogaster—, los investigadores observaron algo inesperado.
Al examinar genes con niveles muy altos de expresión, encontraron que una fracción de ellos carecía de las marcas de cromatina “clásicas” que se asociaban a estados activos. En un primer momento se barajó que se tratara de un artefacto: si un gen se expresa solo en unas pocas células de un tejido, la señal epigenética podría diluirse cuando se analiza una mezcla de muchas células, pasando inadvertida.
No obstante, al profundizar en los datos de modENCODE y validar experimentalmente los resultados, se confirmó que existen genes activados durante etapas muy concretas del desarrollo que alcanzan niveles de expresión elevados sin mostrar las marcas típicas de cromatina. Muchos de estos genes son específicos de ciertos tejidos y se encienden de forma puntual, justo en el momento en que se requieren para construir una estructura o desencadenar una transición embrionaria.
Este hallazgo sugiere que, en el contexto del desarrollo, hay rutas alternativas de activación génica que no dependen tanto de las marcas epigenéticas canónicas. Para mejorar los modelos predictivos de expresión, será necesario integrar esta nueva visión y considerar que no todos los genes siguen las mismas “reglas” de cromatina, especialmente aquellos que se activan de manera transitoria o muy localizada.
Si se confirma que este fenómeno también se da en humanos, las implicaciones serían importantes. Comprender qué genes de desarrollo escapan al control clásico de la cromatina podría ayudar a diseñar estrategias más finas para modular su expresión, algo muy relevante en enfermedades donde estos genes se encuentran desregulados o se activan fuera de contexto.
Inteligencia artificial para descifrar el código regulador: el caso AlphaGenome
La enorme complejidad del código regulador del genoma ha impulsado el uso de modelos de inteligencia artificial capaces de manejar secuencias colosales de ADN y extraer patrones sutiles imposibles de detectar con métodos convencionales. Uno de los ejemplos más avanzados en este ámbito es AlphaGenome, desarrollado por Google DeepMind y presentado en la revista Nature.
AlphaGenome se ha entrenado utilizando la mayor base de datos de anotaciones genómicas y epigenómicas empleada hasta la fecha para un modelo de este tipo, con información masiva procedente de consorcios públicos como ENCODE, GTEx, 4D Nucleome y FANTOM5, y es un ejemplo de herramientas que favorecen la colaboración entre sistemas de IA y equipos híbridos. Además, no se limita al genoma humano, sino que también incorpora datos del ratón, lo que le permite aprender principios regulatorios conservados entre mamíferos.
Una de sus grandes bazas es la capacidad para analizar de una sola vez fragmentos de ADN de hasta un millón de letras y realizar predicciones con resolución de base individual. Esto le permite capturar, con un nivel de detalle sin precedentes, al menos once procesos biológicos clave relacionados con la expresión génica y la regulación del ARN, incluyendo la predicción de sitios de empalme, niveles de expresión, accesibilidad de la cromatina y actividad de distintos elementos reguladores.
En términos prácticos, AlphaGenome puede estimar en cuestión de un segundo el efecto regulador de una variante genética: si aumentará o disminuirá la expresión de un gen determinado, si alterará el patrón de empalme del ARN, o si modificará la actividad de un elemento regulador. En comparaciones sistemáticas con otros modelos de IA genómica, ha superado o igualado a las herramientas previas en la inmensa mayoría de las tareas de evaluación.
Los desarrolladores describen AlphaGenome como un modelo unificador que condensa en una sola arquitectura las mejores ideas previas en inteligencia artificial aplicada al genoma. Allí donde antes se necesitaban varios modelos especializados, ahora un único sistema puede abordar múltiples problemas regulatorios de forma simultánea. Según distintos expertos, en tareas con reglas “gramaticales” bien definidas —como la predicción de sitios de empalme— ya está listo para sustituir directamente a los métodos estándar.
El modelo se ha puesto a disposición de la comunidad para uso no comercial y adaptaciones específicas, y miles de investigadores en todo el mundo, incluidos cientos en España, lo están empleando para profundizar en sus propios campos de estudio: desde el diagnóstico de enfermedades raras hasta la predicción del efecto de mutaciones en el cáncer, pasando por el diseño de terapias génicas o la comprensión de cómo variantes concretas afectan al genoma oscuro.
Aplicaciones biomédicas y retos pendientes
El conocimiento acumulado sobre estas reglas ocultas de la expresión génica está empezando a traducirse en aplicaciones clínicas tangibles, aunque aún queda un largo camino por recorrer. En el ámbito de las enfermedades raras, modelos como AlphaGenome permiten priorizar qué variantes detectadas en un paciente tienen más probabilidades de modificar la expresión o el empalme de un gen esencial, facilitando así el diagnóstico.
En cáncer, el foco se está desplazando poco a poco de las mutaciones que alteran directamente proteínas hacia cambios reguladores en regiones no codificantes que afectan a oncogenes y genes supresores de tumores. Algunos proyectos de vacunas personalizadas contra tumores están empezando a incorporar el análisis del genoma oscuro, con el objetivo de identificar dianas novedosas que interrumpan el programa regulador del cáncer donde realmente se origina.
Empresas biotecnológicas exploran terapias que modulan ARN no codificantes específicos de un tejido o de un estado patológico, como la fibrosis cardíaca, intentando aprovechar la exquisita especificidad espacial y temporal del genoma oscuro para reducir efectos secundarios. Del mismo modo, la edición genética —incluyendo variantes avanzadas de CRISPR— se perfila como una herramienta clave para probar de forma sistemática qué fragmentos no codificantes regulan cada comportamiento celular.
A pesar de estos avances, los genetistas insisten en que aún estamos solo arañando la superficie. Falta por descifrar buena parte de las “reglas básicas”: cómo se comunican entre sí las secuencias no codificantes para controlar un mismo conjunto de genes, cómo se organizan estas redes reguladoras en el tiempo durante procesos largos como la neurodegeneración, o hasta qué punto nuestro genoma sigue evolucionando mediante la actividad de elementos móviles y otros componentes oscuros.
Proyectos en marcha tratan de reconstruir fragmentos sintéticos del genoma oscuro —añadiendo genes, secuencias no codificantes cercanas y lejanas— para observar, desde cero, cómo se comportan bajo distintas condiciones. La integración de estos experimentos con modelos de IA como AlphaGenome promete acelerar el descubrimiento de patrones y reglas que, de otro modo, tardaríamos décadas en entender.
Todo este esfuerzo converge en una idea cada vez más aceptada: lo que nos hace humanos no reside solo en nuestras proteínas, sino en la red reguladora que decide cómo, cuándo y dónde se expresan. El genoma oscuro, la gramática espacial del ADN, el código estructural de los promotores, los ARN no codificantes y las marcas de cromatina forman un entramado de reglas ocultas que está empezando a salir a la luz, y que no solo explica nuestra capacidad de adaptación al entorno, sino también buena parte de la vulnerabilidad a las enfermedades que nos acompañan a lo largo de la vida.
