SEO técnico en la era de la IA
Schema markup, llms.txt, structured data y visibilidad AI: cómo lograr que los sistemas generativos lean y citen tu contenido
Cuando ChatGPT responde a una pregunta o Google muestra una AI Overview, ¿de dónde proviene esa información? En la mayoría de los casos, de sitios web como el tuyo. Pero solo si están estructurados correctamente para ser leídos también por sistemas de inteligencia artificial. Hoy ya no basta con estar online: hay que ser comprensible para las máquinas y lo suficientemente autoritativo como para ser elegido como fuente.
Lo que está en juego ya es concreto. Estudios recientes estiman que alrededor del 37-38% de las compras están hoy influenciadas por una recomendación de IA. Quien no ocupe este espacio está renunciando a una parte creciente del público, que prefiere hacer una pregunta a un chatbot en lugar de abrir diez pestañas del navegador.
Cómo los sistemas AI leen un sitio web
Hasta hace poco, el único “lector automático” que había que considerar era Googlebot, el crawler que escanea e indexa páginas. Ahora el escenario es más complejo: existen nuevos bots, llamados LLM crawlers (Large Language Model crawlers), como GPTBot de OpenAI, Claudebot de Anthropic, PerplexityBot y Bingbot AI, que visitan sitios web para recopilar contenidos que luego utilizarán en respuestas generadas.
Estos sistemas leen las páginas de forma distinta a Google: a menudo no ejecutan JavaScript y, por lo tanto, no ven contenidos cargados dinámicamente. Funcionan mejor con textos lineales, bien organizados y fáciles de entender desde el principio.
Sin embargo, hay un aspecto que pocos consideran. Cuando un usuario hace una pregunta a ChatGPT o Perplexity, el sistema no simplemente busca en Google y devuelve el primer resultado. Lanza una serie de búsquedas paralelas desde diferentes ángulos sobre el mismo tema, recopila los sitios que aparecen con mayor frecuencia en esas consultas, descarga los contenidos más útiles y construye una memoria temporal (técnicamente: RAG, Retrieval Augmented Generation) sobre la que se apoya toda la conversación.
Este proceso de selección explica un fenómeno que muchos están descubriendo con sorpresa: sitios bien posicionados en Google que nunca aparecen en respuestas de sistemas AI. Esto sucede cuando los contenidos, aunque optimizados para el ranking, son demasiado superficiales o están construidos según lógicas que premian más la forma técnica que la calidad informativa. La IA los ignora porque no sostienen una conversación compuesta por múltiples preguntas.
Mientras Google indexa páginas para mostrarlas en los resultados de búsqueda, los sistemas AI trabajan por ingestion: recopilan contenidos de los cuales extraer información para generar respuestas. En este nuevo paradigma, la visibilidad depende de la capacidad de ser citado, no solo de la posición en la SERP.
Schema markup: el lenguaje que entiende la IA
El schema markup es un código insertado en las páginas web que etiqueta el contenido, haciéndolo legible para las máquinas de forma precisa. Gracias a estas etiquetas, un sistema AI sabe inmediatamente si está leyendo un artículo, una pregunta con su respuesta, una guía práctica o el perfil de un autor. Es como añadir subtítulos a una imagen: el contenido no cambia, pero quien lo lee entiende de inmediato de qué se trata.
Entre los formatos más útiles se encuentran Article, FAQPage, HowTo y Person, que ayudan a que los contenidos sean interpretables y refuerzan su credibilidad ante los sistemas automáticos.
Un caso concreto: una página con markup FAQPage tiene más probabilidades de aparecer en las AI Overviews porque el sistema reconoce inmediatamente la estructura pregunta-respuesta y ya sabe cómo utilizarla.
llms.txt y robots.txt: gestionar bots en la era de la IA
El archivo robots.txt es una herramienta histórica del SEO técnico: indica a los crawlers qué secciones del sitio pueden visitar. Con la difusión de los bots AI ha adquirido un papel más estratégico: permite decidir si abrir o cerrar el sitio a sistemas generativos. Permitir el acceso significa aumentar las probabilidades de ser citado; bloquearlo protege los contenidos, pero excluye al sitio de la visibilidad AI.
También está emergiendo llms.txt, un archivo pensado específicamente para guiar a los sistemas AI en la lectura de contenidos. A diferencia de robots.txt, no bloquea nada: proporciona contexto e indicaciones sobre cómo interpretar el sitio. Sin embargo, sigue siendo un estándar en evolución.
Estructura de contenido AI-ready: pensar en temas, no en keywords
Los sistemas AI buscan información clara y fácilmente utilizable. Por eso, la estructura del contenido se vuelve decisiva: títulos jerárquicos (H1, H2, H3), párrafos breves y respuestas directas desde las primeras líneas, sin introducciones innecesarias. Las secciones FAQ funcionan bien precisamente por este motivo: hacen que el contenido sea más legible para quienes buscan respuestas rápidas, sean humanos o máquinas.
El punto que cambia respecto al SEO tradicional es la profundidad temática. La IA no busca la página que responde a una sola pregunta: busca el contenido capaz de sostener toda una conversación sobre ese tema. Una página construida alrededor de una sola keyword, aunque esté optimizada, no es tan competitiva como un contenido que trate el tema de forma integral, incluyendo preguntas relacionadas, comparaciones y casos de uso.
De aquí nace lo que los expertos llaman Prompt Research: en lugar de preguntarse “¿para qué keyword debo posicionarme?”, se preguntan “si un usuario hace esta pregunta a la IA, ¿qué buscaría el sistema en Google para construir la respuesta?”. Luego, el contenido se diseña para cubrir todo ese espacio, no solo el centro del tema.
También aplica una regla importante: la IA tiende a leer las primeras líneas de cada párrafo. Si la respuesta está enterrada al final de un bloque de texto, simplemente no será extraída. Escribir de forma clara y directa no es una concesión a las máquinas: es periodismo de calidad, útil para cualquier lector.
E-E-A-T en la era generativa: la autoridad no se improvisa
Experience, Expertise, Authoritativeness y Trustworthiness: el framework con el que Google evalúa la calidad de los contenidos también se ha vuelto relevante para los sistemas AI. Un contenido tiene más probabilidades de ser citado si está firmado por un autor reconocible, respaldado por datos y fuentes verificables, y actualizado con el tiempo.
Los sistemas generativos ignoran contenidos genéricos: pueden producir algo parecido por sí mismos, por lo que no tienen motivo para citarlos. Prefieren fuentes que aporten algo adicional: un punto de vista original, datos de primera mano o experiencia directa sobre el tema.
Sin embargo, existe una variable que suele ignorarse: qué sabe la IA sobre ti incluso antes de buscar en la web. Los modelos lingüísticos se entrenan sobre grandes corpus de textos hasta una fecha determinada (knowledge cutoff), después de la cual la información no se actualiza automáticamente. Si mientras tanto has cambiado servicios, precios, posicionamiento o nombre, el modelo podría seguir mostrando información antigua o, peor aún, rellenar vacíos con datos inventados.
Realizar una auditoría sobre este conocimiento interno —es decir, verificar qué sabe una IA sobre tu marca sin consultar internet— se ha convertido en el punto de partida de cualquier estrategia GEO seria. Si aparecen lagunas o imprecisiones, se interviene en dos frentes: on-site, haciendo que la información del sitio sea más clara y completa; y off-site, mediante actividades de digital PR orientadas a construir un ecosistema coherente de fuentes alrededor de la marca.
AI Visibility: el KPI que faltaba
Si el SEO tradicional se mide por el ranking, la GEO (Generative Engine Optimization) introduce un indicador diferente: el share of model, es decir, cuántas veces tus contenidos son elegidos como fuente por un motor generativo frente a los de la competencia.
La pregunta ya no es “¿en qué posición aparezco en Google?”, sino “¿quién habla de mí cuando un usuario pide a ChatGPT o Gemini comparar soluciones en mi sector?”. Si tus contenidos no son elegidos como fuente en esa conversación, estás ausente precisamente en el momento en que el usuario ya está tomando una decisión.
Monitorear la AI visibility también sirve para entender qué fuentes están influyendo en las respuestas en tu lugar. Si un artículo desactualizado en un sitio externo está proporcionando información errónea sobre tu marca a ChatGPT, puedes contactar con el propietario y solicitar una corrección. Es un trabajo que se parece más a las relaciones públicas que al SEO clásico, pero ya forma parte del oficio.
Más allá del sitio web: YouTube, redes sociales y menciones
Los sistemas AI actuales no leen únicamente páginas web. Son multimodales: analizan transcripciones de vídeos, hilos de foros y discusiones en Reddit. YouTube, en particular, es una fuente cada vez más citada en prompts porque los sistemas AI pueden extraer información de subtítulos y transcripciones para construir respuestas.
Esto abre un camino que va más allá del SEO clásico. Producir contenidos de vídeo de calidad, participar en conversaciones dentro de foros especializados y mantener una presencia coherente en redes sociales ya no es solo una cuestión de branding: es una forma de aumentar las superficies a través de las cuales la IA puede encontrarte y utilizarte como fuente.
En el ámbito de las fuentes externas también está surgiendo una nueva práctica: obtener menciones sin enlaces. Durante años, el SEO se centró en los backlinks. Hoy, para influir en cómo una IA habla de ti, también puede ser útil conseguir que fuentes autoritativas mencionen tu marca o expertise de forma natural dentro de un texto, incluso sin incluir un link. La IA lee palabras, no solo enlaces.
El sitio web en la era zero-click: menos visitas, más calidad
Existe un cambio que muchas empresas todavía tienen dificultades para aceptar: el sitio web está dejando de ser el lugar donde las personas buscan información. Esa información ya la obtienen de la IA. Llegan al sitio después, cuando gran parte de la decisión ya está tomada.
El papel del sitio cambia, pero no desaparece: se convierte en el lugar donde la IA ha aprendido a hablar con tu voz y donde el usuario llega para confirmar lo que ya sabe. El tráfico informacional disminuye; el transaccional se mantiene y, en algunos casos, crece. Menos visitas, pero de usuarios que ya saben lo que quieren.
Para un e-commerce o un proveedor de servicios esto puede representar una ventaja clara: si la IA aprende a recomendar tu producto en las conversaciones adecuadas, alcanzas a un público ya predispuesto a comprar. La inteligencia artificial se está convirtiendo en el punto de referencia que antes ocupaban los influencers o los motores de búsqueda. Con una diferencia: no se paga, se gana.
Del SEO técnico al agentic AI as a service
En Mashfrog este cambio no se aborda únicamente como una evolución del SEO o de la producción de contenidos, sino como una transformación de toda la cadena de valor digital. Trabajamos con equipos multidisciplinares de especialistas —desde data architecture hasta UX y AI engineering— capaces de comprender, dialogar y operar con sistemas machine-readable.
Mashfrog se está posicionando cada vez más como una organization de agentic AI as a service: un partner que no se limita a la optimización para motores o modelos, sino que construye entornos en los que los agentes AI pueden operar, aprender e interactuar eficazmente con datos, contenidos y servicios. El SEO técnico se convierte así en una de las capas de un sistema más amplio, donde estructura, semántica, accesibilidad y gobernanza de la información trabajan juntas para hacer que las marcas estén realmente “presentes” y sean capaces de comunicarse con los ecosistemas AI.
El valor ya no se juega en activos individuales, sino en la capacidad de orquestar competencias y tecnologías para guiar cómo las inteligencias artificiales leen, comprenden y ayudan al negocio. Quien consiga gobernar este nivel no solo será visible: se convertirá en parte activa de las lógicas de decisión que las AI aplican cada día. Quien retrase la revolución del SEO técnico, en cambio, corre el riesgo de desaparecer no solo de Google, sino de todas las conversaciones que realmente importan.
FAQ
¿Qué es un LLM crawler?
Es un bot utilizado por sistemas AI para recopilar contenidos de sitios web e integrarlos en respuestas generadas.
¿Para qué sirve el schema markup?
Describe el contenido de una página de forma estructurada para que motores de búsqueda y sistemas AI puedan comprender inmediatamente de qué trata.
¿Qué es llms.txt?
Es un archivo que proporciona a los sistemas AI indicaciones sobre cómo leer e interpretar los contenidos de un sitio.
¿Debo bloquear los bots AI en robots.txt?
Depende de la estrategia. Bloquearlos protege los contenidos, pero reduce las probabilidades de ser citado en sistemas generativos.
¿Cómo hacer que un contenido sea AI-ready?
Con una estructura clara, títulos jerárquicos, respuestas directas desde las primeras líneas y una cobertura completa del tema, no solo de la keyword principal.
¿Qué es el share of model?
El KPI principal de la GEO: mide con qué frecuencia tus contenidos son elegidos como fuente por motores generativos frente a los de la competencia.
¿Un buen posicionamiento en Google garantiza visibilidad en la IA?
No, no automáticamente. Un sitio puede aparecer en primera página de Google y aun así ser ignorado por la IA si los contenidos no son suficientemente completos o están diseñados solo para el ranking.
¿Qué es la Prompt Research?
La evolución de la keyword research: se analizan las subconsultas que un sistema AI realizaría en Google para responder a un determinado prompt y se crea contenido capaz de cubrir todo ese conjunto de preguntas, no solo la principal.