Evaluación técnica de candidatos con IA: guía 2026

Si has revisado una prueba técnica de developer en los últimos seis meses, probablemente has tenido la misma sospecha: el código está demasiado limpio, los comentarios suenan a documentación oficial y la solución sigue exactamente el patrón que devolvería un modelo generativo. El problema no es nuevo, pero el escenario sí lo es. En 2026 cualquier candidato tiene acceso a ChatGPT, Claude, Copilot o Cursor antes de empezar la prueba.

A esto se le suma lo que viene siendo costumbre en muchos procesos de selección técnica en España: la prueba se envía por correo, el candidato la devuelve en un Google Docs o un repositorio público, un senior dedica una tarde a corregirla con criterio subjetivo y, después, alguien intenta dejar constancia escrita en una hoja de Excel compartida.

Esta guía está pensada para responsables de Talent Acquisition, RRHH técnico y Head of Engineering que necesitan ordenar el proceso: qué evalúa bien la IA y qué no, qué formatos de prueba tienen sentido para cada perfil, cómo detectar uso de modelos generativos en las entregas y cómo montar un screening automatizado que no dependa de la disponibilidad de los seniors.

1. Por qué las pruebas técnicas tradicionales están rotas

El problema no es la prueba técnica como concepto. El problema es cómo se ejecuta hoy en la mayoría de empresas tech españolas. Estos son los cinco puntos de dolor que escuchamos cada semana en conversaciones con responsables de selección:

Subjetividad pura del corrector

La misma entrega corregida por dos seniors distintos recibe puntuaciones diferentes. Sin rúbrica explícita, los criterios cambian según el estado de ánimo, las preferencias de estilo y la afinidad con el lenguaje. El proceso no se puede auditar y los candidatos descartados pueden cuestionar la decisión con razón.

Coste de oportunidad de los seniors

Una hora de un senior corrigiendo una prueba técnica es una hora que no está construyendo producto. Cuando hay diez candidatos en pipeline, son diez horas que se pierden en una tarea repetitiva. Y los seniors lo notan: el burnout de "corrector eterno" es real y aparece en las encuestas internas.

La IA generativa ha cambiado el juego

Las pruebas de "implementa un CRUD" o "haz un fizz buzz" llevan tiempo siendo poco útiles, pero en 2026 son directamente irrelevantes: cualquier modelo las resuelve en segundos. Si no hay detección de uso de IA ni preguntas orientadas a razonamiento, lo que estás evaluando es la velocidad con la que el candidato copia y pega.

Cero trazabilidad documental

La prueba se envía por correo, el candidato la devuelve en un Drive y nadie sabe cuánto tiempo tardó realmente, cuántas veces revisó el enunciado, si copió de internet o qué partes resolvió primero. Cuando seis meses después un candidato descartado reclama, no hay forma de defender la decisión.

Procesos largos que ahuyentan al buen talento

Una prueba que tarda dos semanas en corregirse es una prueba que el candidato fuerte ya no esperará: a esas alturas tiene tres ofertas firmadas. El tiempo de respuesta es señal directa del nivel de organización interna y los seniors que valen la pena lo leen como tal.

Lectura honesta: el screening técnico no se arregla solo con tecnología. Se arregla redefiniendo qué quieres medir, automatizando lo que es automatizable y reservando el tiempo del senior para lo que requiere juicio humano. La IA es el medio, no el fin.

2. Qué evalúa una IA mejor que un humano en una prueba técnica

Conviene empezar por lo obvio y a menudo olvidado: la IA no sustituye al senior, sustituye el trabajo repetitivo. Ningún modelo, por bueno que sea, debería decidir solo a quién contratas. Pero hay dos capas de evaluación que conviene separar.

Lo que la IA hace bien

Ejecutar tests automáticos contra el código entregado en un sandbox seguro
Verificar complejidad algorítmica, edge cases obvios y estructura del proyecto
Puntuar tests de opción múltiple y puzles de orden lógico de forma instantánea
Evaluar ensayos por rúbrica: claridad, profundidad técnica, uso correcto de terminología
Detectar copia exacta, plagio entre candidatos y antipatrones de modelos generativos
Comparar puntuaciones entre candidatos con criterios homogéneos y trazables

Lo que sigue requiriendo senior

Validar decisiones de arquitectura en proyectos complejos
Calibrar casos borde sutiles que dependen del dominio de negocio
Evaluar fit cultural, comunicación y razonamiento en directo
Detectar si el candidato entiende lo que escribió o lo recita de memoria
Cerrar la decisión final tras leer puntuación, señales de riesgo y entrevista

El reparto realista es claro: la IA hace screening masivo (descarta el bottom 60% sin discusión), genera puntuación reproducible y deja al senior solo el top que merece entrevista. Eso es lo que devuelve horas al equipo técnico y elimina la subjetividad de las primeras fases. Para verlo a fondo en el contexto de selección, revisa RRHH y selección técnica.

3. Los 8 formatos de evaluación que necesitas conocer

No todas las pruebas miden lo mismo. Una buena evaluación técnica combina varios formatos para cubrir conocimiento declarativo, razonamiento, capacidad de programar y comunicación técnica. CertiDevs trabaja con ocho tipos de ejercicio, todos evaluables por IA y combinables dentro de la misma prueba.

Test

Preguntas de opción única o múltiple con corrección automática. Ideal para verificar conocimiento declarativo de sintaxis, conceptos de framework, comportamiento de runtime o trivia técnica.

Cuándo usar: filtro inicial rápido sobre conocimiento de un stack concreto.

Puzle

El candidato ordena bloques de código o conceptos en la secuencia correcta. Mide razonamiento estructurado sin requerir escritura desde cero. Difícil de resolver con un modelo generativo si los distractores están bien diseñados.

Cuándo usar: medir lógica y orden mental en perfiles junior y middle.

Código

Ejercicio en el IDE Monaco del navegador con sandbox de ejecución para Java, Python, JavaScript, TypeScript y otros. La IA ejecuta tests, valida edge cases y puntúa según rúbrica configurable.

Cuándo usar: verificar capacidad de implementar funciones acotadas, algorítmica básica y manejo de tipos.

Proyecto multiarchivo

Ejercicio con varios archivos preexistentes que el candidato debe modificar y completar. Refleja el trabajo real en un repositorio: leer código ajeno, entender estructura y entregar una contribución coherente.

Cuándo usar: perfiles middle y senior, evaluación cercana al día a día del puesto.

Ensayo

Respuesta abierta en texto sobre un tema técnico: justificar una decisión de arquitectura, explicar tradeoffs, redactar una RFC. La IA puntúa por rúbrica y marca señales de generación automática si las detecta.

Cuándo usar: medir comunicación técnica y capacidad de explicar decisiones, fundamental para senior.

Labs

Entornos guiados con steps interactivos: el candidato avanza por una tarea estructurada (configurar un endpoint, desplegar un contenedor, depurar un fallo). Mide capacidad operativa más que solo escritura de código.

Cuándo usar: perfiles DevOps, SRE, plataforma, fullstack con componente de infra.

Exam Assignment

El módulo Talent que orquesta todo lo anterior: asignación de exámenes a candidatos mediante token de acceso único, tracking de tiempo y puntuación agregada. RRHH crea la prueba, manda el enlace y recibe panel con resultados.

Cuándo usar: es el formato de entrega habitual hacia el candidato; los demás formatos van dentro.

Concept

Verificación de comprensión conceptual: el candidato explica con sus palabras qué hace un fragmento de código, cómo se comportaría ante un input dado o por qué falla. La IA puntúa la precisión de la explicación.

Cuándo usar: detectar candidatos que solo recitan o que en realidad entienden lo que ejecutan.

Una prueba para un puesto backend senior puede combinar, por ejemplo, un test corto sobre el stack, dos ejercicios de código con sandbox, un proyecto multiarchivo para revisar un repositorio existente y un ensayo de quince minutos sobre una decisión de arquitectura. La plataforma CertiDevs permite ese tipo de mezcla en una única ExamAssignment.

4. Detección de uso de IA en pruebas técnicas: ¿es posible en 2026?

La respuesta corta es: sí, con matices. La detección perfecta no existe y nadie debería prometerla. Lo que sí existe es un conjunto de señales que, combinadas, permiten clasificar entregas en niveles de riesgo y decidir cuáles merecen una segunda mirada del senior antes de avanzar al candidato.

Las señales que sí funcionan

El servicio IntegritySignalService de CertiDevs analiza cada entrega buscando un conjunto de indicadores que, por separado, pueden ser circunstanciales, pero juntos dibujan un patrón claro:

Honeytokens en el enunciado: palabras clave invisibles o instrucciones embebidas que, si el candidato pega el enunciado en un modelo generativo, aparecen reflejadas en la respuesta. Son la señal más limpia: si están, la entrega pasó por una IA.
Estilo y comentarios autogenerados: los modelos tienen tics estilísticos reconocibles, sobre todo en comentarios y nombres de variables. El detector compara la firma estilística de la entrega con patrones conocidos.
Antipatrones específicos: soluciones que un humano experimentado nunca escribiría así, pero que los modelos sugieren con frecuencia (loops innecesarios, manejo de errores redundante, patrones de "libro de texto" aplicados fuera de contexto).
Discrepancia entre formatos: si el candidato resuelve impecablemente un ejercicio de código complejo y falla preguntas conceptuales básicas sobre lo que entregó, es señal de que no entiende lo que ha escrito.
Patrones de pegado y tiempo: tracking de eventos en el IDE muestra si el candidato escribió línea a línea o pegó bloques grandes. No es prueba por sí solo, pero suma al perfil de riesgo.
Comparación entre entregas: dos candidatos con soluciones literalmente idénticas en un ejercicio abierto es señal de que ambos consultaron la misma fuente, normalmente el mismo modelo.

Cuándo es razonable aplicar detección y cuándo no

La detección agresiva tiene sentido en screening masivo: cuando recibes cien candidaturas para un puesto y necesitas filtrar a los veinte que pasarán a entrevista. Aquí cualquier señal de uso de IA penaliza y el coste de un falso positivo es bajo (descartas a un candidato y avanzas con otro).

En entrevistas finales, la lógica cambia. Si el candidato ya pasó tres rondas, lo que importa es el razonamiento en directo, no si en su día usó Copilot para el ejercicio inicial. Y conviene recordar: usar IA en el trabajo diario es legítimo y, en muchos puestos, esperable. Lo que evaluamos en una prueba técnica es si el candidato sabe lo que está haciendo, no si lo hace a pelo.

Buena práctica: sé transparente con el candidato. Indica en las instrucciones de la prueba si el uso de IA está permitido o no, y por qué. Un candidato que sabe que la entrega se audita por integridad se comporta de forma diferente al que asume que nadie va a mirar.

5. Pruebas técnicas ya preparadas en el catálogo CertiDevs

Construir una prueba técnica desde cero requiere tiempo y criterio. Por eso el producto incluye un set de doce pruebas técnicas oficiales, diseñadas por el equipo técnico y revisadas con empresas reales, que cubren los stacks más demandados en el mercado español:

Prueba	Perfil objetivo	Qué evalúa
Angular Frontend	Frontend Angular	Componentes, signals, RxJS, routing
Docker DevOps	DevOps / Plataforma	Contenerización, redes, volúmenes, optimización
FastAPI	Backend Python	REST, async, Pydantic, dependencias
Java Spring Fullstack	Fullstack Java	Spring Boot, JPA, frontend integrado
Java Backend	Backend Java	POO, colecciones, concurrencia, patrones
JavaScript Fullstack	Fullstack JS / Node	ES moderno, Node, async, frontend
Python Data Science	Data Analyst / Scientist	Pandas, NumPy, manipulación de datos
Python Fundamentos	Junior Python	Sintaxis, estructuras, funciones, OOP
React Frontend	Frontend React	Hooks, estado, composición, rendimiento
Spring Boot	Backend Spring	Controllers, services, repositorios, testing
SQL	Data / Backend	Joins, agregaciones, subconsultas, índices
TypeScript	Frontend / Fullstack	Tipado avanzado, generics, utility types

Cada prueba combina varios formatos (test, código, proyecto multiarchivo, ensayo, concept) y se entrega al candidato como una ExamAssignment con token único. La empresa puede usarla tal cual, duplicarla y editarla, o complementarla con ejercicios propios diseñados internamente. Detalles operativos en pruebas técnicas para empresas.

6. Cómo implementar un screening técnico moderno en tu empresa

El flujo operativo, una vez tienes la herramienta, se reduce a seis pasos. Lo importante es que cada paso quede automatizado y registrado: si depende de que alguien recuerde mover una columna en Excel, vuelves al punto de partida.

1

Definir el nivel y el perfil con el hiring manager

Junior, middle o senior cambian completamente la prueba. Antes de elegir formato, acuerda con el responsable técnico qué conocimientos son innegociables y cuáles son deseables. Sin esa conversación, la prueba va a medir lo que tú creas relevante, no lo que el equipo necesita.
2

Seleccionar formatos y configurar la prueba

Combina dos o tres formatos para cubrir capas distintas (conocimiento + código + razonamiento). Fija duración total (sesenta a noventa minutos suele ser razonable), pesos por ejercicio y rúbrica de corrección. Reutiliza una de las pruebas oficiales o duplícala y adáptala.
3

Enviar al candidato por enlace con token

Desde el panel de admin generas el ExamAssignment, copias el enlace y lo envías al candidato por correo o LinkedIn. El candidato no necesita crearse cuenta; entra, hace la prueba y la entrega. El sistema registra eventos, tiempo y resultados.
4

Recibir resultados en panel y filtrar por puntuación

Cuando el candidato termina, RRHH ve puntuación, desglose por ejercicio, tiempo invertido y señales de integridad (incluyendo posible uso de IA generativa). Ordena por puntuación, descarta el bottom y deja al top para revisión humana.
5

Validar manualmente el top-N con el senior

El senior solo entra a revisar las cinco o seis entregas más fuertes, no las treinta del pipeline. Lee el código, comprueba decisiones y prepara preguntas para la entrevista. Esto reduce el tiempo de senior de horas a minutos por proceso.
6

Exportar XLSX y registrar la decisión en el ATS

Cada candidato genera un informe XLSX con su puntuación, señales y comentarios del revisor. Ese informe se adjunta al expediente en el ATS corporativo. Trazabilidad completa: si seis meses después alguien reclama, hay registro defendible.

Roles operativos: el módulo Talent define tres roles. ROLE_TALENT_ADMIN crea pruebas, gestiona candidatos y configura la cuenta. ROLE_TALENT_TEACHER prepara ejercicios y rúbricas. ROLE_TALENT_USER es el candidato, que solo accede a su prueba. Separación limpia y compatible con auditoría.

7. Preguntas frecuentes

¿Cuánto cuesta una plataforma de evaluación técnica con IA en España?

El rango habitual para una herramienta de screening técnico orientada a empresa tech española está entre diez mil y treinta mil euros anuales, con variaciones según el volumen de candidatos evaluados al mes, el número de plazas activas y si se requiere personalización de pruebas o integración con ATS. CertiDevs ofrece modelos flexibles: pago por uso, asignaciones mensuales o cuota fija negociada, sin coste de setup ni permanencia.

¿El candidato necesita crearse una cuenta para hacer la prueba?

No. El módulo de ExamAssignment genera un enlace de acceso por token único. El candidato entra, realiza la prueba en el IDE del navegador y al terminar recibe confirmación. Reduce fricción y abandono y permite enviar pruebas a candidatos pasivos por LinkedIn o correo sin obligarles a registrarse.

¿Se integra con ATS como Greenhouse, Lever o Factorial?

Sí. CertiDevs permite integración mediante API REST, webhooks y exportación XLSX automatizada para sincronizar candidatos, resultados y puntuaciones con el ATS corporativo. Para ATS habituales en España se proporciona configuración guiada durante el alta.

¿Es compatible con GDPR y la protección de datos de candidatos?

Sí. CertiDevs es multi-tenant aislado: cada empresa accede únicamente a sus candidatos y resultados. Los datos se almacenan en infraestructura europea, se firma DPA con el cliente y existen políticas de retención configurables para purgar candidatos descartados según el plazo legal aplicable.

¿Qué pasa si el candidato usa ChatGPT, Copilot o Claude para hacer la prueba?

El servicio IntegritySignalService analiza cada entrega buscando indicadores de generación por IA: keywords ocultas tipo honeytoken, antipatrones de estilo, comentarios autogenerados, estructura sospechosa de soluciones idénticas a las habituales de modelos generativos y discrepancias entre código entregado y nivel demostrado en otras preguntas. El sistema marca la entrega con una señal de riesgo que RRHH puede revisar antes de avanzar al candidato.

¿Se pueden personalizar las pruebas con ejercicios propios de la empresa?

Sí. Cualquier empresa con rol ROLE_TALENT_ADMIN puede crear ejercicios propios en los ocho formatos del producto, definir rúbricas por criterio, fijar pesos y tiempo máximo, y combinar ejercicios de su catálogo privado con los del catálogo oficial. También existe opción white-label para presentar la prueba bajo dominio y branding del cliente.

8. Próximos pasos

Si has llegado hasta aquí, probablemente ya tienes en mente uno o dos puestos donde el screening actual está costando más tiempo del razonable. Tres caminos para avanzar, en orden de profundidad:

Explorar las pruebas técnicas listas: revisar el detalle del módulo y de las pruebas oficiales por stack en pruebas técnicas para empresas.
Ver el flujo desde RRHH: entender cómo se integra el screening en el día a día del equipo de selección en RRHH y selección técnica.
Agendar una demo de treinta minutos: conocer el módulo Talent en directo aplicado a un puesto real de tu empresa.

Recupera horas de senior y filtra candidatos con criterio

Módulo Talent con los ocho formatos de evaluación, detección de uso de IA, IDE en navegador, sandbox de ejecución y panel completo para RRHH. Multi-tenant aislado y compatible con GDPR. Sin coste de setup ni permanencia.

Agendar demo Ver pruebas técnicas

Contenido