Evaluación con IA - Corrección automática de ejercicios

Q: ¿Detectáis entregas generadas con ChatGPT o asistentes de IA?

Sí. Al evaluar código, proyectos o ensayos, el sistema analiza patrones característicos de contenido generado por LLMs y marca con un indicador de sospecha las entregas con alta probabilidad de haber sido producidas por IA. La señal es orientativa y nunca invalida una entrega automáticamente: la decisión la toma siempre el evaluador. Para pruebas decisivas se recomienda contrastar con entrevista técnica o defensa oral.

Cinco formatos de ejercicio, corrección automatizada en todos

Cada formato evalúa una dimensión distinta del conocimiento técnico. Los tres formatos abiertos (Código, Proyecto y Ensayo) se evalúan mediante LLM con rúbrica configurable.

Test

Preguntas y respuestas múltiples. Corrección instantánea.

Instantáneo

Puzle

Rellena el hueco con la respuesta correcta.

Instantáneo

IA

Código

Snippets en Monaco Editor. Evaluación con LLM.

IA

Proyecto

Proyectos multiarchivo. Rúbrica y feedback detallado.

IA

Ensayo

Editor WYSIWYG con imágenes. Rúbrica personalizada.

IA

Cómo opera la evaluación automatizada

Un flujo cerrado que traslada el coste de corrección de horas-persona a procesamiento automatizado, sin perder trazabilidad ni control del responsable formativo.

1

El alumno entrega

El alumno completa el ejercicio de código, proyecto o ensayo y pulsa "Evaluar ejercicio".

2

IA analiza

Un LLM procesa la respuesta evaluando sintaxis, lógica, estructura, buenas prácticas y criterios de rúbrica.

3

Feedback instantáneo

Calificación numérica 1-10 y feedback narrativo personalizado con lo que está bien y qué mejorar.

Reto Código

Ejercicios de código con Monaco Editor

El alumno trabaja en un editor profesional integrado en el navegador. Escribe código real en el lenguaje del curso, lo ejecuta y recibe evaluación con feedback razonado, sin necesidad de provisionar entornos locales ni gestionar versiones de SDK.

Monaco Editor integrado
El mismo editor que usa VS Code, directamente en el navegador.
Entorno específico
Configuración automática según la tecnología del curso (Java, Python, JS...).
Evaluación con LLM
Calificación 1-10 y feedback detallado explicando qué está bien y qué mejorar.

solution.java

public class Solution {
    public static void main(String[] args) {
        // Completa el método
        // que devuelve la suma de
        // dos números
        
        return sum(a, b);
    }
}

Evaluación 8.5/10

Correcto: La lógica de suma es correcta. Mejorar: Añade validación para valores nulos y considera usar BigDecimal para mayor precisión.

Explorador de archivos

src

App.java

Controller.java

Service.java

pom.xml

Reto Proyecto 9/10

Arquitectura: 9/10 - Buena separación de capas.
Buenas prácticas: 8/10 - Añade comentarios Javadoc.
Funcionalidad: 10/10 - Cumple todos los requisitos.

Reto Proyecto

Proyectos completos con VSCode

El formato de evaluación más exigente. El alumno entrega un proyecto multiarchivo siguiendo una estructura realista. Puede desarrollarlo en un IDE web completo, importarlo desde un repositorio Git o subirlo como paquete ZIP. La rúbrica configurable pondera arquitectura, calidad de código, cumplimiento de requisitos y cobertura de pruebas.

VSCode completo en navegador
Mismo entorno que el IDE de escritorio, sin instalar nada.
Integración GitHub
El alumno puede clonar y hacer push directamente.
Rúbrica configurable
Define criterios específicos con peso en la calificación final.

Casos de uso en organizaciones

La evaluación automatizada cubre escenarios de formación interna, procesos de selección técnica y diagnóstico de nivel previo en programas formativos.

Formación continua

Cursos internos para empleados

Los empleados completan ejercicios de código como parte de su formación. Reciben feedback inmediato sin esperar corrección del formador. El equipo de RRHH consulta resultados sin revisar código.

Pruebas técnicas

Selección de candidatos

Envía ejercicios de código a candidatos. Recibe calificaciones objetivas y comparativas sin necesidad de que el equipo técnico revise cada entrega. Solo los mejores pasan a entrevista.

Pruebas de nivel

Clasificación inicial de alumnos

Mide el nivel real de alumnos antes de asignar formación. Ideal para academias y centros FP que necesitan clasificar por nivel al inicio de un curso.

Autoformación

Aprende a tu ritmo con feedback

Alumnos individuales practican con ejercicios de código y reciben feedback como si tuvieran un tutor personal. Iteran hasta dominar cada concepto.

Integridad académica

Detección de entregas generadas por IA

Al evaluar código, proyectos o ensayos, el sistema señala las entregas con patrones característicos de contenido producido por modelos generativos. Es una señal de apoyo a la decisión, no una invalidación automática: la resolución final corresponde siempre al responsable formativo o de selección.

Análisis estilométrico
Estructuras repetitivas, vocabulario uniforme, comentarios sobreexplicativos y patrones de formato típicos de modelos generativos.
Análisis de código
Convenciones de nombrado, idiomas mezclados en identificadores y soluciones "demasiado limpias" para el nivel del ejercicio.
Resultado orientativo, no automático
No invalidamos entregas por nuestra cuenta: la sospecha se muestra como alerta para que el evaluador o el responsable de RRHH decida cómo proceder.

Ningún detector de contenido generado por IA es infalible. Recomendamos contrastar siempre con entrevista técnica o defensa oral cuando la prueba es decisiva.

Sospecha de IA Entrega #142

Patrón detectado

Estructura repetitiva en funciones

Patrón detectado

Comentarios sobreexplicativos sobre cada línea

Nivel de confianza

Alto

Recomendación del sistema

Revisar manualmente o pedir defensa oral antes de aceptar la entrega.

Lenguajes y rendimiento

Las rúbricas y modelos están afinados para los lenguajes más demandados del mercado. El feedback se genera en segundos y queda registrado para auditoría y FUNDAE.

Lenguajes evaluados

Java, Python, JavaScript, TypeScript, C#, Go, Kotlin, PHP, SQL, HTML/CSS y los frameworks habituales (Spring, Django, FastAPI, React, Angular, Vue, .NET, Node).

Otras tecnologías (Rust, Scala, etc.) disponibles bajo petición durante la fase de diseño instruccional.

Latencia típica

Entre 5 y 30 segundos por evaluación. Los retos Código se resuelven en la franja baja; los retos Proyecto y Ensayo con rúbricas extensas pueden acercarse a los 30 segundos.

El alumno ve un estado "evaluando" mientras tanto y puede continuar con la siguiente lección.

Privacidad y datos

Las entregas de los alumnos se procesan en modelos LLM dedicados a evaluación y no se utilizan para reentrenar modelos generales. Operación bajo cumplimiento RGPD, con encargos de tratamiento firmados con todos los subencargados.

Acuerdos de tratamiento de datos disponibles para los departamentos de DPO y compliance.

Preguntas frecuentes

¿Cómo evalúa la IA el código de los ejercicios?

La IA analiza el código usando un LLM (Large Language Model) entrenado con las mejores prácticas de programación. Evalúa sintaxis, lógica, estructura, buenas prácticas y si cumple con los requisitos del ejercicio. Asigna una calificación de 1 a 10 y genera feedback personalizado explicando qué está bien, qué puede mejorar y por qué.

¿Qué tipos de ejercicios se evalúan con IA?

Se evalúan con IA los ejercicios de tipo reto Código, reto Proyecto y reto Ensayo. Los ejercicios de tipo reto Test y reto Puzle tienen corrección automática basada en reglas, más rápida pero sin feedback narrativo.

¿Se pueden personalizar las rúbricas de evaluación?

Sí. Para ejercicios de código, proyecto y ensayo, puedes configurar rúbricas personalizadas con criterios específicos. Cada criterio tiene un peso en la calificación final y la IA evalúa según esos criterios.

¿Cuánto tarda la evaluación con IA?

La evaluación típicamente toma entre 5 y 30 segundos dependiendo de la complejidad del ejercicio. Ejercicios de código simples se evalúan en segundos; proyectos más grandes pueden tardar algo más.

¿Qué diferencia hay entre el reto Código y el reto Proyecto?

El reto Código consiste en ejercicios con snippets de código para completar en Monaco Editor. El reto Proyecto consiste en proyectos completos con múltiples archivos y carpetas, evaluados contra una rúbrica más completa. El reto Proyecto puede desarrollarse en VSCode completo en el navegador, desde GitHub o como ZIP.

¿Detectáis entregas generadas con ChatGPT o asistentes de IA?

Sí. Cuando el sistema evalúa una entrega de código, proyecto o ensayo, analiza patrones característicos de contenido generado por LLMs (estructuras repetitivas, vocabulario uniforme, convenciones atípicas en código) y marca con un indicador de sospecha aquellas entregas con alta probabilidad de haber sido generadas por IA. La señal es orientativa: nunca invalida una entrega automáticamente. La decisión la toma siempre el evaluador o el responsable de RRHH. En pruebas decisivas recomendamos contrastar con entrevista técnica o defensa oral.

¿Qué lenguajes y frameworks puede evaluar?

Tenemos rúbricas y prompts afinados para los lenguajes más extendidos en el mercado español: Java, Python, JavaScript, TypeScript, C#, Go, Kotlin, PHP, SQL y HTML/CSS. A nivel de framework cubrimos Spring (Boot, Data, Security), Django, FastAPI, .NET, Node.js, Express, NestJS, React, Angular, Vue y los frameworks habituales de testing (JUnit, Pytest, Jest, Cypress). Otras tecnologías se pueden incorporar bajo petición durante el diseño instruccional del curso.

¿Dónde se procesan las entregas y los datos de los alumnos?

Las entregas se procesan en modelos LLM dedicados a evaluación a través de proveedores con contrato de encargo de tratamiento firmado. El contenido enviado por los alumnos no se utiliza para reentrenar modelos generales. Toda la operativa cumple con el RGPD y la LOPDGDD vigentes, y proporcionamos a tu DPO la documentación necesaria para incorporarnos a vuestro registro de actividades de tratamiento.

Reduce horas de corrección técnica desde el primer mes

Calificación 1-10, feedback razonado por criterio y señal de generación por IA. Tu equipo de ingeniería deja de corregir manualmente; los responsables formativos toman decisiones con datos consistentes.

Ver evaluación IA en demo Ver evaluaciones

Característica

Pruebas técnicas Aplica la misma evaluación por IA a candidatos o pruebas de nivel para alumnos.

Característica

Tipos de ejercicios Test, Puzle, Código, Proyecto y Ensayo: cuál usar y cómo corrige cada uno.

Solución

Evaluación técnica y selección Cómo encaja la evaluación con IA en procesos de selección y assessment técnico.