Comprender qué es un prompt y cómo se estructura Entender cómo interactuar con modelos de lenguaje como ChatGPT Explorar el funcionamiento general de los LLMs Reflexionar sobre el impacto de la IA generativa en la producción de texto, imagen, audio y video
Ejemplo básico:
“Resume el siguiente texto en 3 puntos clave…”
Claro: sin ambigüedades Contextual: aporta detalles importantes Específico: delimita lo que se espera Iterativo: puede ajustarse con retroalimentación
Fuente: BabelTeam
Prompt simple:
¿Qué es el cambio climático?
Prompt mejorado:
Explica el cambio climático en lenguaje sencillo para estudiantes de secundaria, usando ejemplos de América Latina.
“Large Language Models” o Modelos de Lenguaje de Gran Escala Entrenados con miles de millones de palabras
Capaces de:
Aprenden patrones estadísticos en el lenguaje No “entienden” como los humanos, pero predicen tokens Se entrenan con transformers y GPUs en grandes infraestructuras
Fuente: IBM
Las palabras no se tratan como cadenas de letras (“gato”, “cat”) sino como vectores de decenas o miles de dimensiones. Ejemplo: “cat” podría estar representado como [0.0074, 0.0030, -0.0105, …] en un espacio vectorial. Esto permite razonar sobre similitud: “dog” está cerca de “cat”, “kitten” está cerca de “cat”.
Una palabra como “banco” puede referirse a institución financiera o asiento junto al río. Los LLM pueden representar la misma palabra con vectores distintos dependiendo del contexto. Esto es lo que permite que los modelos distingan significados en función de la frase.
Los LLM usan la arquitectura de transformer (introducida en 2017) como componente principal. Cada capa del modelo toma los vectores de entrada y produce nuevos vectores de “estado oculto” que capturan información de contexto.
Dentro de cada capa hay dos fases clave:
Por ejemplo: GPT‑3 tenía 96 capas, vectores de ~12 288 dimensiones, ~175 000 millones de parámetros. El entrenamiento: no requieren etiquetas humanas explícitas; se entrenan con el objetivo de predecir la siguiente palabra/token en el texto. Con esto aprenden patrones de lenguaje que luego permiten generar contenido coherente.
Las capas de atención recuperan información del “prompt” o contexto dado. Las capas feed‑forward “recuerdan” información aprendida durante el entrenamiento (datos externos al prompt) y la aplican. Ejemplo: un modelo puede predecir “Varsovia” como capital de Polonia aunque no aparezca explícitamente en el prompt, porque “Aprendió” esa relación durante el entrenamiento.
Texto: redacción, resúmenes, correos, artículos Imagen: generación de arte, diseño, simulación Audio: síntesis de voz, música, doblaje Video: edición automatizada, generación por IA
Desinformación Alucinaciones (respuestas falsas) Privacidad y sesgos Dependencia tecnológica
Herramientas como ChatGPT o Claude generan ensayos, respuestas y diálogos. También pueden escribir bloques de código, generar pruebas o traducir entre lenguajes.
Gen AI para texto‑a‑imagen: por ejemplo, Adobe Firefly permite generar imágenes a partir de prompts. También hay herramientas que permiten edición inteligente, “relleno generativo” y variaciones estilísticas.
Audio: modelos que generan música, voz o efectos de sonido a partir de texto o prompts. Video: herramientas emergentes de texto‑a‑video o imagen‑a‑video como Veo 3 de Google DeepMind.
Marketing: creación automática de imágenes, textos y contenido para campañas. Finanzas: redacción de reportes, análisis de regulaciones, atención al cliente personalizada. Desarrollo de software: autogeneración de código, casos de prueba, revisión automatizada. Entretenimiento/medios: efectos especiales, compilados deportivos, narrativas interactivas.
Aunque muy potentes, estos modelos no “entienden” como humanos, sino que predicen lo que estadísticamente sigue. Riesgos: sesgos en datos, “alucinaciones”, propiedad intelectual, privacidad, uso malicioso. Es esencial la supervisión humana, validación y ética en su aplicación.
Un LLM transforma texto en vectores, usa capas de atención + feed‑forward, entrena a gran escala para predecir tokens. Las aplicaciones van más allá del texto: imagen, audio, video, diseño, software. No es magia: hay límites, y el prompt sigue siendo esencial para guiar el modelo.
¿Qué hace que un prompt sea efectivo? ¿Hasta qué punto confías en lo que produce una IA generativa? ¿Qué aplicaciones de esta tecnología imaginas en tu carrera?