28/7/25, 1:54 p.m.
about:blank
  Laboratorio: Prompts Multimodales
  Tiempo Estimado: 30 mins
  Objetivos de Aprendizaje
  Al final de este laboratorio, podrás:
        Resumir contenido multimodal de un documento PDF utilizando IA generativa
        Analizar y extraer puntos de datos clave de una imagen utilizando técnicas de aviso multimodal
        Generar una narrativa creativa o descripción inspirada en una imagen visual
  Introducción
  Los prompts multimodales son uno de los avances clave en el campo en constante evolución de la IA. Permiten a los modelos de IA generativa (GenAI) aprovechar contenido de diferentes modalidades (como texto e imágenes)
  y proporcionar una respuesta más robusta y estructurada a las consultas de los usuarios.
  En este laboratorio, utilizarás herramientas de GenAI disponibles públicamente como ChatGPT de OpenAI y Gemini de Google para explorar cómo estas herramientas interpretan y responden a entradas multimodales.
  Experimentarás combinando texto e imágenes en tus prompts para observar cómo cada herramienta maneja la comprensión contextual, el razonamiento y la creatividad a través de diferentes modalidades. Al final del
  laboratorio, obtendrás experiencia práctica en la creación de prompts multimodales efectivos y desarrollarás una comprensión más profunda de las capacidades y limitaciones de los sistemas de IA multimodal actuales. Para las
  tareas incluidas en el laboratorio, puedes trabajar con cualquiera de las dos herramientas: ChatGPT o Gemini.
        Nota Importante: Todos los documentos e imágenes utilizados en los ejemplos que siguen son generados sintéticamente con el propósito de este laboratorio.
  Tarea 1: Análisis de contenido multimodal en PDF
  Escenario: Eres parte de un equipo de investigación que analiza cómo se está adoptando GenAI en tareas cotidianas. Tu equipo ha recibido un informe de encuesta en PDF titulado “Adopción de GenAI en Tareas Diarias”, que
  incluye una mezcla de texto, tablas y gráficos. En esta tarea, utilizarás un modelo GenAI multimodal para extraer información tanto de los elementos textuales como visuales del documento. Tu objetivo es entender qué tan bien
  interpreta el modelo contenido complejo y multimodal y evaluar su capacidad para resumir hallazgos, identificar tendencias y responder preguntas específicas basadas en el PDF.
  El documento PDF requerido está disponible aquí.
  Adopción de GenAI en Tareas Diarias
  Ejemplos de prompts
     1. Prompt de muestra para resumir el documento multimodal.
               Resume brevemente los hallazgos clave de esta encuesta en PDF, incluyendo tanto el texto como cualquier dato visual como gráficos o tablas.
           Haz clic aquí para ver una respuesta de muestra
     2. Prompt de muestra para extraer estadísticas sobre las tareas diarias más realizadas donde los usuarios utilizan GenAI, según la información del PDF.
               ¿Cuáles son las tareas diarias más comunes donde los usuarios reportan adoptar GenAI, según el contenido de este documento?
about:blank                                                                                                                                                                                                                          1/5
28/7/25, 1:54 p.m.                                                                                                      about:blank
          Haz clic aquí para ver una respuesta de muestra
     3. Prompt de muestra para generar recomendaciones para mejorar la adopción de GenAI
              Según los resultados de la encuesta en este PDF, ¿qué recomendaciones harías para mejorar la adopción de GenAI en los flujos de trabajo diarios?
          Haz clic aquí para ver una respuesta de muestra
  Tarea 2: Análisis de imágenes
  Escenario: Seguimiento de gastos personales
  Eres parte de un equipo de análisis de consumidores para una cadena de supermercados. Te han dado el recibo (como una imagen) de la compra de un cliente en Fresh Foods Market. Tu objetivo es extraer información del recibo
  para apoyar varios objetivos comerciales y de atención al cliente, como la planificación de inventario, comparación de precios, cálculos de impuestos y análisis de tendencias.
  La imagen del recibo se comparte a continuación. Puedes copiar la imagen y pegarla en el cuadro de mensaje de una herramienta de IA generativa.
  Ejemplos de indicaciones
     1. Ejemplo de indicación para extraer datos de la imagen.
              Extraer la lista de todos los artículos comprados, incluyendo cantidades, precios unitarios y precios totales.
about:blank                                                                                                                                                                                                                   2/5
28/7/25, 1:54 p.m.                                                                                                         about:blank
          Haz clic aquí para ver la respuesta de ejemplo
     2. Ejemplo de indicación para realizar razonamiento matemático y calcular el precio promedio por categoría de artículo.
              Calcular el precio promedio por categoría de artículo (frutas y verduras, lácteos, carne, despensa).
          Haz clic aquí para ver la respuesta de ejemplo
     3. Ejemplo de indicación para la toma de decisiones y optimización: Una indicación para analizar los artículos comprados y sugerir cuáles podrían omitirse o reemplazarse por alternativas más baratas para mantenerse dentro
        del presupuesto (de $80).
              Imagina que este comprador tenía un presupuesto estricto de $80 para este viaje. Basado en los artículos comprados, ¿qué artículos, si es que hay alguno, podrían haber sido omitidos o cambiados
          Haz clic aquí para ver la respuesta de ejemplo
  Tarea 3: Generación de contenido creativo
  Escenario: Eres un diseñador de contenido para una aplicación de narrativa inmersiva que genera contenido creativo personalizado basado en las fotos que los usuarios suben. Tu tarea es desarrollar un texto escrito, inspirado
  en una imagen misteriosa enviada por un usuario: un sereno paisaje alpino al atardecer, con una pequeña cabaña, una fogata brillante y cuatro personas reunidas alrededor de ella.
  La imagen relevante se comparte a continuación. Puedes copiar la imagen y pegarla en el cuadro de mensaje de una herramienta de IA generativa.
about:blank                                                                                                                                                                                                                          3/5
28/7/25, 1:54 p.m.                                                                                             about:blank
  Ejemplos de prompts
     1. Prompt de muestra para generar un cuento corto.
              Escribe un cuento corto inspirado en esta imagen. Concéntrate en las personas alrededor de la fogata y qué las trae a este lugar remoto al atardecer.
          Haz clic aquí para la respuesta de muestra
     2. Prompt de muestra para generar una respuesta poética.
              Genera un poema o una pieza lírica que capture el estado de ánimo y la belleza de este paisaje al anochecer, reflexionando sobre temas de naturaleza, conexión o tranquilidad.
          Haz clic aquí para la respuesta de muestra
  Conclusión
about:blank                                                                                                                                                                                    4/5
28/7/25, 1:54 p.m.                                                                                                      about:blank
  Este laboratorio demostró el poder de la inteligencia artificial multimodal, mostrando cómo los modelos de GenAI pueden procesar y comprender información no solo a partir de texto, sino también de imágenes y documentos
  complejos como PDFs que combinan ambos. Al utilizar indicaciones multimodales, experimentaste de primera mano cómo la IA puede interpretar contenido visual, extraer información de texto e imágenes integrados, y generar
  respuestas creativas que se basan tanto en la visión como en la lectura. Esta capacidad refleja la creciente habilidad de GenAI para interactuar con los datos de maneras que se acercan más a la percepción humana, abriendo
  posibilidades para un análisis más rico, una recuperación de información más intuitiva y una creación de contenido innovadora a partir de diversas fuentes.
  Autor(es)
  Abhishek Gagneja
  Change Logs
   Fecha                                 Versión                      Cambiado por                                             Descripción del cambio
   2025-05-11                            0.1                          Abhishek Gagneja                                         Versión inicial creada
   2025-05-15                            0.2                          Vibhuti                                                  Contenido revisado y modificado
   2025-05-15                            0.2                          Rahul Rawat                                              Pase de control de calidad
about:blank                                                                                                                                                                                                                   5/5