[go: up one dir, main page]

0% encontró este documento útil (0 votos)
33 vistas5 páginas

Laboratorio - Prompts Multimodales

Cargado por

mmanriquezm2021
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
33 vistas5 páginas

Laboratorio - Prompts Multimodales

Cargado por

mmanriquezm2021
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 5

28/7/25, 1:54 p.m.

about:blank

Laboratorio: Prompts Multimodales


Tiempo Estimado: 30 mins

Objetivos de Aprendizaje

Al final de este laboratorio, podrás:

Resumir contenido multimodal de un documento PDF utilizando IA generativa


Analizar y extraer puntos de datos clave de una imagen utilizando técnicas de aviso multimodal
Generar una narrativa creativa o descripción inspirada en una imagen visual

Introducción
Los prompts multimodales son uno de los avances clave en el campo en constante evolución de la IA. Permiten a los modelos de IA generativa (GenAI) aprovechar contenido de diferentes modalidades (como texto e imágenes)
y proporcionar una respuesta más robusta y estructurada a las consultas de los usuarios.

En este laboratorio, utilizarás herramientas de GenAI disponibles públicamente como ChatGPT de OpenAI y Gemini de Google para explorar cómo estas herramientas interpretan y responden a entradas multimodales.
Experimentarás combinando texto e imágenes en tus prompts para observar cómo cada herramienta maneja la comprensión contextual, el razonamiento y la creatividad a través de diferentes modalidades. Al final del
laboratorio, obtendrás experiencia práctica en la creación de prompts multimodales efectivos y desarrollarás una comprensión más profunda de las capacidades y limitaciones de los sistemas de IA multimodal actuales. Para las
tareas incluidas en el laboratorio, puedes trabajar con cualquiera de las dos herramientas: ChatGPT o Gemini.

Nota Importante: Todos los documentos e imágenes utilizados en los ejemplos que siguen son generados sintéticamente con el propósito de este laboratorio.

Tarea 1: Análisis de contenido multimodal en PDF

Escenario: Eres parte de un equipo de investigación que analiza cómo se está adoptando GenAI en tareas cotidianas. Tu equipo ha recibido un informe de encuesta en PDF titulado “Adopción de GenAI en Tareas Diarias”, que
incluye una mezcla de texto, tablas y gráficos. En esta tarea, utilizarás un modelo GenAI multimodal para extraer información tanto de los elementos textuales como visuales del documento. Tu objetivo es entender qué tan bien
interpreta el modelo contenido complejo y multimodal y evaluar su capacidad para resumir hallazgos, identificar tendencias y responder preguntas específicas basadas en el PDF.

El documento PDF requerido está disponible aquí.


Adopción de GenAI en Tareas Diarias

Ejemplos de prompts

1. Prompt de muestra para resumir el documento multimodal.


Resume brevemente los hallazgos clave de esta encuesta en PDF, incluyendo tanto el texto como cualquier dato visual como gráficos o tablas.

Haz clic aquí para ver una respuesta de muestra

2. Prompt de muestra para extraer estadísticas sobre las tareas diarias más realizadas donde los usuarios utilizan GenAI, según la información del PDF.

¿Cuáles son las tareas diarias más comunes donde los usuarios reportan adoptar GenAI, según el contenido de este documento?

about:blank 1/5
28/7/25, 1:54 p.m. about:blank

Haz clic aquí para ver una respuesta de muestra

3. Prompt de muestra para generar recomendaciones para mejorar la adopción de GenAI

Según los resultados de la encuesta en este PDF, ¿qué recomendaciones harías para mejorar la adopción de GenAI en los flujos de trabajo diarios?

Haz clic aquí para ver una respuesta de muestra

Tarea 2: Análisis de imágenes


Escenario: Seguimiento de gastos personales

Eres parte de un equipo de análisis de consumidores para una cadena de supermercados. Te han dado el recibo (como una imagen) de la compra de un cliente en Fresh Foods Market. Tu objetivo es extraer información del recibo
para apoyar varios objetivos comerciales y de atención al cliente, como la planificación de inventario, comparación de precios, cálculos de impuestos y análisis de tendencias.

La imagen del recibo se comparte a continuación. Puedes copiar la imagen y pegarla en el cuadro de mensaje de una herramienta de IA generativa.

Ejemplos de indicaciones

1. Ejemplo de indicación para extraer datos de la imagen.


Extraer la lista de todos los artículos comprados, incluyendo cantidades, precios unitarios y precios totales.

about:blank 2/5
28/7/25, 1:54 p.m. about:blank

Haz clic aquí para ver la respuesta de ejemplo

2. Ejemplo de indicación para realizar razonamiento matemático y calcular el precio promedio por categoría de artículo.
Calcular el precio promedio por categoría de artículo (frutas y verduras, lácteos, carne, despensa).

Haz clic aquí para ver la respuesta de ejemplo

3. Ejemplo de indicación para la toma de decisiones y optimización: Una indicación para analizar los artículos comprados y sugerir cuáles podrían omitirse o reemplazarse por alternativas más baratas para mantenerse dentro
del presupuesto (de $80).
Imagina que este comprador tenía un presupuesto estricto de $80 para este viaje. Basado en los artículos comprados, ¿qué artículos, si es que hay alguno, podrían haber sido omitidos o cambiados

Haz clic aquí para ver la respuesta de ejemplo

Tarea 3: Generación de contenido creativo


Escenario: Eres un diseñador de contenido para una aplicación de narrativa inmersiva que genera contenido creativo personalizado basado en las fotos que los usuarios suben. Tu tarea es desarrollar un texto escrito, inspirado
en una imagen misteriosa enviada por un usuario: un sereno paisaje alpino al atardecer, con una pequeña cabaña, una fogata brillante y cuatro personas reunidas alrededor de ella.

La imagen relevante se comparte a continuación. Puedes copiar la imagen y pegarla en el cuadro de mensaje de una herramienta de IA generativa.

about:blank 3/5
28/7/25, 1:54 p.m. about:blank

Ejemplos de prompts

1. Prompt de muestra para generar un cuento corto.


Escribe un cuento corto inspirado en esta imagen. Concéntrate en las personas alrededor de la fogata y qué las trae a este lugar remoto al atardecer.

Haz clic aquí para la respuesta de muestra

2. Prompt de muestra para generar una respuesta poética.


Genera un poema o una pieza lírica que capture el estado de ánimo y la belleza de este paisaje al anochecer, reflexionando sobre temas de naturaleza, conexión o tranquilidad.

Haz clic aquí para la respuesta de muestra

Conclusión

about:blank 4/5
28/7/25, 1:54 p.m. about:blank
Este laboratorio demostró el poder de la inteligencia artificial multimodal, mostrando cómo los modelos de GenAI pueden procesar y comprender información no solo a partir de texto, sino también de imágenes y documentos
complejos como PDFs que combinan ambos. Al utilizar indicaciones multimodales, experimentaste de primera mano cómo la IA puede interpretar contenido visual, extraer información de texto e imágenes integrados, y generar
respuestas creativas que se basan tanto en la visión como en la lectura. Esta capacidad refleja la creciente habilidad de GenAI para interactuar con los datos de maneras que se acercan más a la percepción humana, abriendo
posibilidades para un análisis más rico, una recuperación de información más intuitiva y una creación de contenido innovadora a partir de diversas fuentes.

Autor(es)
Abhishek Gagneja

Change Logs

Fecha Versión Cambiado por Descripción del cambio

2025-05-11 0.1 Abhishek Gagneja Versión inicial creada

2025-05-15 0.2 Vibhuti Contenido revisado y modificado

2025-05-15 0.2 Rahul Rawat Pase de control de calidad

about:blank 5/5

También podría gustarte