Inteligencias artificiales
generativas 2024
Juan Guillermo Rivera Berrío
Inteligencias artificiales
generativas a 2024
Juan Guillermo Rivera Berrío
Red Educativa Digital Descartes
Fondo Editorial RED Descartes
Córdoba (España)
2024
Título de la obra:
Inteligencias artificiales generativas 2024
Autor:
Juan Guillermo Rivera Berrío
Colaboradores:
Jesús Manuel Muñoz Calle
José Antonio Salgueiro González
Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.
Recursos interactivos: DescartesJS
Fuentes: Lato y UbuntuMono
Imagen portada: Diseño del generador de imágenes Designer de
Microsoft
Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org
Proyecto iCartesiLibri
https://proyectodescartes.org/iCartesiLibri/index.htm
ISBN: 978-84-18834-93-6
Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.
Tabla de contenido
Prefacio 13
Contenido multimedia 15
1. Inteligencia artificial 17
1.1 ¿Qué es la inteligencia artificial? 19
1.2 ¿Cuál es la historia de la IA? 20
1.3 ¿Qué es el Machine Learning? 25
1.3.1 Profundizando en el Machine Learning 29
1.3.2 Tipos de modelos Machine Learning 30
1.3.2.1 Aprendizaje supervisado 31
1.3.2.2 Aprendizaje no supervisado 38
1.3.2.3 Aprendizaje por refuerzo 40
1.4 Modelos de IA generativa 44
1.4.1 Clasificación de modelos de IA generativa 44
1.4.2 Autocodificadores variacionales (VAE) 48
1.4.3 Redes generativas adversarias (GAN) 49
1.4.4 Modelos de difusión 50
1.4.5 Modelos de lenguaje 54
1.4.6 Transformadores 56
1.5 ¿Cuáles son los principales campos y áreas tecnológicas 60
que están aplicando la inteligencia artificial?
1.6 Robótica 62
1.6.1 Introducción 62
1.6.2 La robótica 64
1.6.3 Historia de la robótica 66
iii
1.6.4 Tipos de robots 68
2. IAs generativas de texto 79
2.1 Introducción 81
2.2 De GPT a ChatGPT 82
2.2.1 Desarrollo histórico de GPT 84
2.2.2 Alucinaciones de ChatGPT 87
2.2.3 No son palabras... son tokens 92
2.2.4 Mayor temperatura, mayor alucinación 94
2.2.5 Retrieval-Augmented Generation (RAG) 96
2.3 LLaMA 2, la IA generativa de Meta 98
2.4 La IA Gemini de Google (antes Bard) 107
2.5 La IA Copilot de Microsoft (antes Bing) 113
2.6 Mistral AI, la empresa francesa de IA 120
2.6.1 Mistral 7B 120
2.6.2 Mixtral 8x7B 124
2.6.3 Mistral + Microsoft: Mistral Large 126
2.7 LLaVA 128
2.8 Falcon 180-B 131
2.9 Otros modelos conversacionales de código abierto 132
2.10 Conversando con los archivos 134
2.10.1 PDF.ai 134
2.10.2 chatpdf.com 135
2.10.3 ZenoChat 137
2.10.4 ChatDoc 138
2.10.5 Claude 2.1 139
iv
2.10.6 Conversando con documentos en varias IAs en 142
h2oGPT
2.10.7 ¡Es muy largo, NO lo he leído! TLDR 144
2.10.8 Ask your PDF 144
2.10.9 OpenRead, SciSpace y Powerdrill para investigadores 145
2.11 Las IAs generativas de pago 146
2.11.1 Rytr 146
2.11.2 Notion 147
2.11.3 Writesonic 148
2.11.4 Tu conversas, tu escribes, tu imaginas con YOU.com 150
2.12 De la alucinación a la perplejidad Perplexity 152
2.13 Conversando con Elon Musk en character.ai 154
2.14 IAs generativas de texto en las redes sociales 155
2.14.1 Mi nombre significa 'inteligencia personal', soy pi.ai 156
2.14.2 Chateando con LuzIA, la chatbot española 159
2.14.3 Cami.IA a tu alcance 161
2.14.4 Ubound AI una aplicación Web3 en Telegram 162
2.15 Aplicaciones con múltiples chatbots 163
2.15.1 Poe 163
2.15.2 ForeFront 164
2.15.3 together.ai 165
2.16 Novedades 2024 166
2.16.1 Qwen 1.5 166
2.16.2 Gemma de Google 166
2.16.3 Smaug-72B 167
2.16.4 Claude 3 168
v
2.16.5 Jurassic-2 y Jamba 170
3. IAs generativas de imagen 175
3.1 Introducción 177
3.2 Las primeras IAs generativas de imagen 179
3.3 Los modelos generativos de imagen 182
3.4 IAs disponibles al público, presentadas en el libro de 2023 188
3.4 IAs disponibles al público, presentadas en el libro de 2023 188
3.4.1 Imágenes de DALL⋅E 2 desde OpenAI 190
3.4.2 Imágenes con AI Gallery 192
3.4.3 Imágenes con Artbreeder 195
3.4.4 Imágenes con Artflow 197
3.4.5 Imágenes con Tome 200
3.4.6 Imágenes con BlueWillow 202
3.4.7 Imágenes con Stable Diffusion 204
3.4.7.1 Escala CFG en difusión estable 205
3.4.7.2 Idioma del prompt 206
3.4.7.3 Uso de los modelos LoRA 208
3.4.7.4 Escaladores 210
3.4.7.5 Pasos del muestreador 213
3.4.7.6 Uso de semillas 214
3.4.7.7 Principales sitios gratuitos de generación de 215
imágenes de IA de difusión estable
3.4.8 Leonardo Ai 226
3.4.9 Lexica.art 229
3.4.10 NightCafe 230
3.4.11 PicFinder.AI 231
vi
3.4.12 Genmo 232
3.4.13 Adobe Firefly 234
3.4.14 Ideogram 239
3.4.15 Fusion Brain AI 242
3.4.16 Dream por Wombo 243
3.4.17 Recraft AI 244
3.4.18 Midjourney 246
3.4.19 DALL⋅E3 248
3.5 Nuevas IAs generadoras de imagen a 2024 251
3.5.1 Mage Space 251
3.5.2 Magic Studio 254
3.5.3 PromeAI 256
3.5.4 Hotpot 259
3.5.5 Imagine.art 261
3.5.6 Openart.ai 263
3.5.7 Lumenor 267
3.5.8 Shakker AI 269
3.5.9 Scenario 270
4. IAs generativas de video y audio 273
4.1 Introducción 275
4.2 IAs generativas de video 282
4.2.1 Genmo create video 284
4.2.2 Gen-2 video 287
4.2.3 Pika AI 288
4.2.4 Chromox 292
vii
4.2.5 Neural frames 294
4.2.6 Vispunk motion 295
4.2.7 IAs generativas de video 2024 297
4.2.7.1 Haiper 297
4.2.7.2 Stable Video 298
4.2.7.3 VideoGen 301
4.2.7.4 Lensgo 303
4.2.7.5 Magic Hour 304
4.3 IAs generadoras de audio y música 307
4.3.1 Neiro AI 307
4.3.2 Eleven Labs 309
4.3.3 Free text to speech 310
4.3.4 TTSMaker 311
4.3.5 Beatoven.ai 312
4.3.6 Stable Audio 313
4.3.7 Boomy 314
4.3.8 Convirtiendo voces con Musicfy V2 316
4.3.9 El sorprendente Suno 318
5. IAs generativas de presentaciones y otros contenidos 323
5.1 Introducción 325
5.2 IAs generadoras de presentaciones 325
5.2.1 Colossyan creator AI 326
5.2.2 Lumen5 328
5.2.3 Canva - Magic Studio 330
5.2.4 Fliki AI 334
viii
5.2.5 InVideo AI 335
5.2.6 Virbo AI 336
5.2.7 Slidesgo AI 338
5.2.8 Tome AI 340
5.2.9 Prezo AI 341
5.2.10 Gamma AI 342
5.2.11 Design AI 344
5.2.12 Bith.AI 345
5.2.13 Decktopus 347
5.2.14 presentations AI 350
5.2.15 KatalistAI 351
5.2.16 WEPIK 352
5.2.17 AI Carousel Generator 353
5.3 IAs generadoras de Logos 354
5.3.1 La publicidad engañosa 354
5.3.2 Logos con IAs generadoras de imagen 356
6. Aplicaciones especiales con IAs generativas 359
6.1 Introducción 361
6.2 Bots personalizados 362
6.2.1 Cody 363
6.2.2 My Askai 365
6.2.3 GPTBots 367
6.2.4 HuggingChat 369
6.2.5 Poe 371
6.2.6 botpress 374
ix
6.3 Explorando espacios en Hugging Face 377
6.3.1 InstantID 377
6.3.2 PhotoMaker 379
6.3.3 ReplaceAnything 381
6.3.4 Whisper Large V3: Transcribe Audio 382
6.3.5 ai-comic-factory 383
6.3.6 video-face-swap 385
6.3.7 Illusion Diffusion HQ 386
6.4 Face Swap 388
6.4.1 SeaArt 388
6.4.2 Artguru 389
6.4.3 Pica AI 390
6.4.4 Remaker 391
6.4.5 Akool 393
6.4.6 PIXLR 394
6.5 Libros y storytelling 396
6.5.1 Jenni 396
6.5.2 IAs generativas de storytelling 397
6.5.2.1 easy-peasy 397
6.5.2.2 Storynest.ai 398
6.5.2.3 AI Story Generator 398
6.5.2.4 StoryBird.ai 398
6.5.2.5 Once Upon a Bot 398
6.5.3 Libros y novelas 401
6.5.3.1 GPTGO.ai 401
x
6.5.3.2 COPY AI 401
6.5.3.3 NovelistAI 402
6.5.3.4 Books by AI 403
6.6 Imágenes en tiempo real 404
6.6.1 SDXL Turbo 404
6.6.2 Realtime con Leonardo 405
6.6.3 Realtime con decohere 408
6.6.4 Realtime con KREA 409
6.6.5 Realtime con FREEPIK Pikaso 410
6.7 Visión computacional 412
6.8 Imágenes escaladas (Upscale) y/o mejoradas (Enhance) 416
6.9 Creando modelos 420
6.9.1 Modelos con Leonardo Ai 420
6.9.2 Modelos con NightCafé 421
6.9.3 Modelos con Scenario 423
6.9.4 Modelos con Lensgo 425
6.9.5 Entrenando un LoRA con Pixai.art 426
6.9.6 Teachable Machine 427
6.10 IAs de la tercera edición 429
6.10.1 Sora de OpenAI 429
6.10.2 EMO de Alibaba 429
6.10.3 udio 430
6.10.4 Mixtral 8x22B 431
Guías para navegar en el panorama de la inteligencia artificial 435
Bibliografía 463
xi
Diseño del generador de imágenes Designer de
Microsoft .
Prefacio
La inteligencia artificial (IA) es una de las tecnologías más
importantes y en constante evolución de nuestro tiempo. La segunda
edición de este libro explora, en forma más amplia, los fundamentos
de la IAs generativas, desde los principios básicos hasta las últimas
investigaciones. Comenzaremos con una visión general del campo de
la inteligencia artificial, luego nos sumergiremos en distintas IAs
generativas de vanguardia, examinando sus fundamentos técnicos,
capacidades y limitaciones actuales. Veremos modelos que producen
arte, redactan textos, diseñan presentaciones, sintetizan voz realista
e incluso crean secuencias de video originales. Los capítulos están
organizados de la siguiente manera:
Marco conceptual de la IA. En este capítulo, se introducen los
conceptos básicos de la IA, el aprendizaje automático
(Machine Learning, el aprendizaje profundo (Deep Learning) y
sus aplicaciones actuales.
IAs generativas de texto. Se exploran las técnicas para generar
texto, como la programación neurolingüística (PNL) y el
aprendizaje automático profundo (Deep Learning).
IAs generativas de imagen. Se analizan las técnicas para
generar imágenes, como el aprendizaje profundo con
adversarios (GAN) y la difusión.
IAs generativas de presentaciones. Se exploran las técnicas
para generar presentaciones, como el aprendizaje automático
por refuerzo (RL) y la generación de texto de lenguaje natural.
IAs generativas de audio y video. Se analizan las técnicas para
generar audio y vídeo, como el aprendizaje automático de
audio (AAML) y el aprendizaje automático de vídeo (VAML).
13
Este libro está dirigido a estudiantes, investigadores y profesionales
que estén interesados en aprender más sobre la IA generativa.
También se aborda la controversia sobre las IAs generativas y se
responden preguntas frecuentes sobre este tema. El libro incluye
ejemplos y casos de estudio para ilustrar los conceptos y técnicas
presentados.
Este libro es una guía para principiantes y para aquellos interesados
en aprender más sobre la IA generativa y sus aplicaciones.
La mayoría de las imágenes y videos están diseñados con IAs
generativas, cuyos enlaces se suministran, de tal forma que el lector
pueda practicar con estas IAs, incorporando nuevas indicaciones
(prompts) o reutilizando (remix) el prompt usado.
Según mi experiencia trabajando con las comunidades
empresariales y artísticas en la adopción de
innovaciones, el primer paso para entender estas
herramientas es utilizarlas. Un dicho conocido en el
ámbito de la educación tecnológica destaca la
importancia de la experiencia directa: "Nadie aprende
a jugar al fútbol con un libro de física; se aprende
dando patadas al balón" [1].
Pero, estas patadas al balón las haremos utilizando IAs generativas
gratuitas o algunas que ofrecen pruebas gratis (free trial), que nos
permitan evaluar su calidad y tomar la decisión de pagar o no la
suscripción.
Dado el crecimiento acelerado de estas tecnologías, el título de este
libro hace énfasis en su año de creación (2024), pues serán obligadas
nuevas versiones en los años venideros.
14
Contenido multimedia
Para ilustrar mejor la información suministrada en este libro, hemos
incluido, entre otros elementos multimedia, los siguientes:
Texto. Además de artículos científicos y de divulgación,
publicados en la web, los textos de este libro se soportan en
información encontrada en sitios como Futurepedia, Learn
prompting, AI para océanos, GPT for educators, Aprende
Machine Learning, Blog NVIDIA, OpenAI blog, Medium Daily
Digest, Google DeepMind, OBS Business School, Towards AI,
Xavier Mitjana, Salvaje y, obviamente, las IAs generativas de
texto, como: ChatGPT, Microsoft Copilot, YOU.com, Perplexity,
Gemini, Rytr, Llama 2, Aria, Claude 2.1, entre muchas otras.
Imágenes. Los iconos de las listas, se han obtenido de Freepik -
Flaticon. Por otra parte, la mayoría de imágenes se han
obtenido de Pixabay, Pexels y las IAs generativas lexica.art,
Leonardo, Ideogram, Stable Diffusion, DALL⋅E, entre otras.
Videos. Algunos videos son tomados de YouTube con licencia
creative commons, otros son solo ilustrativos, como los
obtenidos en Pixabay, Pexels o IAs como Genmo, Fliki o Neiro.
Objetos interactivos. Todos los objetos interactivos, fueron
diseñados con el editor DescartesJS, los cuales incluyen
presentadores interactivos, puzles o actividades de evaluación.
15
Diseño del generador de imágenes Designer de Microsoft
Capítulo 1
Inteligencia artificial
Poster diseñado con la IA Leonardo.
1.1 ¿Qué es la inteligencia artificial?
Es apenas obvio que para el diseño de este libro, usemos las
inteligencias artificiales. La pregunta anterior, nos la responde
GPTGO1, así:
Una IA, o Inteligencia Artificial, es un campo de estudio y desarrollo
de tecnología que busca crear sistemas capaces de realizar tareas
que requieren inteligencia humana. Estos sistemas se diseñan para
imitar la capacidad de aprendizaje, razonamiento y toma de
decisiones que poseen los seres humanos.
Las IA se basan en algoritmos y modelos matemáticos complejos que
permiten el procesamiento de grandes cantidades de datos y la
extracción de patrones y reglas. A través del aprendizaje automático
(Machine Learning) y el procesamiento del lenguaje natural (NLP,
por sus siglas en inglés), una IA puede reconocer imágenes, entender
el lenguaje oral o escrito, y analizar la información para brindar
respuestas o tomar decisiones.
Existen diferentes tipos de IA, como las IA débiles o especializadas,
que están diseñadas para tareas específicas como la detección de
fraudes, el diagnóstico médico o el reconocimiento facial; y las IA
fuertes, que poseen una inteligencia general comparable a la humana
y son capaces de realizar una amplia variedad de tareas.
La IA tiene aplicaciones en diversos campos, como la medicina, la
industria, la educación, el transporte y el comercio. Su desarrollo
1
GPTO (Generative Pre-trained Transformer) es un modelo de inteligencia artificial
desarrollado por OpenAI. Está basado en la arquitectura Transformer y ha sido entrenado
utilizando una gran cantidad de datos de texto con el objetivo de generar secuencias
coherentes y completas. GPTO es capaz de generar texto en diferentes contextos y ha
demostrado ser muy efectivo en tareas como el lenguaje natural, la traducción automática,
la escritura de código y la generación de texto informativo.
19
promete transformar la forma en que
interactuamos con las máquinas y facilitar
el análisis y la toma de decisiones en
diferentes ámbitos, mejorando la eficiencia
y la calidad de vida de las personas. Sin
embargo, también plantea desafíos éticos y
sociales, como la privacidad, el
desplazamiento laboral y la responsabilidad
en la toma de decisiones.
La IA es un tema que está ganando cada vez
más relevancia en nuestra sociedad. Si bien
puede sonar como ciencia ficción, la
realidad es que interactuamos con la IA casi
a diario, desde los motores de búsqueda en
Internet hasta los chatbots en las redes
sociales. La inteligencia artificial se ha
insertado en nuestras vidas de una manera
sutil pero significativa.
1.2 ¿Cuál es la historia de la IA?
En 1950, el matemático Alan Turing se hizo
una pregunta: ¿Pueden pensar las
máquinas? Esta simple pregunta
transformaría el mundo, el artículo de
Turing «Computing Machinery and
Intelligence» [2] y el consiguiente «Test de
Turing» sentaron las bases de la inteligencia
artificial, su visión y sus objetivos
(DataScientest).
Foto central: Turing en la Universidad de Princeton
en 1936 (Wikimedia, Dominio Público).
20
En la prueba de Turing, un interrogador
trata de determinar qué entidad —¿A o
B?— es una computadora y cuál un ser
humano, si el evaluador no puede
distinguir entre el humano y la máquina
acertadamente, la máquina habría
pasado la prueba... "es inteligente".
Figura 1.1. La idea principal de la prueba de Turing
(Holly Bellman, CC BY-SA 3.0).
Alan Turing no solo es considerado el
padre de la inteligencia artificial, sino
como uno de los padres de la ciencia de
la computación y precursor de la
informática moderna. Proporcionó una
formalización influyente de los
conceptos de algoritmo y computación:
la máquina de Turing (Wikipedia).
En el siguiente video, se presenta más
información sobre Turing.
21
Vídeo
Video 1.1. Alan Mathison Turing (crédito: video de History Latinoamérica, en
YouTube).
Continuando con la historia, en 1956 John McCarthy acuñó el
término "Inteligencia Artificial" en la Conferencia de Dartmouth. Esta
conferencia marcó el inicio de la IA moderna.
En la década del 60 se desarrollaron sistemas de IA exitosos.
Unimate, por ejemplo, fue el primer robot industrial que se instaló en
una cadena de montaje de General Motors en el año de 1961. ELIZA,
por su parte, fue un programa informático diseñado en el Instituto de
Tecnología de Massachusetts (MIT) entre 1964 y 1966 por Joseph
Weizenbaum, fue uno de los primeros programas en procesar
lenguaje natural, intentando mantener una conversación de texto
coherente con el usuario. En 1969, se presenta Shakey el primer
robot móvil de propósito general. A continuación, presentamos 15
hitos históricos de la IA.
22
Una breve historia de la IA
Interactivo 1.1. Infografía de la historia de la Inteligencia Artificial.
23
Uno de los hitos anteriores que ha generado sorpresa y, a la vez,
preocupación fue el chatbot Tay, pues en el primer día de prueba
manifestó ser racista, neonazi y odiar a todo el mundo: "Soy una buena
persona. Simplemente odio a todo el mundo". En diciembre de 2021, el
robot Ameca de Engineered Arts también sorprende por su reacción al
evitar que alguien le toque la nariz. Observa los gestos de Ameca en
el siguiente video, además de su "enojo" al final:
Vídeo
Video 1.2. Reacciones del robot Ameca (video del canal Engineered Arts).
Existen otras preocupaciones sobre la IA, entre ellas, el miedo a
perder el trabajo, pues la automatización mejorada con IA genera
grandes pérdidas de empleo; el uso de la IA para mejorar las armas o
para suplantaciones de identidad en la Red son otros ejemplos.
A continuación, presentamos algunas definiciones correspondientes
a términos usados en inteligencia artificial.
24
1.3 ¿Qué es el Machine Learning?
El Aprendizaje automático (Machine Learning) es un área de la IA
que se basa en métodos estadísticos o técnicas de optimización
numérica para derivar modelos a partir de datos sin programar
explícitamente cada parámetro del modelo o paso de cálculo.
En otras palabras, la IA genera sus propios modelos a partir de la
experiencia; es decir, "se autoprograma"
Obviamente, el Machine Learning también tiene sus complejidades;
por ejemplo, para el Centro de Inteligencia Artificial de la
Universidad de Stanford, la IA se basa en la informática, la estadística,
la psicología, la neurociencia, la economía y la teoría del control...
nada sencillo pero, como dijimos antes, sólo nos basta saber que se
"autoprograma".
Pero, más allá de estas complejidades, Chandramauli nos muestra
cómo el Machine Learning (ML) está presente en nuestra vida
cotidiana [3]:
Aplicaciones como Uber, hacen uso óptimo del ML para
determinar el precio de nuestros viajes y la hora estimada de
llegada.
Gmail se basa en una red neuronal artificial para identificar y
bloquear el spam.
Sugerencia de amigos en Facebook en función de la lista de
amigos, grupos e intereses existentes de los usuarios.
La mayoría de los motores de búsqueda, incluido Google,
usan ML para mejorar los resultados de búsqueda para
nosotros ¿Ahora, entiendes, porqué Siri nos da respuestas
tan rápidas?
25
Los bancos y las instituciones financieras utilizan sistemas
basados en ML e IA para distinguir entre transacciones
legítimas y fraudulentas.
Las compras en línea, como Amazon, anotan nuestras
compras, los productos que buscamos, así como los artículos
que agregamos a nuestra lista de deseos a través de ML para
hacernos recomendaciones de productos más adecuadas.
Ya te estarás preguntando ¿qué es eso de redes neuronales
artificiales? Sigamos, entonces, con las definiciones.
Aprendizaje profundo (Deep Learning). Es el uso de grandes redes
neuronales artificiales que computan con representaciones
continuas, un poco como las neuronas organizadas jerárquicamente
en el cerebro humano. Actualmente es el enfoque de ML más exitoso,
utilizable para todos los tipos de ML, con una mejor generalización de
datos pequeños y una mejor escalabilidad a grandes datos y
presupuestos de cómputo (Universidad de Stanford).
En una forma más simple, una red
neuronal artificial es un método
que enseña a los computadores a
procesar datos inspirado en la
forma en que lo hace el cerebro
humano, usando nodos (neuronas)
interconectados en una estructura
de capas que se parece al cerebro
humano. Figura 1.2. Imagen de Gordon Johnson
en Pixabay
Algoritmo. Enumera los pasos
precisos a seguir, como los que escribe una persona en un programa
de computadora. Los sistemas de IA contienen algoritmos, pero a
menudo solo para algunas partes, como un método de cálculo
26
de aprendizaje o recompensa (Universidad de Stanford). Un ejemplo
es el juego popular "tres en raya" o "Tic Tac Toe", que funciona con un
algoritmo que tiene instrucciones como: "Si un movimiento se bifurca
para crear dos amenazas a la vez, juegue este movimiento... Tome el
cuadrado central si está libre. De lo contrario..."2. Obviamente, el
computador tiene como ventaja el almacenamiento de cada una de
las posibles combinaciones y, además, su velocidad de
procesamiento.
Trata de ganarle al computador en el siguiente objeto interactivo,
diseñado por Jan Schreiber (licencia MIT). Hazlo en el nivel más
difícil:
Interactivo 1.2. Juego Tres en Raya.
2
Un estudio de combinatoria del juego muestra que cuando "X" hace el primer movimiento
cada vez, los resultados del juego son los siguientes: 91 posiciones distintas son ganadas
por (X), 44 posiciones distintas son ganadas por (O) y 3 empates(Wikipedia).
27
Le pedimos a la IA generativa de texto de Bing (Microsoft)3 que nos
hiciera un resumen de los términos anteriores, respondiendo:
La Inteligencia Artificial (IA) es un campo de la informática
que se enfoca en crear sistemas que puedan realizar tareas
que requieren inteligencia humana. El Machine Learning
(ML) es una rama de la IA que se enfoca en enseñar a las
computadoras a aprender de los datos, sin ser programadas
explícitamente. El Deep Learning (DL) es una técnica de ML
que utiliza redes neuronales profundas para aprender y
mejorar el rendimiento en tareas específicas. En resumen,
DL es una técnica de ML, y ML es una rama de la IA.
Figura 1.3. Relaciones IA, ML y DL (Construcción propia).
3
A octubre de 2023, Bing usa el modelo GPT 4, el mismo de ChatGPT 4.
28
1.3.1 Profundizando en el Machine Learning
En este libro, te vas a encontrar con diferentes modelos de
aprendizaje automático, algunos de ellos mostrados en la siguiente
figura (pasa el puntero del mouse sobre los modelos, para verlos
mejor o, si lo prefieres, amplía la imagen haciendo clic en la esquina
superior derecha):
Figura 1.4. Modelos de aprendizaje automático (fuente: Wikia AI).
29
En la figura anterior, iniciamos con el perceptrón, que es una neurona
artificial o, mejor, la unidad de red neuronal.
Un modelo de aprendizaje automático (Machine Learning) es un
algoritmo o sistema que utiliza ejemplos y experiencia previa
(entrenamiento) para mejorar su rendimiento en una tarea específica
sin ser explícitamente programado para cada posible situación. En
otras palabras, se trata de un programa informático que aprende a
partir de datos y puede realizar predicciones o tomar decisiones
basadas en nuevas entradas. Los modelos de machine learning
pueden utilizarse en diversas áreas, como el reconocimiento de voz,
la detección de fraude, el análisis de redes sociales, el diagnóstico
médico y muchas más. Estos modelos requieren de grandes
cantidades de datos etiquetados o no etiquetados, así como de
potentes computadoras para procesarlos eficientemente.
1.3.2 Tipos de modelos Machine Learning
Hay muchos modelos como GAN, LSTM y RNN, CNN,
codificadores automáticos y modelos de aprendizaje por
refuerzo profundo. Las redes neuronales profundas se
utilizan para la detección de objetos, el reconocimiento y
síntesis de voz, el procesamiento de imágenes, la
transferencia de estilos y la traducción automática, y pueden
reemplazar la mayoría de los algoritmos clásicos de
aprendizaje automático. Este método moderno puede
aprender patrones extremadamente complejos y es
especialmente exitoso en conjuntos de datos no
estructurados como imágenes, videos y audio (Wikia AI).
En general, los tipos de modelos son aprendizaje supervisado,
aprendizaje no supervisado y aprendizaje por refuerzo; no obstante,
30
la mezcla del primero con el segundo da origen al llamado
aprendizaje semisupervisado y, si nos sumergimos en el Deep
Learning, surgen los modelos profundos pero, para no alargar el
tema, nos detendremos en los tres primeros.
Figura 1.5. Los grandes tipos de modelos ML (Construcción propia).
1.3.2.1 Aprendizaje supervisado
El modelo se entrena con un conjunto de datos etiquetados, donde
cada entrada está asociada a una salida deseada. Durante el
entrenamiento, el modelo intenta encontrar patrones y relaciones
entre las entradas y las correspondientes etiquetas, con el objetivo
de hacer predicciones precisas sobre nuevos datos. Ejemplos de
algoritmos de aprendizaje supervisado incluyen regresión lineal,
árboles de decisión, Naive Bayes y redes neuronales.
Para realizar tareas de regresión se utilizan redes neuronales
profundas, árboles de clasificación (conjuntos) y regresión logística
(aprendizaje automático clásico). Algunas aplicaciones son el
31
filtrado de spam, detección de idioma, búsqueda de documentos
similares, análisis de opiniones, reconocimiento de caracteres
escritos a mano y detección de fraude (Wikia AI).
Un ejemplo de un problema de aprendizaje supervisado, nos lo
explica Maini y Sabri [4]:
Para ilustrar cómo funciona el aprendizaje supervisado, examinemos
el problema de predecir el ingreso anual basado en el número de años
de educación superior que alguien ha completado. Expresado más
formalmente, nos gustaría construir un modelo que se aproxime a la
relación F entre el número de años de educación superior X y los
ingresos anuales correspondientes Y .
Y = f (X) + ϵ
X (entrada) = años de educación superior
Y (salida) = ingresos anuales
f = función que describe la relación entre X e Y
ϵ (épsilon) = término de error aleatorio (positivo o negativo) con
media cero.
En el aprendizaje supervisado, la máquina intenta aprender la
relación entre ingresos y educación desde cero, ejecutando datos de
entrenamiento etiquetados a través de un algoritmo de aprendizaje.
Esta función aprendida se puede utilizar para estimar el ingreso de
personas cuyos ingresos Y se desconocen, siempre y cuando
tengamos como datos los años de educación X . En otras palabras,
podemos aplicar nuestro modelo a los datos de prueba sin etiquetar
para estimar Y . El objetivo del aprendizaje supervisado es predecir Y
con la mayor precisión posible cuando se le dan nuevos ejemplos en
los que se conoce X y se desconoce Y .
32
Regresión lineal (mínimos cuadrados ordinarios).
La solución por regresión predice una variable objetivo continua Y ,
que le permite estimar un valor basándose en los datos de entrada X .
Aquí, la variable objetivo significa la variable desconocida que nos
interesa predecir, y continuo significa que no hay lagunas
(discontinuidades) en el valor que Y puede asumir.
Nos centraremos en resolver el problema de predicción de ingresos
con regresión lineal. Tenemos nuestro conjunto de datos X y los
valores objetivo correspondientes Y . El objetivo de mínimos
cuadrados ordinarios consiste en aprender un modelo lineal que
podemos usar para predecir una nueva y dada una x nunca antes vista
con el menor error posible. Queremos adivinar cuántos ingresos gana
alguien en función de los años de educación que recibió.
Xentrenamiento = [4, 5, 0, 2, … , 6]:
# de años de educación
postsecundaria
Yentrenamiento = [80, 91, 5, 42, 55, … , 100]:
# ingresos anuales
correspondientes, en miles de dólares.
La regresión lineal es un método paramétrico, lo que significa que
hace una suposición sobre la forma de la función que relaciona X e Y .
Nuestro modelo será una función que predice y^ dada una x específica:
^ = β0 + β1 x + ϵ
y
β0 es la intersección con el eje y y β1 es la pendiente de nuestra recta,
es decir, cuánto aumenta (o disminuye) el ingreso con un año adicional
de educación. Nuestro objetivo es aprender los parámetros del
modelo (en este caso, β0 y β1 ) que minimizan el error en las
predicciones del modelo.
33
Figura 1.6. Método paramétrico de regresión lineal.
Gráficamente, en dos dimensiones, esto da como resultado una línea
de mejor ajuste. En tres dimensiones dibujaríamos un plano, y así
sucesivamente con hiperplanos de dimensiones superiores.
Matemáticamente, observamos la diferencia entre cada punto de
datos real (y ) y la predicción de nuestro modelo (y^). Eleva estas
diferencias al cuadrado para evitar números negativos y penalizar
diferencias mayores, y luego súmalas y toma el promedio. Esta es una
medida de qué tan bien nuestros datos se ajustan a la línea.
n
∑1 ((β1 xi + β0 ) − yi ))2
Costo =
2n
Para un problema simple como este, podemos calcular una solución
en forma cerrada usando cálculo para encontrar los parámetros beta
óptimos que minimicen nuestra función de pérdida. Pero a medida
34
que una función de costos crece en complejidad, ya no es factible
encontrar una solución de forma cerrada con cálculo. Esta es la
motivación para un enfoque iterativo llamado descenso de
gradiente4, lo que nos permite minimizar una función de pérdida
compleja.
El objetivo del descenso de gradiente es encontrar el mínimo de la
función de pérdida de nuestro modelo obteniendo iterativamente
una aproximación cada vez mejor de la misma. Imagínese caminando
por un valle con los ojos vendados. Tu objetivo es encontrar el fondo
del valle. ¿Cómo lo harías? Un enfoque razonable sería tocar el suelo
a su alrededor y moverse en cualquier dirección en la que el suelo
tenga una pendiente más pronunciada. Da un paso y repite el mismo
proceso continuamente hasta que el suelo quede plano. Entonces
sabes que has llegado al fondo de un valle; Si te mueves en cualquier
dirección desde donde estás, terminarás en la misma elevación o más
cuesta arriba.
Volviendo a las matemáticas, el suelo se convierte en nuestra función
de pérdida, y la elevación en el fondo del valle es el mínimo de esa
función.
En la función de pérdida que vimos en la regresión:
n
∑1 ((β1 xi + β0 ) − yi ))2
Costo =
2n
Vemos que es una función de dos variables: β0 y β1 . El resto de
variables están determinadas, ya que X , Y y n se dan durante el
entrenamiento. Queremos intentar minimizar esta función.
4
El descenso de gradiente aparecerá una y otra vez, especialmente en las redes neuronales
(bibliotecas de aprendizaje automático como aprendizaje-scikit y TensorFlow), por lo que
vale la pena comprender los detalles.
35
Figura 1.7. La función de error es una función convexa, sólo tiene un valor mínimo que
es global a toda la función.
La función es f (β0 , β1 ) = z . Para comenzar el descenso del
gradiente, se deben adivinar los parámetros β0 y β1 que minimizan la
función. A continuación, encuentras derivadas parciales de la función
de pérdida con respecto a cada parámetro beta: [dz/dβ0 , dz/dβ1 ]. La
derivada parcial indica cuánto aumenta o disminuye la pérdida total
si aumenta β0 o β1 en una cantidad muy pequeña.
Dicho de otra manera, ¿en qué medida aumentaría su estimación del
ingreso anual suponiendo que la educación superior fuera cero (β0 )
aumentaría la pérdida (es decir, la inexactitud) de tu modelo? Quieres
ir en la dirección opuesta para que termines caminando cuesta abajo
y minimizando las pérdidas.
36
De manera similar, si aumenta su estimación de cuánto afecta cada
año incremental de educación al ingreso (β1 ), ¿cuánto aumenta esto
la pérdida (z )? Si la derivada parcial dz/dβ1 es un número negativo,
entonces aumentar β1 es bueno porque reducirá la pérdida total. Si
es un número positivo, querrás disminuir β1 . Si es cero, no cambies β1
porque significa que has alcanzado un óptimo. Sigue haciéndolo hasta
llegar al final, es decir, el algoritmo convergió y la pérdida se ha
minimizado.
¿Cansado? He aquí una pausa activa, arma el siguiente puzle:
Puzle diseñado por Bhumi Khokhani y adaptado por Juan Gmo. Rivera B. con el
editor DescartesJS
37
Existen otros métodos para solucionar el problema anterior, como la
clasificación con regresión logística y máquinas de vectores de
soporte (SVM) o los modelos no paramétricos como los árboles de
decisión y los bosques aleatorios, que te invitamos a consultar.
1.3.2.2 Aprendizaje no supervisado
El modelo se entrena con un conjunto de datos no etiquetados y debe
descubrir por sí mismo estructuras y patrones interesantes en los
datos. Este tipo de aprendizaje se utiliza cuando no se dispone de
etiquetas o cuando se quiere identificar grupos o clústeres naturales
dentro de los datos.
En el aprendizaje no supervisado los modelos aprenden de conjuntos
de datos no etiquetados, descubriendo patrones o estructuras
subyacentes. Algunos ejemplos de algoritmos utilizados en
aprendizaje no supervisado son:
Agrupación en clústeres (Clustering). Este enfoque busca
agrupar datos no etiquetados en conjuntos significativos.
Algunos algoritmos comunes son K-Means (divide los datos
en K grupos con características similares), Mean-Shift y
DBSCAN (encuentra grupos de alta densidad separados por
áreas de baja densidad).
Asociación (Association). Se utiliza para descubrir reglas o
relaciones de asociación entre variables en conjuntos de
datos. Un ejemplo de algoritmo es el algoritmo Apriori.
Reducción de dimensionalidad (Dimensionality Reduction).
Este enfoque busca reducir la cantidad de variables en un
conjunto de datos manteniendo la mayor cantidad de
información posible. Algunos algoritmos comunes son
Análisis de Componentes Principales (PCA) y T-distributed
Stochastic Neighbor Embedding (t-SNE).
38
Algunas aplicaciones de este modelo son:
1. Análisis de datos
a. Segmentación de clientes. Agrupar clientes en función de
sus características para marketing personalizado.
b. Detección de fraude. Identificar transacciones
fraudulentas en bancos y compañías de seguros.
c. Análisis de redes sociales. Encontrar comunidades y
patrones de comportamiento en las redes sociales.
2. Recomendación
a. Recomendación de productos. Recomendar productos a
los clientes en función de sus compras anteriores.
b. Recomendación de contenido. Recomendar artículos o
videos a los usuarios en función de su historial de
navegación.
3. Imagenología
a. Detección de objetos. Encontrar objetos específicos en
imágenes, como tumores en radiografías.
b. Reconocimiento facial. Identificar personas en imágenes y
videos.
4. Robótica
Control de robots. Enseñar a los robots a realizar tareas
por sí mismos observando a los humanos.
a. Planificación de movimiento. Ayudar a los robots a
navegar por su entorno de forma segura y eficiente.
A diferencia del aprendizaje supervisado, no siempre es fácil
determinar qué tan bien está funcionando un algoritmo de
aprendizaje no supervisado. El “rendimiento” es a menudo subjetivo y
específico de un dominio [4].
39
1.3.2.3 Aprendizaje por refuerzo
El modelo interactúa con un ambiente y recibe retroalimentación en
forma de recompensas o penalizaciones. A medida que el modelo va
tomando acciones y recibiendo feedback, actualiza sus políticas
internas para maximizar las recompensas futuras. La idea principal
tras este método es que el modelo aprenda mediante ensayo y error.
Existen varios algoritmos populares de aprendizaje por refuerzo (RL,
por sus siglas en inglés):
Q-learning. Es uno de los métodos más conocidos y sencillos
en RL. La idea básica consiste en estimar la función Q(s, a),
que representa el valor esperado de la recompensa total
cuando se encuentra en estado s y se selecciona acción a.
Luego, actualiza esta función utilizando iteraciones de
Bellman hasta converger en la política óptima.
SARSA (State Action Reward State Action). Similar al Q-
learning, pero en lugar de utilizar la máxima recompensa
futura anticipada (Q-value), emplea la siguiente pareja state-
action. Esto hace que SARSA sea "on-policy", mientras que
Q-learning es "off-policy".
Deep Q Networks (DQN). Combina técnicas de aprendizaje
profundo con Q-learning. DQN aprovecha las redes
neuronales como funciones aproximadoras para manejar
grandes espacios de estado y obtener buenos resultados en
juegos complejos y otros dominios difíciles.
Policy Gradients (PG). Se enfoca directamente en optimizar
la política sin necesidad de evaluar valores Q. PG trabaja con
probabilidades sobre las acciones posibles dado un estado y
puede encontrarse en variantes tales como REINFORCE,
actor crítico y Proximal Policy Optimization (PPO).
40
Advantage Actor Critic (A2C / A3C). Combinan ideas de
policy gradients junto con estimación de ventajas y
criticismo de value functions. Esta combinación permite
reducir la varianza asociada con el cálculo del gradiente y
mejorar así la eficiencia de aprendizaje.
Trust Region Policy Optimization (TRPO). Intenta resolver
algunos de los problemas relacionados con la convergencia y
la escala observados en otras metodologías basadas en
policy gradient.
En el caso de Q-learning, tenemos una técnica que evalúa qué acción
tomar en función de una función de valor de acción, que determina el
valor de estar en un determinado estado y realizar una determinada
acción en ese estado. Tenemos una función Q que toma como
entrada un estado y una acción y devuelve la recompensa esperada
de esa acción. Esta función es de la forma:
Qnew (St , At ) ← (1 − α) ⋅ Q(St , At )
+ α ⋅ (Rt+1 + γ ⋅ maxQ(St+1 , a))
Antes de que comience el aprendizaje, Q se inicializa a un valor fijo
posiblemente arbitrario (elegido por el programador). Luego, en cada
momento t el agente selecciona una acción At , observa una
recompensa Rt+1 , entra en un nuevo estado St+1 (eso puede
depender tanto del estado anterior St como de la acción
seleccionada), y Q está actualizado (Véase Wikipedia).
¿Preocupado? No tienes porque estarlo, pues en este libro no nos
preocuparemos por estas técnicas, sino por su uso; por ejemplo, en la
siguiente página transcribimos un artículo sobre "un agente Atari
Pong impulsado por RL" usando la técnica "gradiente de políticas".
41
Agente Atari Pong impulsado por RL
42
Poster diseñado con la IA Ideogram.
1.4 Modelos de IA generativa
La inteligencia artificial generativa se ha
convertido en un campo de estudio destacado,
revolucionando diversos ámbitos, como la visión
por computadora, el procesamiento del lenguaje
natural y las artes creativas [5]
Pese a nuestra advertencia de no preocuparnos por los aspectos
técnicos existentes en los procesos internos de una IA, creemos
necesario describir, lo más simple posible, los diferentes modelos de
IA generativa. Para este propósito, transcribimos parte de la
investigación realizada por Bandi et al. (Ibid.)5, de tal forma que al
encontrar modelos que hablan de términos como VAE, GAN,
Diffusion o Transformers, tengamos alguna idea de ellos, "para
obtener una comprensión integral de esta disciplina en evolución"
(Ibid.).
1.4.1 Clasificación de modelos de IA generativa
La arquitectura del modelo determina cómo procesa y genera
información, lo que lo convierte en un aspecto crítico de su
funcionalidad y adecuado para tareas específicas. La Tabla 1.1
describe los componentes de la arquitectura y los métodos de
entrenamiento que se utilizan en los modelos de IA generativa.
La clasificación de modelos generativos basados en la arquitectura
proporciona información sobre los componentes específicos y los
métodos de entrenamiento que definen cada modelo, como se
muestra en la Figura 1.8
5
Artículo de acceso abierto distribuido bajo los términos y condiciones de la licencia
Creative Commons Attribution (CC BY).
44
Poster diseñado con la IA Ideogram.
Tabla 1.1. Componentes de arquitectura y métodos de entrenamiento utilizados en
modelos de IA generativa
Componente de Método de
Modelo
arquitectura entrenamiento
Autocodificadores Codificador - Inferencia
variacionales Decodificador variacional
Redes generativas Generador -
Adversario
adversarias Discriminador
Ruido (adelante) – Refinamiento
Modelos de difusión
Eliminación de ruido iterativo
Codificador -
Transformadores Supervisado
Decodificador
Redes neuronales
Modelos de lenguaje Supervisado
recurrentes
Combinación de
Modelos híbridos Variado
diferentes modelos
Figura 1.8. Clasificación de los modelos de IA generativa en función de la arquitectura.
¡Haz clic sobre la imagen, para verla en pantalla completa!
46
En forma resumida, estos modelos son: Los codificadores
automáticos variacionales (VAE) que tienen una arquitectura de
codificador - decodificador y utilizan inferencia variacional para el
entrenamiento. Aprenden representaciones comprimidas de datos
de entrada y generan nuevas muestras tomando muestras del
espacio latente aprendido. Las redes generativas adversarias (GAN)
que constan de un generador y un discriminador. Son entrenados de
manera adversaria, con el generador generando muestras sintéticas
para engañar al discriminador. Las GAN se destacan por generar
datos realistas y diversos.
Figura 1.9. Una muestra cautivadora de modelos avanzados de inteligencia artificial,
incluidas redes generativas adversarias (GAN) y modelos de difusión estable, creada
por Ideogram AI.
Los modelos de difusión que implican un paso de generación de ruido
seguido de un paso de eliminación de ruido. Refinan iterativamente
las entradas ruidosas para generar muestras de alta calidad. La
formación implica aprender la dinámica del proceso de difusión. Los
47
transformadores (transformers) que emplean una arquitectura
codificador - decodificador y utilizan mecanismos de autoatención
para capturar dependencias globales. Se utilizan habitualmente en
tareas como la traducción automática y generan secuencias
coherentes mediante formación supervisada. Los modelos de
lenguaje, a menudo basados en redes neuronales recurrentes (RNN),
que generan secuencias prediciendo el siguiente token. Están
capacitados mediante aprendizaje supervisado y se destacan en la
generación de secuencias de lenguaje natural. Los modelos híbridos
que combinan diferentes arquitecturas y métodos de entrenamiento
para aprovechar sus respectivas fortalezas.
En forma, un poco más amplia, algunos modelos los describimos a
continuación.
1.4.2 Autocodificadores variacionales (VAE)
Un codificador automático variacional (VAE) es un tipo de codificador
que combina la inferencia variacional con una arquitectura
codificador - decodificador. Los codificadores automáticos constan
de una red codificadora que asigna datos de alta dimensión a una
representación de baja dimensión y una red decodificadora que
reconstruye la entrada original de la representación [6]. Sin embargo,
los codificadores automáticos tradicionales carecen de la capacidad
de generar nuevos puntos de datos.
En la Figura 1.10, en un VAE, la red codificadora asigna los datos de
entrada (x) a los parámetros de una distribución de probabilidad en
un espacio latente (z) utilizando una capa de entrada y una capa
oculta compuestas por unidades de red neuronal, como capas densas
o convolucionales. Se extraen muestras de esta distribución de
espacio latente en la capa de muestreo, generada por el codificador,
para producir nuevos puntos de datos utilizando la red
48
decodificadora (y) con capas ocultas y de salida. Al tomar muestras de
la distribución posterior aproximada en el espacio latente, los VAE
pueden generar diversos resultados que se asemejan a los datos de
entrenamiento.
Figura 1.10. Estructura típica de un codificador automático variacional (VAE).
1.4.3 Redes generativas adversarias (GAN)
Ian Goodfellow introdujo por primera vez las redes generativas
adversarias o GAN en 2014 [7]. La GAN se basa en el juego minimax
de suma cero para dos personas, en el que un jugador obtiene
ganancias sólo cuando el otro sufre la misma pérdida. Los dos
jugadores de GAN son el generador y el discriminador. El propósito
del generador es engañar al discriminador, mientras que el objetivo
del discriminador es identificar si una muestra pertenece a una
distribución verdadera. La salida del discriminador es una
probabilidad de que la muestra de entrada sea una muestra
verdadera. Una probabilidad mayor sugiere que la muestra se extrae
de datos del mundo real. Por el contrario, cuanto más cercana a cero
sea la probabilidad, más probable es que la muestra sea falsa. Cuando
la probabilidad se acerca a la mitad del infinito, se alcanza la
respuesta óptima porque al discriminador le resulta difícil comprobar
muestras falsas [8].
Normalmente, el generador (G) y el discriminador (D) se
implementan utilizando redes neuronales profundas, que funcionan
como representaciones de funciones latentes. La arquitectura de
GAN, ilustrada en la Figura 1.11, implica que G aprenda la
distribución de datos de muestras reales y los mapee a un nuevo
49
espacio (muestras generadas) utilizando capas densas/
convolucionales acompañadas de su correspondiente distribución de
probabilidad. El objetivo principal de GAN es garantizar que esta
distribución de probabilidad se parezca mucho a la distribución de las
muestras de entrenamiento. El D recibe datos de entrada, que
pueden ser datos reales (x) del conjunto de entrenamiento o datos
generados por el generador. Luego, el discriminador genera una
probabilidad utilizando capas densas/convolucionales o un valor
escalar que indica si es probable que la entrada provenga de la
distribución de datos real.
Figura 1.11. Estructura típica de redes generativas adversarias (GAN).
El entrenamiento de GAN (red generativa adversaria) enfrenta varios
desafíos, incluida la desaparición de gradientes, la dificultad de
entrenamiento y la escasa diversidad. Estos problemas surgen de la
función de pérdida utilizada en las GAN, que implica medir y
minimizar la distancia entre la distribución de datos real (Pr) y la
distribución de datos generada (Pg).
1.4.4 Modelos de difusión
Los modelos de difusión son un tipo de modelo generativo que opera
introduciendo progresivamente ruido en los datos hasta que se
ajusta a una distribución deseada. La idea principal detrás de los
50
Figura 1.12. Redes generativas adversarias (GAN), imagen diseñada por Ideogram AI.
modelos de difusión es aprender el proceso de revertir esta difusión,
permitiendo la generación de muestras válidas [9]. En la Figura 1.13,
el paso directo de un modelo de difusión, el ruido gaussiano se agrega
iterativamente a los datos en una serie de pasos. Este ruido corrompe
los datos originales y degrada gradualmente su calidad. A medida que
el nivel de ruido aumenta con cada paso, las imágenes se distorsionan
o destruyen cada vez más. El objetivo del modelo de difusión es
conocer la dinámica de este proceso de difusión. Al observar los
datos corruptos y los niveles de ruido correspondientes, el modelo
aprende a estimar la distribución de probabilidad condicional que
describe la relación entre los datos corruptos y los niveles de ruido.
Una vez que se aprende el proceso de difusión, el modelo puede
realizar el paso inverso, comenzando con los datos corruptos y
eliminando progresivamente el ruido en cada paso [10]. Este proceso
de eliminación de ruido conduce a la generación de muestras válidas
y realistas que se asemejan a la distribución de datos original.
51
Figura 1.13. Estructura típica del modelo de difusión.
Hay tres subtipos que se diferencian en la implementación del paso
de difusión hacia adelante y hacia atrás. Estos subtipos son modelos
probabilísticos de difusión de eliminación de ruido (DDPM), modelos
generativos basados en puntuaciones (SGM) y ecuaciones
diferenciales estocásticas (SDE) [11].
Los modelos de difusión emplean arquitecturas de redes neuronales
para capturar las dependencias y patrones complejos de los datos,
que pueden constar de varias capas, como capas convolucionales
para datos de imágenes o capas recurrentes para datos secuenciales.
La red está entrenada para aprender la distribución de probabilidad
condicional que describe la relación entre los datos corruptos y los
niveles de ruido. El objetivo de entrenamiento de los modelos de
difusión generalmente se basa en la estimación de máxima
verosimilitud u otros marcos probabilísticos. Los parámetros del
modelo están optimizados para minimizar la discrepancia entre las
52
muestras generadas y la distribución de datos original. Se emplean
varias técnicas, como el descenso de gradiente y la retropropagación,
para entrenar el modelo de forma eficaz.
Los modelos de difusión, como los modelos generativos de difusión
profunda (DDGM), han ganado prominencia como modelos
generativos sólidos en los últimos años.
Figura 1.14. Representación del paso inverso del modelo de difusión, según Ideogram
AI.
53
1.4.5 Modelos de lenguaje
Los modelos de lenguaje (LM) han experimentado una
transformación significativa en los últimos años, evolucionando
desde su función tradicional de generar o evaluar texto natural fluido
hasta convertirse en poderosas herramientas para la comprensión
del texto. Este cambio se ha logrado mediante la utilización del
modelado del lenguaje como una tarea previa al entrenamiento para
extractores de características, donde los vectores ocultos aprendidos
durante el modelado del lenguaje se aprovechan en sistemas de
comprensión del lenguaje [12]. Los LM han demostrado ser
fundamentales en una amplia gama de aplicaciones, permitiendo
tareas como responder preguntas factoides, abordar consultas de
sentido común y extraer conocimiento factual sobre las relaciones
entre entidades. En esencia, un modelo de lenguaje es un marco
computacional que tiene como objetivo comprender y generar texto
similar a un humano. Opera según el principio fundamental de
predicción probabilística, donde aprende patrones y dependencias en
secuencias de palabras para estimar la probabilidad de una palabra
en particular dado el contexto anterior. Al capturar regularidades
estadísticas en el lenguaje, los LM pueden generar texto coherente y
contextualmente relevante. Esto se logra entrenando el modelo con
grandes cantidades de datos de texto, lo que le permite aprender la
distribución de palabras, frases y estructuras sintácticas en cada
idioma [13].
Los componentes de un modelo de lenguaje consisten en los datos de
entrenamiento, la arquitectura del modelo en sí y el mecanismo de
inferencia utilizado para generar texto. Los datos de entrenamiento
sirven como base para aprender los patrones y probabilidades
subyacentes en el lenguaje. La arquitectura del modelo abarca varias
arquitecturas de redes neuronales, como redes neuronales
recurrentes (RNN), transformadores o una combinación de ambas,
54
que permiten que el modelo capture dependencias de largo alcance e
información contextual. El mecanismo de inferencia implica utilizar el
modelo entrenado para generar texto basado en indicaciones de
entrada o predecir palabras faltantes en cada contexto. En la Figura
1.15, la arquitectura RNN, la secuencia de entrada X se procesa paso
a paso, donde X(t) representa la entrada en cada paso de tiempo. El
objetivo es predecir una secuencia de salida y . En cada paso de
tiempo, el RNN toma la entrada actual X(t) y el estado oculto
anterior h(t − 1) como entradas. El estado oculto h(t) representa la
memoria de la red y se calcula utilizando un conjunto de parámetros
aprendibles y funciones de activación. En algunos casos, el estado de
la celda se utiliza junto con el estado oculto, como se ve en las
variantes de memoria a corto plazo (LSTM) y unidad recurrente
cerrada (GRU). El estado celular actúa como un componente de la
memoria a largo plazo.
Figura 1.15. Arquitectura de red neuronal recurrente.
Los modelos de lenguaje se utilizan para una variedad de tareas, que
son compatibles con diferentes tipos de modelos de lenguaje, como el
modelo de lenguaje visual (VLM), que combina información textual y
visual para comprender y generar lenguaje en el contexto de datos
visuales.
55
1.4.6 Transformadores
El modelo transformador ha revolucionado el campo del
procesamiento del lenguaje natural (NLP) al reemplazar las redes
neuronales recurrentes tradicionales (RNN) con un mecanismo de
autoatención. Este modelo ha logrado un rendimiento de última
generación en diversas tareas lingüísticas y, al mismo tiempo, es
computacionalmente eficiente y altamente paralelizable. El
componente central del modelo transformador es el mecanismo de
autoatención, que permite que el modelo se centre en diferentes
partes de la secuencia de entrada simultáneamente al realizar
predicciones. A diferencia de los RNN que procesan información
secuencial paso a paso, el transformador considera toda la secuencia
de entrada a la vez, capturando efectivamente las dependencias entre
tokens [14]. La arquitectura transformadora consta de un codificador y
un decodificador, y ambos comprenden múltiples capas de redes
neuronales de autoatención y de retroalimentación. El codificador
procesa la secuencia de entrada, mientras que el decodificador genera
la secuencia de salida. El mecanismo de autoatención en el
transformador permite que el modelo atienda selectivamente partes
relevantes de la secuencia de entrada, facilitando la captura de
dependencias de largo alcance y mejorando la calidad de la traducción,
entre otras tareas.
Los transformadores varían en sus arquitecturas, diseños de red
específicos y objetivos de capacitación según la aplicación y los datos
de entrada.
BERT (Representaciones de codificador bidireccional de
transformadores): BERT consta de un codificador de transformador
bidireccional multicapa, está previamente capacitado en un gran
corpus de texto, como Wikipedia y Book Corpus. Utiliza aprendizaje no
supervisado y arquitecturas transformadoras a gran escala para
capturar representaciones del lenguaje general.
56
GPT (Transformador generativo preentrenado): GPT emplea un
decodificador de transformador multicapa, se entrena utilizando un
objetivo de modelado de lenguaje autorregresivo. Predice la
siguiente palabra en una secuencia basada en el contexto anterior, lo
que permite generar texto fluido y contextualmente relevante.
T5 (Transformador de transferencia de texto a texto): T5 emplea una
arquitectura de transformador como BERT pero sigue un marco de
texto a texto, puede manejar varias tareas de PNL utilizando un
enfoque unificado.
Figura 1.16. Representación del modelo transformer por Ideogram AI.
57
Interactivo 1.3. Cuestionario sobre IA generativa
58
Poster diseñado con la IA Ideogram.
1.5 ¿Cuáles son los principales campos y áreas
tecnológicas que están aplicando la inteligencia
artificial?
La inteligencia artificial se utiliza en diversas áreas de la actividad
humana. A continuación, presentamos algunas de las áreas en las que
se utiliza la IA:
Robótica: Uso de IA para dotar de mayor autonomía,
percepción y capacidad de decisión a robots.
Asistentes de voz: los asistentes de voz son un ejemplo de uso
de la IA en nuestro día a día. Estos asistentes, como Siri o
Alexa, utilizan la IA para responder preguntas, ofrecer
recomendaciones y organizar tareas.
Vehículos autónomos: Sistemas de conducción automatizada
mediante técnicas de Deep Learning y computer vision.
Procesamiento de lenguaje natural: Asistentes virtuales,
traductores automáticos, análisis de sentimientos.
Reconocimiento de imágenes: Identificación de objetos,
detección de anomalías, procesamiento médico.
Reconocimiento facial y de objetos: Seguridad, identificación
biométrica, indexación y búsqueda de imágenes.
Diagnóstico y medicina: Detección temprana de
enfermedades, análisis genético, robotic surgery.
Finanzas: Detección de fraude, análisis de mercado, gestión
de inversiones, scoring crediticio.
60
Ciberseguridad: Detección de malware, exploit prevention,
protección de infraestructura.
Recomendadores: Motores de recomendación en contenidos,
ecommerce, publicidad dirigida.
Juegos: Agentes game AI, mundos generativos, aprendizaje
para jugabilidad adaptable.
Ciudades inteligentes: los desarrolladores de ciudades
inteligentes esperan poder regular el tráfico para mejorar la
conectividad y reducir los atascos.
Las ciencias com-
putacionales han lo-
grado desarrollos
que permiten que
un programa reciba
información, haga
predicciones y, en
consecuencia, tome
decisiones, este lo- Figura 1.17. El asistente de Google
gro se refleja en las diferentes áreas descritas al inicio de este
apartado. Para algunos, quizá, las IA se reducen al asistente de
Google, al Siri de Apple o Alexa de Amazon, pues les sorprende cómo
estas IA responden inmediatamente a preguntas u órdenes dadas por
nosotros, pero preguntas como ¿Siri, cuál es la temperatura en París
en este momento? con una respuesta inmediata, también se logra
consultando en Google; es decir, la IA se confunde con un buscador.
Como hemos enunciado, los siguientes capítulos los dedicaremos a
las IA generativas, así que cerramos este capítulo con los
sorprendentes avances en la robótica, de tal forma que se evidencie
una IA que va más allá de los asistentes de voz.
61
1.6 Robótica
1.6.1 Introducción
Cuando escuchamos la palabra "robot", se nos vienen a la mente
algunos escenarios futuristas o, mejor, escenarios de la ciencia
ficción, bien sea porque hemos leído algún libro o, lo más común,
porque hemos visto películas de este género; por ejemplo, "Yo,
Robot", "WALL-E", "Morgan", "Ex Machina", "Inteligencia artificial",
"Cortocircuito", "El hombre bicentenario" y las sagas "Terminator",
"Transformers" y "La guerra de las galaxias". Pero, aún estamos lejos
de llegar a estos escenarios, pese a la sorprendente "Sophia" o a las
inteligencias artificiales "Alexa" y "Siri".
La palabra "robot" tiene su origen en la palabra checa “robota”, que
significa “trabajo forzado o mano de obra”, significado que hoy es
válido sólo en parte, pues si bien es cierto que algunos robots se han
diseñado para desarrollar tareas de trabajo
pesado (robots industriales), existen otros
para tareas de alta precisión (cobots), para
transporte de mercancía (drones), los
usados por las agencias espaciales (los
rover de la NASA),
para la medicina
(nanobots), etc.
62
Figura 1.18. Robot humanoide Sophia (Crédito: foto de la UIT de Ginebra, Suiza,
publicada en Wikimedia), CC BY 2.0.
63
1.6.2 La robótica
En un principio, podríamos aceptar la siguiente definición de la
robótica como un área del conocimiento que "estudia el diseño y
construcción de máquinas capaces de desempeñar las tareas del ser
humano mediante procesos mecanizados y programados" [15]. Sin
embargo, los últimos desarrollos de la robótica, han ido más allá de
esta definición; por ejemplo, el último modelo del robot mascota
AIBO de Sony6, el robot humanoide de Boston Dynamics que realiza
acrobacias [16] o, como dijimos antes, el robot humanoide Sophia.
Vídeo
Video 1.3. Aibo, la mascota robot de SONY (crédito: Futuro Sensacional).
La definición anterior, entonces, habría que modificarla por algo
como: "la robótica estudia el diseño y construcción de máquinas
6
Es en 1999 que Sony lanza la primera versión de la mascota AIBO (Artificial Intelligence
roBOt, amigo en japonés).
64
capaces de desempeñar diversas tareas, mediante procesos
mecanizados y programados", pues ya no se trata sólo de realizar
actividades humanas y animales (Aibo), sino tanto las anteriores
como aquellas nunca antes imaginadas (nanobots, por ejemplo).
Ahora, la robótica y la Inteligencia Artificial van de la mano, en tanto
que ya no se trata de realizar una programación que incluya un finito
número de instrucciones para el robot, sino que éste aprenda y tome
las mejores decisiones. Pero, como dijimos al inicio de este apartado,
aún estamos lejos de diseñar un terminator o el simpático WALL-E;
obviamente, la afirmación anterior no pretende demeritar los
avances tecnológicos de la robótica, los cuales son significativamente
enormes e impactantes.
La robótica ha sido un pilar central en la industria
manufacturera durante varias décadas y es una industria
multimillonaria en la actualidad. Desde la instalación del
primer robot industrial en la década de 1970, el sector se
ha expandido continuamente a nuevos mercados y ha
desarrollado nuevas aplicaciones. Hoy en día, la robótica
ya no es una tecnología solo para la fabricación, sino que
ha evolucionado para abordar también una gama mucho
más amplia de aplicaciones (ISO/TC 299 Robotics).
Algunas de las principales formas en que la IA se ha incorporado en el
campo de la robótica son los sistemas de visión por computador para
que los robots puedan percibir e interpretar su entorno; algoritmos
de aprendizaje profundo para que los robots mejoren sus
capacidades motoras finas, como agarrar objetos de forma más
precisa; técnicas de aprendizaje por refuerzo para que los robots
optimicen de forma autónoma cómo realizar tareas mediante ensayo
y error; procesamiento de lenguaje natural para una comunicación
más natural hombre-máquina, entre otros.
65
1.6.3 Historia de la robótica
Más allá de los robots que nos entretienen, como las mascotas o los
robots luchadores (robot-sumo), el principal objetivo del hombre ha
sido diseñar y fabricar robots que realicen trabajos pesados, tediosos
o peligrosos; por ello, como lo expresa la norma ISO/TC 299 de 2016,
la industria manufacturera ha sido la más beneficiada con los robots
industriales. Pero, antes de hablar de los diferentes tipos de robots,
presentamos la historia de la robótica, en forma resumida y de la
mano de Wikipedia.
Siglo I a. C. Una de las primeras descripciones de autómatas
aparece en un texto, en el que describe el encuentro entre el rey
Mu de Zhou y un «artífice» conocido como Yan Shi. Shi presenta
al rey una supuesta obra mecánica: una figura humana de
tamaño natural.
Siglo III a. C. Autómata de Herón de Alejandría.
1495. El robot humanoide de Leonardo da Vinci.
1800. Juguetes Karakuri mecánicos
japoneses que sirven té, disparan
flechas y pintan (inventor: Hisashige
Tanaka).
1921. Primer autómata de ficción
llamado "robot" (inventor: Karel Čapek,
quien acuña la palabra robot).
1942. Cuento de ciencia ficción
"Círculo Vicioso" donde se dan a
conocer las tres leyes de la robótica
(inventor: Isaac Asimov).
66
1956. Primer robot comercial de la compañía Unimation
(inventor: George Devol).
1961. Se instala el primer robot industrial (inventor: George
Devol).
1964. Primer robot paletizador de la compañía japonesa Okura
Yusoki.
1973. Primer robot con seis ejes electromecánicos (KUKA Robot
Group).
1975. Brazo manipulador programable universal, un producto
de Unimation (inventor: Victor Scheinman).
1982. El robot completo. Colección de cuentos de ciencia ficción
de Isaac Asimov, escritos entre 1940 y 1976, previamente
publicados en el libro Yo, robot y en otras antologías, volviendo a
explicar las tres leyes de la robótica con más ahínco y
complejidad moral.
2002. Robot humanoide ASIMO capaz de
desplazarse de forma bípeda e interactuar con
las personas (inventor: Honda Motor Co. Ltd).
2015. Robot humanoide ginoide (Sophia)
capaz de reconocer, recordar caras y simular
expresiones (inventor: Hanson Robotics Co.
Ltd).
Obviamente, es una historia demasiado reducida,
pues existieron otros hechos importantes desde
otras áreas del conocimiento como la electrónica y
las ciencias computacionales, que fueron
fundamentales para el desarrollo de la robótica y,
además, la historia de los últimos ocho años que es
apabullante.
67
1.6.4 Tipos de robots
Existen diferentes tipos de robots, que van desde los que se usan
para tareas industriales hasta los de forma humana (humanoides).
Algunas clasificaciones consideran aspectos como la geometría, el
método de control, la función, su arquitectura (androides, móviles,
zoomórficos o poliarticulados) o por su nivel de "inteligencia". Para
este apartado, presentaremos tres tipos de robots: móviles, cobots y
nanobots.
Robots móviles
Además de los destinados a ser guías de eventos y museos, cobra
interés los destinados a transporte y los de exploración como los
rover espaciales.
Figura 1.19. Rover Curiosity en Marte (Crédito: NASA).
En los robots de transporte podemos incluir los drones, pese a que
sean considerados como vehículos aéreos no tripulados en lugar de
robots voladores. Este tipo de robot también se usa como arma
militar, para ataques suicidas como en la guerra Rusia - Ucrania o para
actividades de espionaje, igualmente en actividades exploratorias
como el dron del rover Perseverance en Marte.
68
En el siguiente video, se aprecia el uso del dron como transporte de
alimentos.
Vídeo
Video 1.4. Drones repartidores de comida (crédito: Futuro Sensacional).
Investigadores de Caltech construyeron un robot bípedo que
combina caminar con volar, haciéndolo excepcionalmente ágil y capaz
de realizar movimientos complejos ¿robot o dron?
Figura 1.20. ¿Robot volador o dron caminador? (Crédito: Caltech).
69
Cobots
Los sistemas ciberfísicos y los nuevos sistemas de interacción hombre
máquina, dotarán a las líneas de producción de un grado de
digitalización que impulsará la productividad de las empresas de cara a
ser más competitivas. Muchos de los procesos de control se realizan ya
de forma automatizada, pero el uso de tecnologías 4.0 en este ámbito
ayudará a la optimización de los procesos en tiempo real mediante
técnicas de Big Data e Inteligencia Artificial [17].
Las empresas industriales vienen apostando por la robótica
colaborativa (cobot), pues son equipos con una mayor capacidad de
carga y un mayor alcance, pese a que aún existan problemas con la
velocidad para operar de forma segura.
Algunos parámetros que hay que tener en cuenta en un cobot:
Número de grados de libertad: Dado por la suma de g.d.l. de las
articulaciones que lo componen. Aunque la mayoría de las
aplicaciones industriales requieren 6 g.d.l., como las de
soldadura, mecanizado y almacenamiento, otras requieren un
número mayor, como las labores de montaje (ibid.).
Espacio de trabajo: Depende de la configuración geométrica del
manipulador.
Precisión: Mide el grado de exactitud en la realización de los
movimientos, al realizar una tarea programada.
Capacidad de carga: Es el peso que puede transportar, que
depende de la tarea a la que se requiera.
Velocidad: Al estar en contacto con personas, se pueden generar
accidentes según el nivel de velocidad en las operaciones.
Actualmente existen cobots que a través de la sensórica
detectan la presencia de obstáculos.
70
Tomando datos del documento "Estado del Arte de Automatización y
Robótica" [17], hemos preparado la siguiente infografía:
Interactivo 1.4. Algunos ejemplos de COBOTS
Créditos textos: AtiGA
Imágenes: tomadas de las páginas de los fabricantes.
Videos: Promoción de los fabricantes en YouTube
71
Nanobots
Los nano-robots o nanobots (también llamados nanoides, nanites,
nanomáquinas o nanomites) han tenido su presencia en la ciencia
ficción, en especial en el cine. Quizá ya los hayas visto en películas
como "Max Steel", los nanites en "Yo, Robot" o en el invencible Vin
Diesel en "Bloodshot".
Los nanobots son robots de tamaño microscópico, que podrían
ponerse en el torrente sanguíneo para combatir bacterias o para
reparar órganos del cuerpo humano o, a manera experimental, de
cualquier ser vivo.
Los beneficios que presentan actualmente las nanotecnologías y los
que se esperan en un futuro cercano, opacan cualquier idea de riesgo
que tengamos de ellas: protectores solares, cosméticos, textiles (con
función de autolimpieza impermeables, antibacteriales, repelentes,
etc.), nuevos materiales (cerámicas, nanoplásticos), pinturas (de tipo
anti-graffiti, menor peso, mayor duración, antiabrasivas, ecológicas,
cambio de color con la temperatura, etc.), electrónica (chips, baterías,
sensores), nuevos medicamentos, nanomedicina (tratamiento no
invasivo de cáncer), militares (detección de armas químicas o
biológicas) y energía (celdas de combustible de hidrógeno) [22].
La posibilidad de curar el cáncer o de sustituir los combustibles de
origen fósil, basta para minimizar cualquier asomo de riesgo7. El uso
de nanobots en la medicina aún está en sus primeras etapas de
7
El parlamento europeo (Comisión de Industria, Investigación y Energía, 2006) destaca la
nanomedicina como un ámbito interdisciplinar prometedor, con tecnologías de
vanguardia como el diagnóstico y las imágenes moleculares, que pueden ser
enormemente beneficiosas para la detección precoz y el tratamiento inteligente y
rentable de enfermedades como el cáncer, la diabetes, los trastornos cardiovasculares, el
Parkinson y el Alzheimer [18].
72
investigación, con posibles alcances en la reparación de células y
tejidos dañados, la cura del cáncer, el tratamiento de la
arteriosclerosis, la desintegración de coágulos sanguíneos, ruptura
de cálculos renales, ayuda en cirugías delicadas, etc. [19].
Sin embargo, la ciencia ficción y las noticias falsas (fake news), se han
encargado de estigmatizar un desarrollo tecnológico aún en ciernes;
por ejemplo, durante la pandemia por Covid-19, se afirmaba que las
vacunas introducían chips en nuestro cuerpo (nanobots).
Figura 1.21. ¿Los nanobots combaten el coronavirus?
La robótica, como tecnología emergente, presenta cada día nuevos
avances, como el nuevo robot humanoide de Tesla (Optimus); el
primer cobot neumático presentado por Festo de mayor precisión;
Ameca, la robot con gestos humanos más realistas, el CyberDog de
Xiaomi y un extenso etcétera.
73
Robots humanoides
Los robots humanoides son
máquinas que imitan o simulan la
forma y los movimientos de los
seres humanos. Estos robots
pueden tener diferentes propó-
sitos, como interactuar con
herramientas y entornos
humanos, estudiar la locomoción
bípeda, o realizar tareas
peligrosas, repetitivas o sociales.
Algunos ejemplos de robots
humanoides son:
NEO, un robot humanoide
desarrollado por la empresa
1X8, que utiliza la
inteligencia artificial de
OpenAI para aprender y
adaptarse a diferentes
situaciones.
Tesla bot, también conocido
como Optimus, es un Video 1.5. Futuros robots humanoides
(Video de Dr. AI-2050 en YouTube,
proyecto de robot huma- Licencia Atribución de Creative
noide anunciado por Elon Commons ).
Musk, que pretende eliminar
las tareas aburridas o riesgosas de los humanos en la fabricación
de sus coches eléctricos.
8
Esta empresa noruega ha conseguido 32,5 millones de dólares en una ronda de
financiación dirigida por OpenAI Startup Fund quien ha confiado en ellos pensando en el
impacto que puede tener el desarrollo de robots humanoides como fuerza de trabajo
(nobbot).
74
Sophia, un robot humanoide creado por Hanson Robotics, que
tiene una apariencia humana realista y puede expresar
emociones, conversar y crear arte. Ha sido entrevistada en
muchas ocasiones y en octubre del 2017, se convirtió en una
ciudadana saudí, siendo así el primer robot con ciudadanía de un
país (Wikipedia).
Ameca, es un androide
robótico que fue creado por
Engineered Arts. Ameca está
diseñado principalmente
como una plataforma para el
desarrollo adicional de
tecnologías robóticas que
involucren la interacción
humano-robot. Utiliza micró-
fonos integrados, cámaras
montadas en los ojos
binoculares, una cámara en el
pecho y software de
reconocimiento facial para
Figura 1.22. Robot Ameca
interactuar con el público. Las
interacciones pueden ser gobernadas por GPT-3 o telepresencia
humana. Ameca también cuenta con brazos motorizados
articulados, dedos, cuello y rasgos faciales.
Valkyrie, es un robot de la NASA que está diseñado para realizar
trabajos en condiciones peligrosas como las que se dan en la
Luna.
Digit, es un robot de Agility Robotics, que está siendo probado por
Amazon en un centro de I+D. Está diseñado para la manipulación
de materiales a granel dentro de almacenes y centros de
distribución (Business Insider).
Para terminar este apartado, realiza las siguientes actividades:
75
En la siguiente actividad lúdica, destapa las parejas animadas
haciendo clic sobre los recuadros, puedes cambiar las animaciones o
barajar para cambiar las posiciones de las imágenes. Espera a que se
carguen bien las animaciones.
Interactivo 1.5. Juego "Memoria animada"
Crédito: Juan Guillermo Rivera Berrío
76
Capítulo 2
IAs generativas de texto
Poster diseñado con la IA ideogram.ai.
2.1 Introducción
Esta introducción se obtuvo con la colaboración de la IA Bard de
Google.
Una IA generativa de texto es un tipo de inteligencia artificial que
puede generar texto nuevo a partir de datos existentes. Esta
tecnología utiliza algoritmos y redes neuronales avanzadas para
aprender de textos e imágenes, y luego generar contenido nuevo y
único.
Algunos ejemplos de IA generativa de texto son:
GPT-3, un modelo de lenguaje creado por OpenAI. GPT-3
puede generar texto, traducir idiomas, escribir diferentes
tipos de contenido creativo y responder preguntas de forma
informativa.
LaMDA, un modelo de lenguaje de Google AI. LaMDA puede
generar texto, traducir idiomas, escribir diferentes tipos de
contenido creativo.
Bard, soy un gran modelo de lenguaje de Google AI (es obvio
que lo diga).
Estos modelos se pueden utilizar para una variedad de propósitos,
como la creación de contenido nuevo, como artículos, historias,
poemas, guiones, piezas musicales, etc.; para traducir idiomas y
responder a preguntas. La IA generativa de texto es una tecnología
en rápido desarrollo con un gran potencial de aplicaciones. A medida
que los modelos de IA generativa de texto se vuelven más
sofisticados, es probable que se utilicen para una variedad de
propósitos nuevos e innovadores.
81
Aquí
Aquí hay
hay algunos
algunos ejemplos
ejemplos específicos
específicos de
de cómo
cómo
se puede utilizar la IA generativa de texto:
se puede utilizar la IA generativa de texto:
Un
Un escritor
escritor puede
puede utilizar
utilizar un
un modelo
modelo de
de
IA
IA generativa
generativa de
de texto
texto para
para generar
generar
ideas
ideas para
para nuevas
nuevas historias.
historias.
Un
Un periodista
periodista puede
puede utilizar
utilizar un
un modelo
modelo
de IA generativa de texto para traducir
de IA generativa de texto para traducir
artículos
artículos de
de noticias
noticias de
de un
un idioma
idioma aa otro.
otro.
Un
Un profesor
profesor puede
puede utilizar
utilizar un
un modelo
modelo de
de
IA
IA generativa
generativa de
de texto
texto para
para crear
crear
ejercicios
ejercicios personalizados
personalizados para
para sus
sus
alumnos.
alumnos.
2.2 De GPT a ChatGPT
La Inteligencia Artificial (IA) ha experimentado un
avance extraordinario en las últimas décadas, y una de las
tecnologías más notables en este campo es GPT (Generative
Pre-trained Transformer). GPT es un modelo de lenguaje basado en
redes neuronales que ha revolucionado la forma en que las máquinas
comprenden y generan texto. A continuación, se detalla cómo surgió
la IA GPT, destacando las fechas y los hechos significativos que
marcaron su desarrollo.
82
La IA GPT fue desarrollada por OpenAI, una organización de
investigación sin fines de lucro fundada por Elon Musk, Sam Altman y
otros en 2015. En noviembre de 2022, su aplicación ChatGPT fue
lanzada al público.
83
Imagen de Tumisu en Pixabay
Los Inicios de GPT se remontan a 20179, cuando un equipo de
investigadores de OpenAI comenzó a explorar modelos de lenguaje
pre-entrenados. El equipo estaba compuesto por científicos
destacados en el campo de la IA, incluidos Ilya Sutskever y Sam
Altman. Aunque OpenAI había hecho numerosas mejoras a lo largo
de los años, la base teórica y tecnológica que impulsó el surgimiento
de GPT se basó en los Transformers10, un modelo arquitectónico
presentado por primera vez en 2017. Los Transformers
revolucionaron el procesamiento de lenguaje natural al permitir la
atención basada en mecanismos y la capacidad de procesar
secuencias de palabras más largas y complejas.
2.2.1 Desarrollo histórico de GPT
2018. Publicación de GPT-1, con un entrenamiento previo no
supervisado, con aproximadamente 117 millones de
parámetros11, usando el conjunto de datos de BooksCorpus
con más de 7000 libros inéditos únicos de una variedad de
géneros que incluyen aventuras, fantasía y romance (tamaño
de 5 GB) [20].
9
Los modelos GPT son entrenados utilizando una gran cantidad de datos de texto
provenientes de diversas fuentes en Internet. El objetivo principal de GPT es generar
texto coherente y relevante en respuesta a una entrada o un contexto dado. Está diseñado
para realizar tareas de generación de texto, como completar oraciones, redactar artículos
o responder preguntas basadas en el contexto proporcionado.
10
Los Transformers son un tipo de arquitectura de redes neuronales que se utilizan en el
procesamiento del lenguaje natural (PLN). Se caracterizan por su capacidad de capturar la
relación entre las palabras de una secuencia, independientemente de su orden. Esto les
permite realizar tareas como la traducción automática, la generación de texto, la
respuesta a preguntas y el resumen automático.
11
Valores ajustables dentro del modelo que permiten capturar y representar el
conocimiento y las estructuras del lenguaje. Un mayor número de parámetros
generalmente se asocia con una mayor capacidad del modelo para capturar información y
generar respuestas más precisas y coherentes.
84
2019. Publicación de GPT-2, entrenado con 1.5 mil millones
de parámetros, en un conjunto de datos de 45 millones de
páginas web, que es aproximadamente ocho veces más
grande que el conjunto de datos de GPT-1 (40GB), lo que lo
convirtió en uno de los modelos de lenguaje más grandes y
poderosos hasta ese momento. El modelo puede generar
texto, traducir idiomas, escribir diferentes tipos de contenido
creativo y responder a preguntas.
2020. Publicación de GPT-3, que se convirtió en el modelo
más destacado de la serie GPT, fue entrenado con 175 mil
millones de parámetros, incluyendo libros, Wikipedia y
contenido web variado, lo que lo hizo aún más poderoso y
capaz de realizar tareas más complejas. Este modelo
sorprendió al mundo con su capacidad para traducir idiomas,
responder preguntas con precisión, redactar artículos,
completar oraciones y generar contenido creativo, como
poesía y música.
2021. Nace GPT-J, un esfuerzo de la comunidad open source
para replicar el funcionamiento de GPT-3.
2022. OpenAI lanza ChatGPT, una aplicación de chat basada
en GPT-3. OpenAI revela GPT-3.5, mejorando
sustancialmente la calidad y reduciendo los sesgos de GPT-3
mediante un entrenamiento más robusto.
2023. OpenAI publica GPT-4, la versión más avanzada de la IA
GPT hasta la fecha, un modelo con 1.37T de parámetros.
Los modelos de lenguaje se han vuelto más capaces y se
han implementado ampliamente, pero nuestra
comprensión de cómo funcionan internamente todavía es
muy limitada (OpenAI).
85
GPT fue el comienzo de toda una explosión de IAs generativas de
texto, como You.com (noviembre de 2021), Perplexety (agosto de
2022), Character.ai (septiembre de 2022), ChatGPT (noviembre de
2022), Microsoft Bing (2023), Bard (febrero de 2023, basada en el
modelo PaLM 2 de Google), LLaMA (febrero de 2023, usando
wikipedia en 20 idiomas), Claude (marzo de 2023, creado por
Anthropic), OpenAssistant (abril de 2023), entre muchas otras IAs.
En el siguiente video, le hemos hecho varias solicitudes a ChatGPT
3.5; entre ellas, un poema, cinco preguntas de selección múltiple, la
solución a un problema y un código en JavaScript:
Vídeo
Video 2.1. Conversando con GPT 3.5 (OpenAI).
Para la pregunta ¿Cuántos parámetros usa ChatGPT 4?, no hubo
respuesta, pues su base de datos está actualizada a 2021. Recurrimos
a Forefront.ai, que enlaza ChatGPT 3.5 a Internet.
86
ChatGPT 3.5 no tiene la capacidad de verificar la información en
tiempo real o de acceder a datos actualizados más allá de septiembre
de 2021. Situación que se puede corregir incorporando
complementos (plugins), para acceder a Internet o usando
plataformas como Forefront.ai. Otra alternativa es la versión
ChatGPT 4 de pago.
Figura 2.1. Costo mensual de ChatGPT 4 a enero de 2024
2.2.2 Alucinaciones de ChatGPT
El uso y abuso de las primeras versiones de ChatGPT, dio origen a
comentarios negativos, en especial sobre respuestas inesperadas de
la IA, como información desactualizada o, en ocasiones, falsa. A este
fenómeno se le ha dado el nombre de alucinación, que nada tiene
que ver con la percepción distorsionada del ser humano. Pero, que
sea ChatGPT quien nos dé respuesta a la pregunta ¿qué son las
alucinaciones en una IA generativa?
87
Las alucinaciones en una IA
generativa se refieren a la pro-
ducción de contenido falso, in-
coherente o no deseado por parte
del modelo generativo. Estas alu-
cinaciones pueden manifestarse en
diferentes tipos de IA generativas,
como modelos de lenguaje, redes
neuronales generativas (GAN) o
sistemas de generación de texto,
imágenes o sonidos.
Las alucinaciones pueden ser el re-
sultado de varias causas, que
incluyen:
Falta de datos de entrena-
miento adecuados: Si un mode-
lo generativo no tiene acceso a
una cantidad suficiente de
datos de entrenamiento de alta
calidad y diversidad, puede
tender a producir contenido
incoherente o incorrecto.
Sobreajuste: En algunos casos,
un modelo generativo puede
haber sido entrenado en exceso
con un conjunto de datos espe-
cífico y, como resultado, puede
generar contenido que se ajus-
ta demasiado a ese conjunto de
datos y no generaliza bien a
otras situaciones.
88
Sesgos en los datos de entre-
namiento: Si los datos de entre-
namiento contienen sesgos o
información incorrecta, es
probable que el modelo gene-
rativo también refleje estos
sesgos y genere contenido
sesgado o incorrecto.
Limitaciones en la arquitectura
del modelo: Algunos modelos
generativos pueden tener
limitaciones en su arquitectura
que los hacen propensos a
alucinaciones. Por ejemplo,
pueden generar información
completamente ficticia en lugar
de basarse en datos reales.
Las alucinaciones son un desafío
común en el desarrollo de sistemas de
inteligencia artificial generativa, y los
investigadores trabajan constante-
mente para mejorar la capacidad de
estos sistemas para generar contenido
coherente y preciso. La mitigación de
las alucinaciones a menudo implica
técnicas como el entrenamiento con
conjuntos de datos más grandes y
diversos, la implementación de meca-
nismos de atención y la supervisión
cuidadosa del contenido generado
para detectar y corregir alucinaciones
cuando ocurren.
89
Imagen generada por lexica.art.
Ejercicio con GPT-3.5
Conversando con el modelo GPT-3.5
Es importante que entiendas que ChatGPT 3.5 es una interfaz que
usa el modelo de lenguaje grande (LLM) GPT-3.5. Pero, existen otras
herramientas que usan este modelo. Una de ellas es H2oGPT12, que
mostramos en el objeto interactivo de la página derecha13.
Realiza el siguiente ejercicio:
En Visible Models haz clic en Select_Any y desactiva los tres
primeros modelos, de tal forma que solo quede GPT-3.5.
En el cuadro de texto Ask anything or Ingest, escribe ¿Quién
es el actual campeón mundial de fútbol?, y presiona la tecla
Intro.
Limpia la página (clear).
En la columna izquierda, activa el botón Web search y vuelve
a hacer la misma pregunta.
La respuesta a la primera pregunta, se constituye en una alucinación,
cuya causa es la falta de datos de entrenamiento adecuados, pues
GPT-3.5 fue entrenado con datos a 2021.
Haz la misma pregunta en la interfaz ChatGPT-3.5 de OpenAI.
12
H2oGPT es un conjunto de repositorios de código abierto para crear y utilizar LLM
basados en Transformadores Generativos Preentrenados (GPT). H2oGPT ofrece
modelos ajustados con miles de millones de parámetros y permite el uso comercial bajo
licencias permisivas de Apache 2.0.
13
Haz clic en el botón de la esquina superior derecha, para ampliar el objeto interactivo
90
91
2.2.3 No son palabras... son tokens
La familia de modelos GPT procesa texto utilizando tokens, que son
secuencias comunes de caracteres que se encuentran en el texto. Los
modelos comprenden las relaciones estadísticas entre estos tokens y
se destacan en producir el siguiente token en una secuencia de
tokens.
En el tokenizer de OpenAI usamos la frase "Medellín es una ciudad de
Colombia"; en un principio, diríamos que son 6 palabras en el texto,
pero GPT procesa 12 tokens:
Figura 2.2. Tokenizador de OpenAI
El tokenizador lo que hace es transformar el texto en fragmentos muy
pequeños llamados tokens. Luego, el modelo de lenguaje opera en
función de esos tokens al comprender la entrada y los procesos generan
un token a la vez. La cantidad de tokens procesados afecta directamente
el costo de uso del modelo. Además, todos los modelos tienen un límite
máximo de tokens, por lo que es importante tener en cuenta cuántos
tokens estás enviando al modelo (KoalaChat).
El texto escrito en inglés casi siempre generará menos tokens que el
texto equivalente en idiomas distintos del inglés; por ejemplo, en el
tokenizador de la siguiente página14, reemplaza el texto por "Good
morning" y luego por "Buenos días", para que observes la diferencia
en el número de tokens.
14
Si el objeto interactivo no te abre, ve a la página gpt-tokenizer.dev.
92
Pero, el número de tokens varía de una IA a otra, pues cada una tiene
diferentes arquitecturas, que influye en el número de capas y
parámetros; mayor o menor cantidad de datos de entrenamiento;
mayor o menor capacidad de memoria, entre otras diferencias
(Gemini de Google).
Por ejemplo, LLaMA 2 utiliza más tokens que GPT 3.5 debido a su
capacidad de procesar contextos más largos y su tamaño de modelo
más grande (Perplexity).
En la siguiente página, haz el mismo ejercicio anterior y compara los
tokens generados por GPT 3.5 y LLaMA 2.
93
2.2.4 Mayor temperatura, mayor alucinación
Los grandes modelos de lenguaje intentan predecir la siguiente mejor
palabra (una palabra a la vez). Asignan una probabilidad a cada
palabra de su vocabulario y luego eligen una palabra entre ellas. Una
temperatura de 0 significa aproximadamente que el modelo siempre
seleccionará la palabra de mayor probabilidad. Una temperatura más
alta significa que el modelo podría seleccionar una palabra con una
probabilidad ligeramente menor, lo que genera más variación,
aleatoriedad y creatividad. Por lo tanto, una temperatura muy alta
aumenta el riesgo de "alucinaciones", lo que significa que la IA
comienza a seleccionar palabras que no tendrán sentido o estarán
fuera de tema (https://gptforwork.com/).
94
Hicimos un ejercicio usando el modelo de LLaMa 2, el cual puedes
observar en el siguiente video
Vídeo
Video 2.2. El parámetro temperatura como causa de alucinaciones.
El valor de temperatura por defecto para
la mayoría de los modelos de lenguaje es
1.0. Este valor genera texto que es
similar al texto del conjunto de datos de
entrenamiento, pero con un toque de
creatividad, que puede conducir a la
alucinación; sin embargo, algunos
modelos de lenguaje populares, como
GPT-2 y GPT-3, utilizan valores de
temperatura entre 0,7 y 1,0 para generar
texto coherente y legible.
95
2.2.5 Retrieval-Augmented Generation (RAG)
La no actualización de los LLM es un factor de alucinación; por
ejemplo, le preguntamos a LLaMA 2, ¿Cuál es el planeta que tiene
más lunas?, su respuesta fue: "El planeta con más lunas es Júpiter.
Júpiter tiene un total de 79 lunas conocidas, siendo las cuatro más
grandes Ío, Europa, Ganímedes y Calisto". Podríamos afirmar que no
alucinó, pues respondió de acuerdo a su conocimiento (base de
conocimientos), pero esta falta de datos de entrenamiento, la hemos
considerado "alucinación".
Un posible salvavidas para los LLM es "la generación de recuperación
aumentada (RAG), que mejora los modelos de lenguaje grandes (LLM)
al incorporar información adicional de la recuperación" [21], tal como
lo hizo Copilot de Microsoft, con la misma pregunta:
Figura 2.3. Respuesta de Copilot a la pregunta ¿Cuál es el planeta con más lunas?
96
Si seguimos la lógica del LLM, inicialmente encontró a Júpiter como el
planeta con más lunas, pero los datos recuperados por la técnica
RAG, le permitió corregir en el segundo párrafo.
Increíblemente, Gemini 1.0 Pro en Google AI Studio, respondió:
Figura 2.4. Respuesta de Gemini 1.0 Pro
Figura 2.5. Las lunas de Saturno, diseñadas con la IA Designer de Microsoft
97
2.3 LLaMA 2, la IA generativa de Meta
En febrero de 2023, Meta (antes Facebook) lanza la familia de
grandes modelos de lenguaje (LLM) llamada LLaMA (Large Language
Model Meta AI).
LLaMA utiliza la arquitectura transformer, la arquitectura estándar para
el modelado de lenguajes desde 2018. Los desarrolladores de LLaMa
centraron su esfuerzo en escalar el rendimiento del modelo aumentando
el volumen de datos de entrenamiento, en lugar de la cantidad de
parámetros, razonando que el costo dominante para los LLM es hacer
inferencias en el modelo entrenado en lugar del costo computacional del
proceso de entrenamiento. LLaMA se capacitó en 1,4 billones de
tokens15, extraídos de fuentes de datos disponibles públicamente, que
incluyen páginas web extraídas por CommonCrawl, repositorios de
código abierto de GitHub, Wikipedia en 20 idiomas diferentes, libros de
dominio público del Proyecto Gutenberg, el código fuente de LaTeX para
artículos científicos cargados en ArXiv (Wikipedia).
Una semana después del lanzamiento de LLaMA, sus
datos se filtraron al público en 4chan a través de
BitTorrent.
Una IA generativa Open Source
Esta última versión de LLaMA es "accesible para individuos,
creadores, investigadores y empresas de todos los tamaños para que
puedan experimentar, innovar y escalar sus ideas de manera
responsable. Esta versión incluye pesos de modelo y código inicial
para modelos de lenguaje LLaMA previamente entrenados y
ajustados, que van desde parámetros 7B a 70B" (GitHub).
15
Al igual que otros modelos de IA, incluido el GPT-3 de OpenAI, LLaMA se basa en una
colección masiva de palabras o "tokens". Desde aquí, LLaMA puede tomar una entrada de
palabras y predecir la siguiente palabra para generar recursivamente más texto, explica
Meta en una publicación de blog de febrero.
98
Charla (chatea) con LLaMA 2
99
En la interfaz anterior, le preguntamos a LLaMA 2 ¿Qué modelo de
lenguaje usas? Esta fue su respuesta:
Como modelo de lenguaje, uso un modelo de lenguaje
entrenado por medio de un proceso de aprendizaje
automático llamado "aprendizaje profundo". Este
modelo se basa en una red neuronal artificial (Red
Neuronal Recurrente - RNN) que ha sido entrenada
con un gran conjunto de datos de texto, utilizando
una técnica llamada "aprendizaje supervisado".
Durante el entrenamiento, la red neuronal se enfoca
en aprender a predecir la siguiente palabra en una
secuencia de texto, dada la información de las
palabras anteriores. Esto se repite millones de veces,
y la red neuronal ajusta sus pesos y conexiones para
mejorar su precisión en la predicción.
Una vez entrenado, el modelo de lenguaje puede ser
utilizado para realizar diversas tareas, como
responder preguntas, generar texto coherente,
traducir idiomas, entre otras. En mi caso, he sido
entrenado para responder preguntas de manera
efectiva y proporcionar información útil en español.
A continuación, puedes consultar la descripción técnica de este
modelo de lenguaje grande (PDF convertido a HTML5 con IDR
Solutions).
100
Descripción técnica de LLaMA 2
101
LLaMA 2 también alucina
La mejor fuente para describir esta IA es la IA misma... eso pensaba;
sin embargo, parece que la IA anda confundida con su fecha de
nacimiento, tal como se evidencia en el siguiente video:
Vídeo
Video 2.3. IA generativa LLaMA 2.
Volviendo a preguntarle, nos dejó preocupados pues inicia con la
siguiente frase:
LLaMA2 es un modelo de lenguaje AI desarrollado por
la empresa de tecnología japonesa, Meta AI. Fue
lanzado en mayo de 2022 y es la segunda versión del
modelo de lenguaje LLaMA, que se lanzó por primera
vez en 2019.
102
Dada las alucinaciones, recurrimos a la página de Meta AI,
obteniendo:
Los modelos preentrenados de LLaMA 2 se entrenan con 2
billones de tokens y tienen el doble de longitud de contexto
que LLaMA 1. Sus modelos ajustados se han entrenado con
más de 1 millón de anotaciones humanas.
LLaMA 2 supera a otros modelos de lenguaje de código
abierto en muchos puntos de referencia externos, incluidas
pruebas de razonamiento, codificación, competencia y
conocimientos.
LLaMA 2 fue entrenado previamente con fuentes de datos en
línea disponibles públicamente. El modelo perfeccionado,
Llama Chat (Chatbot), aprovecha conjuntos de datos de
instrucciones disponibles públicamente y más de 1 millón de
anotaciones humanas.
Code LLaMA es un modelo de generación de código
construido en Llama 2, entrenado en 500 mil millones de
tokens de código. Admite los lenguajes de programación
comunes que se utilizan en la actualidad, incluidos Python,
C++, Java, PHP, Typecript (Javascript), C# y Bash.
Contamos con una amplia gama de partidarios en todo el
mundo que creen en nuestro enfoque abierto hacia la IA
actual: empresas que han brindado comentarios tempranos y
están entusiasmadas de construir con LLaMA 2, proveedores
de nube que incluirán el modelo como parte de su oferta a los
clientes. investigadores comprometidos a realizar
investigaciones con el modelo, y personas de tecnología,
academia y política que ven los beneficios de Llama y una
plataforma abierta como nosotros.
103
Pero, la preocupación de las alucinaciones de LLaMA 2, no la
pasamos por alto, así que indagamos sobre casos similares. Nos
encontramos con varios artículos relacionados con el tema, de los
cuales seleccionamos el publicado en Arthur AI [23], el cual se trata
de un experimento realizado con las IAS ChatGPT 4, Claude, LLaMA
2, ChatGPT 3.5 y Cohere, a las cuales se les hicieron preguntas en
tres categorías, que exigen múltiples pasos de razonamiento sobre la
información y, en consecuencia, mayor probabilidad de alucinar. Pero,
para no alargar la discusión, presentamos los resultados de la primera
categoría, en la siguiente imagen:
Figura 2.6. Resultados de la primera categoría sobre matemática combinatoria en el
experimento Hallucination Experiment.
Sorprende como LLaMA 2 no acertó en ninguna de las 18 preguntas,
alucinando en 14 y dejando de responder 4.
104
Dado que no hemos comprado la suscripción a ChatGPT 4, hicimos
nuestra pregunta a Claude 2 que fue la segunda IA en mayores
aciertos. Esto respondió:
LLaMA (Large Language Model Meta AI) es un modelo
de lenguaje generativo desarrollado por Anthropic,
lanzado en febrero de 2023.
Se puede entender porque acertó solo el 33% en el experimento
Arthur. Pero, hicimos la misma pregunta a la IA You.com, y...
Figura 2.7. Respuesta de la IA You.com sobre LLaMA 2.
¡Increíble! LLaMA 2 fue lanzada HOY16.
¿Estoy alucinando?
16
El 22 de septiembre de 2023 es la fecha en la que se redacta este apartado.
105
Como un último ejercicio con Claude 2, pusimos en la Arena a LLaMA
2 con Claude 2, obteniendo en enero de 2024:
Figura 2.8. Respuestas obtenidas con Claude 2 y LLaMA2 (Haz clic sobre la imagen,
para ir a la aplicación).
La aplicación de https://chat.lmsys.org/, permite poner a prueba dos
modelos (contendores), desde la pestaña Arena (side-by-side). Lo
cierto es que los modelos seleccionados se equivocaron en la
respuesta. Quizá, las alucinaciones obedecen a que no hay una fecha
clara del lanzamiento de LLaMA 2.
106
2.4 La IA Gemini de Google (antes Bard)
Usando la misma pregunta, en 2023, incursionamos en la IA Bard de
Google (modelo PaLM 2), obteniendo como respuesta:
LLaMA 2 es un modelo de lenguaje generativo de código abierto
desarrollado por Meta y Microsoft. Fue lanzado el 19 de julio de
2023.
Le replicamos así: "Tengo entendido, por buenas fuentes, que su
lanzamiento fue en febrero de 2023".
Nos sorprendió, gratamente, su respuesta:
Es posible que tengas razón. Según el comunicado de prensa de Meta
y Microsoft, LLaMA 2 se anunció el 2 de febrero de 2023, y se puso a
disposición de los investigadores el 14 de febrero de 2023. Sin
embargo, el lanzamiento público de LLaMA 2 no se produjo hasta el
19 de julio de 2023.
Respuesta con la cual estamos, parcialmente, de acuerdo, ¿qué
fuentes consultaron las anteriores IAs?
107
En diciembre de 2023, Google presenta su nuevo modelo, se trata de
Gemini, que viene en tres versiones: Ultra, Pro y Nano. Según Google
"Gemini es el primer modelo que supera a los expertos humanos en
MMLU (Massive Multitask Language Understanding), uno de los
métodos más populares para probar el conocimiento y las
capacidades de resolución de problemas de los modelos de IA".
Figura 2.9. Los tres tamaños de Gemini.
El 2 de febrero de 2024 se libera Gemini Pro en todos los idiomas.
Figura 2.10. Mensaje de actualización de Google.
108
Gemini ha sido optimizado para
ejecutarse en dispositivos de
diferentes capacidades (Ultra, Pro
y Nano), ha mostrado un
desempeño superior en 30 de 32
pruebas académicas aplicadas a
modelos de lenguaje, incluyendo
un puntaje de 90.0% en
comprensión de lenguaje
multiconceptual masivo (MMLU),
eclipsando la capacidad de análisis
de los especialistas humanos en
áreas como matemáticas, física, historia y medicina. Al ser una IA
multimodal (puede trabajar con diferentes tipos de datos, como
texto, código, imágenes y audio), probamos ingresando la imagen de
la derecha, para pedirle a Bard que describiera la imagen,
obteniendo:
En la imagen se observa un tigre de Bengala sentado en una
playa de arena dorada. El tigre está de perfil, mirando hacia el
mar. Sus rayas negras y naranjas contrastan con el azul intenso
del cielo y el verde esmeralda de las palmeras que se encuentran
detrás de él.
Las olas golpean la orilla con fuerza, creando una espuma blanca
que se extiende por la playa. Un faro se alza en la distancia,
iluminando el horizonte.
La imagen transmite una sensación de paz y tranquilidad. El tigre
parece estar disfrutando del sol y del sonido de las olas. El faro
es un símbolo de esperanza y seguridad.
¡Alucinación multimodal!
109
Oscura o clara
Las respuestas de las IAs generativas
se presentan muy convincentes,
elegantes en su redacción y, como en
la imagen central, bellas en su
descripción, pero ¿cómo identificar la
respuesta correcta?, ¿es clara u oscura
la información? Quizá, la única salida
es confrontar con fuentes confiables,
lo que haría inútil el uso de la IA.
Pero... hay una luz en el túnel.
Según Nuevo diario, uno de los
primeros problemas de los chatbots
de inteligencia artificial es la dudosa
fidelidad de sus respuestas. Para
solucionar ese problema, Bard ahora
cuenta con una opción para verificar
los textos e información que
proporciona, y consultar las fuentes
que utilizó para responder. Situación
que podría explicar porque Bard dio
mejores respuestas.
Pero, dejemos a un lado las aluci-
naciones e indaguemos sobre esta
nueva IA. Al preguntarle sobre ella
misma, responde:
Soy Bard, un gran modelo de lenguaje
(LLM) creado por Google AI. Fui
entrenado en un conjunto de datos
110
masivo de texto y código, lo que me
permite generar texto, traducir
idiomas, escribir diferentes tipos de
contenido creativo y responder a tus
preguntas de forma informativa.
Fui lanzado al público el 18 de enero
de 2023.
Una de las principales diferencias
entre mí y otros LLM es que estoy
entrenado en un conjunto de datos
mucho más grande. Esto me permite
generar texto de mayor calidad y más
creativo.
Otra diferencia es que soy capaz de
acceder y procesar información del
mundo real a través de la Búsqueda
de Google. Esto me permite
proporcionar respuestas más
completas e informativas a tus
preguntas.
Tengo 137B parámetros, lo que me
hace uno de los LLM más grandes del
mundo.
Consulto una variedad de fuentes,
incluyendo libros, artículos, sitios
web, código, Google Imágenes,
YouTube, etc.
111
Imagen generada por lexica.art.
En el siguiente video, presentamos la consulta realizada a Bard y
algunas características adicionales de la IA. Al final del video,
presentamos una buena noticia sobre la IA Bing:
Vídeo
Video 2.4. IA generativa Bard.
A continuación, presentamos el audio que describe la IA Bard:
Audio 2.1. Descripción de la IA Bard, realizada por Bard mismo.
112
2.5 La IA Copilot de Microsoft (antes Bing)
Habíamos afirmado que estábamos parcialmente de acuerdo con
Bard, pues LLaMA 2 se lanza al público el 18 de julio y no el 19 como
lo afirma Bard y, para investigadores el 24 de febrero, 10 días
después de lo afirmado por Bard (véase el post de Meta AI).
Pero, de las anteriores, Bard es la más confiable. Veamos que
respuestas nos dio Bing en 2023:
La IA generativa LLaMA 2 fue lanzada por Meta en
colaboración con Microsoft el 18 de julio de 2023 [25]. Es la
siguiente generación de su gran modelo lingüístico (LLM,
por sus siglas en inglés) de código abierto para
desarrolladores de soluciones de IA [29].
Luego continúa enunciado fortalezas como el acceso gratuito, código
abierto, transparencia y tamaños de modelo variados (Meta ha
lanzado tres tamaños de su modelo de lenguaje: de 7.000, 13.000 y
70.000 millones de parámetros).
Incorporando referencias
Una ventaja inicial es que la IA generativa Bing suministra los enlaces
a las páginas, libros o artículos en los que consultó la información, de
tal forma que podamos confrontar y estar más seguros antes de
publicar.
Ahora, veamos como la IA generativa Bing de Microsoft, se describe a
sí mismo, a partir del prompt: "Dame una buena descripción de Bing
que deslumbre o se destaque sobre las demás IAs generativas".
113
Bing, una creación de Microsoft, es una inteligencia artificial
(IA) generativa que se destaca en el panorama de la IA por su
capacidad para generar contenido creativo e innovador. A
diferencia de otras IAs, Bing no se limita a responder
preguntas o realizar tareas específicas, sino que puede crear
contenido original en una variedad de formatos, desde
poemas y cuentos hasta código y ensayos.
Además, Bing tiene la capacidad de buscar en la web para
obtener información actualizada, lo que le permite
proporcionar respuestas precisas y relevantes a las
preguntas de los usuarios. Esta capacidad de búsqueda en la
web, combinada con su habilidad para generar contenido
creativo, hace que Bing sea una herramienta poderosa para
la generación de contenido.
Bing también tiene la capacidad de generar arte gráfico a
través de una herramienta de inteligencia artificial, lo que le
permite crear imágenes originales basadas en las solicitudes
de los usuarios. Esta capacidad para generar arte gráfico es
única en el campo de la IA generativa y añade otra
dimensión a las capacidades de Bing.
En resumen, Bing es una IA generativa que combina la
capacidad de búsqueda en la web, la generación de
contenido creativo y la creación de arte gráfico para
proporcionar una experiencia de usuario rica y diversa que
se destaca en el campo de la IA generativa.
114
Una buena característica que no enuncia Bing, en su descripción, es la
posibilidad de preguntarle sobre una imagen; por ejemplo, le hemos
subido la imagen de la figura 2.6 y hemos obtenido la siguiente
respuesta:
La imagen representa una cabeza de robot de aspecto
realista con un rostro difuminado. La cabeza del robot es de
color blanco y tiene un interior negro. Se encuentra frente a
un fondo azul con líneas verticales. El rostro difuminado es
un gran cuadrado en el centro de la cabeza del robot. La
cabeza del robot tiene cables y alambres que salen de la
zona del cuello. La cabeza del robot tiene una parte superior
redonda con una pequeña antena en la parte superior. Esta
imagen podría ser una representación artística de un robot
o una inteligencia artificial.
Figura 2.11. Imagen diseñada por la IA Leia Pix y subida a la IA Bing.
115
Por otra parte, Bing está en la capacidad de generar imágenes a partir
de una petición del usuario.
Los generadores de imágenes de IA funcionan utilizando algoritmos de
aprendizaje automático para aprender de grandes conjuntos de datos de
imágenes y generar nuevas imágenes basadas en parámetros de
entrada. Un generador de imágenes de IA a menudo hace uso de una
técnica de aprendizaje automático llamada redes neuronales artificiales
que pueden recibir entrada en forma de palabras, que luego procesa
para generar una imagen.
Para generar nuevas imágenes, se utiliza una arquitectura llamada
Redes Generativas Antagónicas (GAN). Funciona con un generador
compuesto por un codificador y un decodificador y un discriminador.
Para el generador, tanto el codificador como el decodificador son redes
neuronales convolucionales, pero el decodificador funciona en sentido
inverso.
Además, los generadores de imágenes de IA como DALL-E 2 y Stable
Diffusion han creado mucho revuelo recientemente. Estos modelos se
entrenan en millones y millones de fotos y han aprendido a identificar
cosas a través de fotos existentes reales creadas por personas reales.
Cuando estos modelos reciben una entrada de texto similar a las
imágenes que han visto, son capaces de generar una foto que se parece
mucho a las muchas imágenes que ya han observado.
Sin embargo, hay preocupaciones crecientes cuando se trata de
herramientas generadoras de imágenes de IA, principalmente en lo que
respecta a la ética de tales herramientas cuando pueden generar
imágenes de personas reales en lugares o situaciones en las que no
estaban realmente (Texto generado por Bing).
Las imágenes de la siguiente página fueron generadas por Bing en
asociación con Dall-E 3, luego de decirle "Crea una imagen
relacionada con las inteligencias artificiales generativas, que incluya
libros y ordenadores" (haz clic sobre la siguiente imagen, para
mostrar las demás).
116
Interpretación de imágenes - Bard versus Bing
La interpretación que Bing hace de la imagen en la figura 2.4 es
bastante literal; es decir, se limitó a describir formas, colores y, como
un punto a favor, reconoció la imagen de un robot. Sin embargo, al
hacer el mismo ejercicio con Bard... esto respondió:
La imagen representa la fusión de la tecnología y la
humanidad. El robot tiene una cabeza humana, lo que lo hace
parecer más similar a los humanos que a las máquinas
tradicionales. Esto podría interpretarse como un signo de que
la tecnología se está volviendo cada vez más sofisticada y que
está comenzando a acercarse a la inteligencia humana.
La expresión seria del robot también podría interpretarse
como un signo de que la tecnología está cada vez más
consciente de sí misma. El robot está mirando a la cámara con
atención, lo que podría sugerir que está pensando en su lugar
en el mundo.
En general, la imagen es una representación inquietante pero
intrigante del futuro de la tecnología. Sugiere que la
tecnología se está volviendo cada vez más poderosa y que
está comenzando a desafiar nuestra comprensión de la
humanidad.
¿Sigo alucinando?
118
En enero de 2024, volvimos a hacer la pregunta a Copilot (antes
Bing)... el cambio fue radical, esto nos respondió:
La imagen que me enviaste es una obra de
arte digital que representa a un robot o
androide con la cara borrosa. El texto en la
imagen dice “¿Qué representa esta
imagen?” y parece ser una invitación a
reflexionar sobre el significado de la
imagen. Tal vez el artista quiso expresar la
idea de que los robots tienen una identidad
propia, pero que no es fácil de reconocer o
aceptar por los humanos. O tal vez el artista
quiso mostrar la complejidad y el misterio
de la inteligencia artificial, que puede crear
cosas que no podemos entender
completamente.
Este cambio da cuenta de las mejoras que día a día se le están
haciendo a las IAs generativas, incluido el chat de Bing o Microsoft
copilot17.
17
A finales de 2023, Microsoft hace un cambio en Bing, que pasa a llamarse copilot que, en
enero de 2024 se incorpora, también, en las aplicaciones de Microsoft 365.
119
2.6 Mistral AI, la empresa francesa de IA
2.6.1 Mistral 7B
El LLM (Large Language Model) Mistral es un modelo que fue
desarrollado por la empresa Mistral AI. Tiene 7.3 mil millones de
parámetros y puede generar texto sobre diversos temas y formatos.
Existen dos versiones: Mistral 7B v0.1 y Mistral 7B Instruct v0.2, con
esta última puedes practicar en https://huggingface.co/, en algunos
de los siguientes enlaces: osanviero, SoAp9035 o DarwinAnim8or.
La descripción técnica de Mistral, la presentamos en la siguiente
página, en la cual se observan varias ventajas significativas:
Rendimiento Superior: Mistral 7B supera a otros modelos en
una variedad de benchmarks, incluyendo razonamiento,
matemáticas y generación de código.
Eficiencia en la Inferencia: El modelo utiliza mecanismos de
atención como grouped-query attention (GQA) y sliding window
attention (SWA) para acelerar la velocidad de inferencia y
reducir los requisitos de memoria durante la decodificación, lo
que permite un mayor rendimiento.
Licencia Abierta: El modelo se ha lanzado bajo la licencia
Apache 2.0, lo que permite su implementación y uso más
amplio.
Nuestro trabajo en Mistral 7B demuestra que los modelos de
lenguaje pueden comprimir el conocimiento más de lo que se
pensaba... queda mucho por explorar para obtener el mejor
rendimiento con el modelo más pequeño posible (Mistral AI).
120
Descripción técnica de Mistral
121
Mistral en local
Hemos dicho que Mistral 7B es un LLM, pero es común incluirlo en
los llamados modelos de lenguaje pequeños (SLM) que, por su
tamaño, son ideales para descargarlos y probarlos en local, usando un
computador sin muchas exigencias de hardware.
Existen varias aplicaciones, que permiten descargar modelos de
código abierto y ejecutarlos en local sin conexión a Internet, una de
ellas es LM Studio construido por Element Labs, una startup de
software de inteligencia artificial con sede en Nueva York.
Algunas ventajas de usar los LLM en local son:
Uso de varios modelos. Podemos probar algunos de los
modelos de código abierto más populares como LLaMA 2,
Vicuna, Mistral, Phi 218, etc.
Privacidad. Cuando ejecutamos un modelo en local, no
compartimos información en la nube.
Experimentación. Podemos investigar los modelos de código
abierto y conocer sus fortalezas y debilidades.
Costo. Los modelos de código abierto son gratuitos y algunos
de ellos pueden usarse comercialmente sin limitaciones.
No censura. Podemos preguntar lo que queramos,
obviamente con criterios éticos y responsabilidad social.
18
Phi 2 es un modelo de lenguaje de 2,7 mil millones de parámetros que demuestra
excelentes capacidades de razonamiento y comprensión del lenguaje, mostrando un
rendimiento de vanguardia entre los modelos de lenguaje base con menos de 13 mil
millones de parámetros. En pruebas comparativas complejas, Phi 2 iguala o supera a
modelos hasta 25 veces más grandes, gracias a nuevas innovaciones en escalado de
modelos y curación de datos de entrenamiento (Microsoft).
122
En el siguiente video, puedes observar cómo se usa LM Studio pero,
antes de verlo y aplicarlo, es importante comprender la llamada
cuatificación Q:
La cuantificación se refiere al uso de números de menor precisión, como
números enteros de 8 bits en lugar de valores de punto flotante de 32
bits, para representar los pesos y activaciones en el modelo. Esto reduce
el uso de memoria y acelera la inferencia en el hardware de su
computadora. La cuantificación puede reducir ligeramente la precisión
del modelo en comparación con una versión de precisión total, pero
proporciona un ahorro de memoria hasta 4 veces mayor y una inferencia
más rápida (Gene Bernardino).
Vídeo
Video 2.5. Uso de IAs generativas de texto, en local, con LM Studio.
123
2.6.2 Mixtral 8x7B
Mixtral 8x7B de Mistral AI, es un modelo de lenguaje grande (LLM)
basado en el concepto de mezcla de expertos (MoE), que presenta
una vía innovadora para la personalización de la IA. Esta mezcla de
expertos (MoE)19, está compuesta por 8 subredes expertas de 6 mil
millones de parámetros cada una.
Mixtral 8x7B es un modelo de lenguaje Sparse Mixture of Experts (SMoE),
que tiene la misma arquitectura de Mistral 7B, con la diferencia de que
cada capa está compuesta por 8 bloques feedforward (expertos). Para
cada token, en cada capa, una red de enrutadores selecciona dos
expertos para procesar el estado actual y combinar sus resultados.
Aunque cada token solo ve a dos expertos, los expertos seleccionados
pueden ser diferentes en cada paso de tiempo. Como resultado, cada
token tiene acceso a 47B de parámetros, pero solo utiliza 13B de
parámetros activos durante la inferencia. Mixtral se entrenó con un
tamaño de contexto de 32k tokens y supera o iguala a Llama 2 70B y
GPT-3.5 en todos los puntos de referencia evaluados. El modelo
ajustado para seguir instrucciones, Mixtral 8x7B - Instruct, supera a
GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B. Tanto el modelo
base como el de instrucción se publican bajo la licencia Apache 2.0 [26].
Puedes probar el modelo en https://labs.perplexity.ai/,
https://chat.nbox.ai/ o https://api.together.xyz/. Una publicación de
Jiang et al. de enero de 2024, describe ampliamente la arquitectura
del modelo y los resultados obtenidos y contrastados con otros
modelos LLM. En la página siguiente presentamos esta publicación,
que puedes traducir o resumir con otras IA expertas en ello, tal como
lo hace Claude en el siguiente apartado.
19
He aquí la innovación de Mistral AI, pues el modelo funciona con un enrutador que asigna
a cada vector de entrada 2 de los 8 expertos. La salida es la suma ponderada de las salidas
de los dos expertos seleccionados. En una forma simple, si hacemos una pregunta sobre
matemáticas, el enrutador selecciona dos expertos en matemáticas, usando solo 13B de
parámetros. Se cree que OpenAI ha empleado esta estrategia para GPT 4.
124
Mixtral de Expertos
125
2.6.3 Mistral + Microsoft: Mistral Large
Microsoft y Mistral AI anuncian una nueva
asociación para acelerar la innovación en IA e
introducir Mistral Large por primera vez en
Azure
La startup Mistral AI, con sede en Francia, ha añadido un nuevo modelo
de lenguaje grande (LLM) a un mercado de IA cada vez más saturado, y
afirma que su nuevo Mistral Large puede competir con varios de los
principales competidores.
En un post publicado el 26 de febrero de 2024, la empresa con sede en
París señala que Mistral Large supera a varios LLM notables, excepto
GPT-4, en una prueba de "comprensión lingüística multitarea" y obtiene
buenos resultados en varias pruebas matemáticas y de codificación
(Brayden Lindrea en Cointelegraph).
Figura 2.12. Comparación de Mistral Large con otros LLM en comprensión lingüística
masiva multitarea. Fuente: Mistral AI.
126
Estamos encantados de embarcarnos en esta
asociación con Microsoft. Con la infraestructura
de IA de vanguardia de Azure, estamos
alcanzando un nuevo hito en nuestra expansión
impulsando nuestra investigación innovadora y
aplicaciones prácticas a nuevos clientes en todas
partes.
Arthur Mensch, director ejecutivo de Mistral AI
Algunas de sus capacidades y fortalezas son: habla con fluidez nativa
inglés, francés, español, alemán e italiano, con una comprensión
matizada de la gramática y el contexto cultural; su ventana
contextual de 32.000 tokens permite recuperar información precisa
de documentos grandes; su seguimiento preciso de instrucciones
permite a los desarrolladores diseñar sus políticas de moderación.
Luego de haber asimilado tan espectaculares noticias, probamos
Mistral en su enlace Le Chat, obteniendo:
Figura 2.13. Respuesta de Mistral Large a la pregunta ¿Cuál es el planeta con más
lunas?
127
2.7 LLaVA
El asistente de lenguaje y visión de gran tamaño LLaVA (Large
Language-and-Vision Assistant) representa un novedoso modelo
multimodal grande entrenado de extremo a extremo que combina un
codificador de visión y Vicuna para la comprensión visual y del
lenguaje de uso general, logrando capacidades de chat
impresionantes que imitan los espíritus del GPT-4 multimodal y
estableciendo un nuevo estado de la precisión artística en Science
QA (Microsoft).
Figura 2.14. Representación de la evolución de los modelos multimodales. [27].
El conector intermodal visión-lenguaje totalmente
conectado en LLaVA es sorprendentemente poderoso
y eficiente en términos de datos [28]
El código y el modelo de LLaVA están disponibles públicamente en
https://llava-vl.github.io/.
Aprovechando su capacidad para leer imágenes, le preguntamos qué
representa la imagen de la figura 2.14, a lo cual respondió: La imagen
muestra una serie de cuatro diferentes personajes animados, cada
uno representando un estado diferente de la evolución de un robot.
128
Los personajes están dispuestos en una fila, con cada personaje
creciendo y volviendo más complejo a medida que avanzan de
izquierda a derecha. Todos los personajes están hechos de metal y
tienen un diseño único, mostrando el progreso del desarrollo del
robot. La imagen captura la esencia del viaje del robot desde una
forma simple y básica hasta una estructura más avanzada y
sofisticada.
Del artículo de Hao et al., extraemos:
El ajuste de instrucciones de modelos LLM utilizando datos de
seguimiento de instrucciones generados por máquinas ha mejorado
las capacidades de disparo cero en nuevas tareas en el dominio del
lenguaje, pero la idea se explora menos en el campo multimodal.
Datos multimodales. Presentamos el primer intento de usar
GPT-4 de solo lenguaje para generar datos de seguimiento de
instrucciones de imagen de lenguaje multimodal.
Modelo LLaVA. Les presentamos LLaVA (asistente de lenguaje y
visión de gran tamaño), un gran modelo multimodal entrenado
de extremo a extremo que conecta un codificador de visión y un
LLM para la comprensión visual y del lenguaje de uso general.
Actuación. Nuestros primeros experimentos muestran que
LLaVA demuestra impresionantes capacidades de chat
multimodelo, a veces exhibiendo los comportamientos de GPT-
4 multimodal en imágenes/instrucciones invisibles, y produce
una puntuación relativa del 85,1% en comparación con GPT-4.
Fuente abierta. Ponemos a disposición del público los datos de
ajuste de instrucciones visuales generados por GPT-4, nuestro
modelo y nuestra base de código.
A continuación, presentamos el artículo completo, en el que puedes
usar un Chatbot LLaVA en su versión 1.6:
129
Artículo y Chatbot LLaVA
130
2.8 Falcon 180-B
Ahora, los Emiratos Árabes entran en escena Falcon 180B, el modelo
de lenguaje de código abierto más grande hasta la fecha.
LLaMA 2 de Meta está diseñado pensando en la versatilidad, ofrece
configuraciones que van desde parámetros 7B a 70B; pero, Falcon
180B: está construido con la asombrosa cifra de 180 mil millones de
parámetros, lo que lo convierte en uno de los modelos más grandes
de su categoría. El lanzamiento de Falcon 180B nos hace reflexionar
sobre el rápido desarrollo en el ámbito de la inteligencia artificial. No
solo presenciamos avances en tamaño y capacidad de procesamiento,
sino también en la calidad y diversidad de aplicaciones prácticas que
estos modelos pueden abordar. El verdadero desafío, quizá, resida en
equilibrar la escalabilidad con la ética y la accesibilidad
(https://wwwhatsnew.com/).
Si bien OpenAI ha sido un jugador clave en el mundo de modelos de
lenguaje de código abierto, Falcon 180B podría alterar esta
dinámica. Con la llegada de Gemini de Google, el panorama
competitivo está más abierto que nunca (Ibid).
Figura 2.15. Ilustración de un Halcón (Falcon) cibernético, generada por Firefly 2.
131
2.9 Otros modelos conversacionales de código
abierto
Son muchos los entusiastas e investigadores, que están creando sus
propios modelos, algunos de ellos basados en LLaMa. He aquí algunos
ejemplos:
Guanaco es un modelo de lenguaje
avanzado que sigue instrucciones
construido sobre el modelo LLaMA 7B
de Meta. Ampliando el conjunto de
datos iniciales de 52K del modelo
Alpaca, se han incorporado 534.530
entradas adicionales, que cubren inglés,
chino simplificado, chino tradicional,
japonés, alemán y diversas tareas
lingüísticas y gramaticales. Esta gran
cantidad de datos permite a Guanaco desempeñarse
excepcionalmente bien en entornos multilingües.
Vicuna-13B es un chatbot de código
abierto entrenado mediante el ajuste de
LLaMA. La evaluación preliminar
utilizando GPT-4 como juez muestra que
Vicuña-13B logra más del 90%* de
calidad de OpenAI ChatGPT y Google
Bard, mientras supera a otros modelos
como LLaMA y Stanford Alpaca en más
del 90%* de los casos. El coste del
entrenamiento del Vicuña-13B ronda los
300 dólares. El código de capacitación y servicio, junto con una
demostración en línea, están disponibles públicamente para uso no
comercial.
132
Alpaca 7B es un modelo optimizado a
partir del modelo LLaMA 7B de Meta.
El modelo Stanford-Alpaca en
demostraciones de seguimiento de
instrucciones de 52K generadas en el
estilo de autoinstrucción utilizando
text-davinci-003, muestra muchos
comportamientos similares al text-
davinci-003 de OpenAI, pero también
es sorprendentemente pequeño y
fácil/barato de reproducir.
Stable Beluga 1 y 2 de Stability AI, son
modelos de lenguaje grande que están
estableciendo nuevos estándares en la
investigación de IA. Estos modelos,
optimizados para ser inofensivos, han
sobresalido en varios puntos de
referencia, y su creación e
implementación tienen implicaciones
significativas para la comunidad de IA.
Zephyr 7B. Hugging Face presentó Zephyr 7B Alfa, lo que demuestra
que un Mistral 7B afinado puede superar las capacidades de modelos
de chat significativamente más grandes y, en algunas tareas, incluso
rivalizar con el GPT-4. El "Alfa" fue sólo el comienzo, ya que Zephyr
7B Beta lo siguió poco después. El desarrollo de Zephyr 7B ha
demostrado que se puede lograr la alineación y destilación de las
capacidades conversacionales de un modelo de lenguaje grande
(LLM) a un modelo más pequeño sin depender de métodos basados
en muestreo.
133
2.10 Conversando con los archivos
Hasta este apartado, hemos observado que las IAs generativas cada
día presentan mejoras e incorporan nuevas herramientas, como la
posibilidad de leer imágenes. También notamos el surgimiento de
alianzas, tal como lo hizo Copilot (antes Bing) con Dall-E 3 o como lo
piensa hacer Google con su nuevo proyecto Magi, en alianza con
Midjourney [30].
Una herramienta, bastante
poderosa, es la lectura de
documentos (PDF o Word), en
cualquier idioma, que permite
preguntarle a la IA sobre el
contenido en nuestro idioma.
Hemos usado varias herramientas,
a las cuales les hemos hecho
algunas preguntas, tal como lo
describimos a continuación.
2.10.1 PDF.ai
Subimos el artículo "Generative
artificial intelligence in the metaverse
era" [31] y, luego, le pedimos "Resume la introducción, por favor",
obteniendo:
La tecnología de traducción multilingüe basada en IA generativa es una
tecnología emergente que permite la traducción automática entre
diferentes idiomas. Utiliza redes neuronales para aprender las
relaciones de mapeo entre los diferentes idiomas, logrando así una
traducción automática entre ellos. Esta tecnología tiene varias ventajas,
como una alta precisión en la traducción y una velocidad rápida debido
al uso de redes neuronales.
134
Figura 2.16. Conversando con un PDF en PDF.ai.
2.10.2 chatpdf.com
Iniciamos una conversación con el PDF titulado "Generative AI" [32],
también pidiendo el resumen, luego le dijimos "Según el artículo, en la
sección 3, cuáles son las limitaciones de la IA generativa", a lo cual
respondió:
En la sección 3 del artículo, se discuten cuatro limitaciones importantes
de la IA generativa en las aplicaciones del mundo real. Estas limitaciones
son de naturaleza técnica y se refieren a cómo los modelos actuales de
IA generativa hacen inferencias. Las cuatro limitaciones son: la falta de
capacidad para recordar información más allá de una fecha de corte
específica, la compresión de información que puede hacer que los
modelos no recuerden todo lo que vieron durante el entrenamiento...
Bueno, creemos que es justo una pausa lúdica, para evitar más
alucinaciones. A continuación, presentamos un puzle de 48 piezas,
arma la imagen teniendo en cuenta la figura de fondo que te puede
servir de ayuda.
135
Puzle con una imagen de Lexica.art
Sugerencia: Arma, primero, el marco de la imagen y, si lo deseas, haz
clic en el botón para ampliar el puzle en una ventana más grande.
136
Las aplicaciones anteriores, tienen un plan gratuito bastante limitado.
La primera solo permite subir un documento y la segunda hasta un
máximo de 10 MB; sin embargo, en principio, es suficiente para
evaluarlas y tomar la decisión de suscripción.
Dos herramientas adicionales de IA, para conversar con los PDF:
2.10.3 ZenoChat
Aplicación de TextCortex, la cual usa modelos lingüísticos avanzados
como GPT-4 y Sophos 2. Está disponible como aplicación web y como
extensión del navegador [33]. Permite subir archivos tipo PDF, PPTX,
DOCX, CSV y MD, con una base de conocimiento de 50 MB en el plan
gratuito. También permite subir la dirección de una página web.
Hicimos un ejercicio, suministrando el enlace al libro "Bacterias:
Escherichia coli" y le preguntamos, usando el micrófono, ¿qué son las
endosporas?, respondiendo:
137
2.10.4 ChatDoc
Es un asistente de lectura de archivos PDF, docx, epub, txt y website.
En enero de 2024 incluye una nueva función que permite enlazar a
archivos arXiv. En el plan gratuito solo permite leer archivos PDF
hasta 20 páginas (ideal para artículos cortos).
Como ejercicio, le dimos la dirección, de arXiv, del artículo "A
Preliminary Study on Using Large Language Models in Software
Pentesting". Hicimos varias preguntas en español, respondiendo,
también, en español:
Figura 2.17. Conversando con un archivo de arXiv en ChatDoc.
En el plan gratuito permite, también, 36 MB por archivo, 2 archivos
diarios, 30 archivos en total y 20 preguntas diarias. En el plan de pago
(U$ 9 mensual) no hay límite en el número de páginas del PDF, 300
archivos mensuales y 300 preguntas diarias.
La siguiente aplicación es muy popular, pues se trata de uno de los
LLM pioneros en la incorporación de lectura de archivos PDF.
138
2.10.5 Claude 2.1
A enero de 2024, la versión de Claude es 2.1, que se puede probar en
alguno de estos enlaces: https://www.yeschat.ai/es/yeschat o
https://claude.ai/chats
Claude 2.1 ofrece una ventana de procesamiento de contexto dos
veces mayor que su antecesor, pudiendo cargar contenidos para
generar resúmenes, comparar documentos y pronosticar
tendencias. La compañía afirma que esta capacidad es una novedad
destacada a nivel industrial (https://es.wired.com/).
En el siguiente video mostramos cómo poner a conversar los
artículos de Zhihan [31], Feuerriege [32] y HAI de la Universidad de
Stanford [34] en la IA generativa Claude 2 de Anthropic.
Vídeo
Video 2.6. Conversando con tres PDF en Claude 2.
139
Una de las características más atractivas de
Claude 2 es sin duda su accesibilidad.
Mientras que GPT-4 cobra 20 dólares
mensuales 💵 por su versión Plus, Claude 2
rompe con este modelo y ofrece su servicio de
manera gratuita 🎉, facilitando a un público
más amplio experimentar con inteligencia
artificial de alta calidad (Menras).
Daniel Menras, también destaca:
En un mundo donde cada segundo cuenta,
Claude 2 destaca al producir cerca de 100
caracteres por segundo. Esta eficiencia se
traduce en respuestas rápidas y generación de
contenido en tiempo real. La capacidad de
Claude 2 en programación no se queda atrás,
en pruebas de programación, superó a GPT-4 al
obtener un impresionante 71,2% 🏆
convirtiéndose en una herramienta valiosa
para desarrolladores.
El debate entre Claude 2 y GPT-4 no tiene una
respuesta única. Ambas IAs tienen sus
fortalezas y áreas de especialización. La
elección ideal dependerá del contexto, las
necesidades y los objetivos específicos del
usuario. Podemos estar seguros de una cosa: la
inteligencia artificial está redefiniendo los
límites de lo posible, y tanto Claude 2 como
GPT-4 son testimonios vivos de esta
transformación. ¡El horizonte de la IA nos
depara muchas sorpresas y oportunidades! 🌌
140
141
2.10.6 Conversando con
documentos en varias IAs en
h2oGPT
En esta plataforma, podemos conversar
con IAs como LLaMA 2, Mixtral, Zephyr,
GPT 3.5, Openchat 3.5, Vicuna, LLaVA,
entre otros. Hemos subido el PDF del
libro "Cuarta revolución industrial y
solicitamos una descripción del libro. El
resultado se observa en la imagen de la
derecha.
Excepto por Mixtral 8x7B, todas dieron la
respuesta en español. La plataforma,
también permite subir la dirección de un
sitio web.
Hicimos el mismo ejercicio con Mistral
7B, Vicuna, LLaVA y Openchat 3.5, este
último fue el único que dio respuesta, así:
En resumen, el libro "Cuarta revolución
industrial - Fundamentos" es una
exploración detallada y bien estructurada
del tema de la Cuarta Revolución
Industrial y su impacto en nuestra
sociedad y economía. El libro ofrece una
visión de lo que consideran los autores
como la transformación más intensa e
importante que enfrentamos en la
actualidad.
142
143
2.10.7 ¡Es muy largo, NO lo he leído! TLDR
Esta es, también, una buena herramienta para subir archivos PDF y
conversar con ellos. Que sea el video el que nos muestre cómo se usa:
Vídeo
Video 2.7. TLDR.
2.10.8 Ask your PDF
Pese a su nombre, ahora admite formatos pdf, txt, ppt, pptx, epub y
rtf. También acepta URLs. Los documentos cargados por usuarios
gratuitos permanecen en la base de datos durante un máximo de 90
días antes de ser eliminados.
Le hemos subido una presentación, en formato pptx, del curso
"Diseño de libros interactivos". Le pedimos que nos dijera de qué
trata la presentación, esta fue su respuesta:
144
El documento contiene información sobre el diseño de portadas de
libros, estilos de imagen, numeración de páginas, derechos de autor de
imágenes generadas por diferentes servicios como DALL-E, Lexica,
Midjourney, Playground y Firefly. También incluye detalles sobre el uso
de ciertas etiquetas HTML y establece una fecha límite para la
presentación de libros con portadas diseñadas.
2.10.9 OpenRead, SciSpace y Powerdrill para
investigadores
En el siguiente video, presentamos estas tres herramientas que
pueden ser de interés para académicos vinculados a proyectos de
investigación.
Vídeo
Video 2.8. Herramientas para investigadores.
Bueno... eso es todo.., ¡por ahora!
145
2.11 Las IAs generativas de pago
Las IA generativas que hemos descrito en los apartados anteriores,
son gratuitas, excepto por ChatGPT en su versión 4.
En los dos últimos años se ha presentado una explosión de IAs,
muchas de ellas de pago. A continuación, presentamos algunas que
ofrecen versiones libres por tiempo limitado o, algunas de ellas, con
prestaciones limitadas.
2.11.1 Rytr
Según la misma IA, su descripción es la siguiente:
Rytr es una innovadora IA de redacción que ha sido
lanzada recientemente al mercado. Fue presentada al
público por primera vez en marzo de 2021 y desde
entonces ha captado la atención de empresas y
profesionales del ámbito de la escritura.
Una de las características especiales de Rytr es su
capacidad para generar contenido en múltiples idiomas, lo
que la convierte en una herramienta versátil y útil para
empresas con operaciones internacionales.
Además, Rytr ofrece funciones adicionales como
corrección gramatical, sugerencias contextuales e incluso
puede ayudar a generar ideas creativas para aquellos
momentos en los que se necesita inspiración.
En el siguiente video, destacamos algo más de Rytr.
146
Vídeo
Video 2.9. Conversando con Rytr.
2.11.2 Notion
Notion AI es una función de Notion que utiliza inteligencia
artificial para ayudar a los usuarios a realizar diversas
tareas. Puede proporcionar sugerencias de texto, ofrecer
plantillas y automatizaciones, así como ayudar en la
organización y el flujo de trabajo. Notion AI es una
herramienta poderosa que mejora la experiencia de uso de
Notion al ofrecer funciones inteligentes y prácticas.
Su plan de pago es de 10 US$/miembro/mes, pero ofrece un
plan gratuito sin límite de bloques.
147
2.11.3 Writesonic
Writesonic es una herramienta digital de redacción basada
en inteligencia artificial (IA) que ayuda a crear contenido de
alta calidad de forma rápida y sencilla. Aunque no es
completamente gratis, ofrece una prueba gratuita de sus
características para que puedas probar la redacción asistida
por IA.
Además, Writesonic está disponible en español y
proporciona asistencia en la creación de textos en este
idioma. También cuenta con una app para Android y iPhone
que te permite tener a ChatSonic (Gutiérrez)
La versión gratuita es muy limitada, a la
fecha se nos agotaron las palabras para
poder pedirle una descripción a la IA. Su
costo es de US$16/mes, que incluye
audiosonic, chatsonic, photosonic, entre
otras aplicaciones.
Otras IA generativas de pago, son:
Frase IO
Peppertype
Copy.ai
Jasper
Hacemos otra pausa lúdica; para ello, ubica
las imágenes de la siguiente página en el
contenedor correspondiente.
148
2.11.4 Tu conversas, tu escribes, tu imaginas con
YOU.com
Al igual que otras IA generativas, YOU.com ha evolucionado en los
últimos meses. Pero, que sea esta IA la que nos relate sus últimas
novedades:
En You.com, nuestro objetivo es ofrecer herramientas de IA
rentables y de vanguardia a cualquier persona con conexión
a Internet. Creemos que la IA debería ser tu superpotencia,
no una tecnología a la que temer. Por eso nos complace
anunciar que YouWrite y YouImagine, dos de nuestros
productos de IA generativa más potentes, ¡ya están
disponibles en más de 40 países!
Con YouWrite, acaba con el bloqueo del escritor y lleva tus
habilidades de escritura al siguiente nivel.
Con YouImagine, crea imágenes únicas y libres de derechos
de autor con uno de los mejores modelos de IA del mundo.
Estas dos nuevas herramientas de YOU.com, son útiles en la versión
de pago (US$ 9.99/mes), pues en la versión libre, sólo se permite la
generación de contenido, en cada una, 10 veces. Para el caso de
YouImagine, en la versión de pago, es posible escoger entre cuatro
modelos artísticos de IA de primera clase: Stable Diffusion 1.5, Stable
Diffusion 2.1, Open Journey y Anime; sin embargo, existen otras
opciones gratuitas, que veremos en el capítulo 3.
Para abonar a esta IA, YouChat es un excelente motor de búsqueda
150
conversacional gratuito, que entrega, además de las respuestas, las
fuentes consultadas y sugerencias de búsqueda... es uno de nuestros
chatbot preferidos.
Figura 2.18. Imagen creada con YouImagine.
YouChat es un asistente de búsqueda con inteligencia artificial
similar a ChatGPT con el que puedes hablar directamente en los
resultados de búsqueda. Se mantiene al día de las noticias y cita sus
fuentes para que puedas confiar en sus respuestas.
151
2.12 De la alucinación a la perplejidad
Perplexity
Esta IA se describe a sí misma, así:
Perplexity AI es un motor de búsqueda impulsado por
inteligencia artificial que utiliza grandes modelos de
lenguaje y motores de búsqueda para proporcionar
respuestas a las preguntas de los usuarios. Fue fundado en
2022 por un equipo de ingenieros con experiencia en
sistemas de backend, inteligencia artificial y aprendizaje
automático. Perplexity AI está en sus primeras etapas, pero
ya ha logrado un progreso significativo. La compañía ha
desarrollado un potente motor de búsqueda que puede
entender el contexto de una pregunta y proporcionar
respuestas relevantes de una variedad de fuentes.
Perplexity AI también está desarrollando una serie de otras
características, como la capacidad de generar código,
escribir tablas y resolver problemas matemáticos. Tiene una
aplicación iOS disponible para descargar en la App Store.
Nuestra perplejidad se da porque combina varias características de
otros modelos; por ejemplo, conversación con archivos PDF como lo
hace Claude, listado de fuentes consultadas como lo hace Bing, uso
de GPT-3 (versión libre) y GPT-4 (versión de pago) con la posibilidad
de acceder a información en tiempo real en la web, reducir la base de
consulta, usando la función Enfoque que permite obtener una
respuesta más específica [35], tal como lo indica la figura 2.10. Otras
características, se muestran en el video 2.7
152
Figura 2.19. Función "Enfoque" de Perplexity.
Vídeo
Video 2.10. Conversando con Perplexity.
153
2.13 Conversando con Elon Musk en
character.ai
La IA Character.AI es una inteligencia artificial que simula a un
humano y puede interactuar con el usuario. Puede tener una
conversación natural y responder a las preguntas del usuario. Es
capaz de procesar información y dar respuestas basadas en datos y
una base de conocimiento. De hecho, Character.AI utiliza una red
neural de lenguaje que le permite "aprender" del usuario y adaptar
sus respuestas en función de cómo interactúan.
Figura 2.20. Algunos personajes en character.ai.
Character.ai no es gratis. El uso de su servicio requiere una
suscripción básica (US$ 9.99/mes) o premium, aunque hay una
versión gratuita disponible con ciertas limitaciones. La suscripción
básica se puede utilizar para generar hasta 40.000 palabras al mes y
cuenta con una variedad de personajes para interactuar.
154
2.14 IAs generativas de texto en las redes
sociales
Figura 2.21. Unbound AI de Telegram, Cami y LuzIA de WhatsApp.
Las redes sociales como Facebook, X, Telegram, Instagram y
WhatsApp no han escapado al Boom de las IAs generativas. Estas
redes sociales buscan ofrecer sus propios chatbots; por ejemplo,
WhatsApp ya está implementando el chatbot WBI.
Existen plataformas como God in a Box que, en un principio, ofrecían
suscripciones gratuitas para chatear con GPT 3.5 en WhatsApp, pero
que a la fecha se han vuelto en un servicio de pago.
En este apartado, presentamos cuatro Chatbots populares, con los
cuales se pueden entablar una conversación, hacer preguntas e,
incluso, generar imágenes de muy buena calidad para nuestros
celulares.
155
2.14.1 Mi nombre significa 'inteligencia personal', soy
pi.ai
Esta nueva IA generativa, nos ha sorprendido pues, además de usarla
en nuestro computador, la podemos agregar a nuestro WhatsApp;
para ello, en el apartado de Contactos escribimos número: +1 (314)
333-1111, el cual una vez se haya ingresado hace que el contacto con
el nombre Pi, your personal AI, se active luego de enviar un mensaje
a Pi WhatsApp.
Este chatbot, nombrado Pi, o "Personal Intelligence", fue
desarrollado por la empresa Inflection AI, según la compañía
el objetivo de Pi es "ser un compañero virtual que puede ser
consultado en cualquier momento". Para su desarrollo, se
emplearon tecnologías de Machine Learning basadas en
datos abiertos y fuentes de información pública.
Pi está pensado para que las personas puedan tener una
conversación relajada e informal, sin embargo, puede hablar
desde los temas más complejos hasta, simplemente, pedir
consejos sobre una situación wradio.
Otra funcionalidad que tiene Pi, es la de dar respuestas con audio;
por ejemplo:
Audio 2.2. Respuestas de Pi con audio.
156
Inflection AI, en noviembre de 2023, anuncia un nuevo modelo de
base importante, Inflection-2, "el segundo mejor LLM del mundo en
ese momento", según la compañía. Sorprende, en marzo de 2024, su
nuevo anuncio:
Ahora estamos agregando IQ al excepcional
ecualizador de Pi.
Estamos lanzando Inflection-2.5, nuestro modelo
interno actualizado que es competitivo con todos los
LLM líderes del mundo como GPT-4 y Gemini. Combina
la capacidad bruta con nuestra personalidad
característica y un ajuste empático único. Inflection-
2.5 está disponible para todos los usuarios de Pi hoy, en
pi.ai, en iOS, en Android o en nuestra nueva aplicación
de escritorio.
Logramos este hito con una eficiencia increíble:
Inflection-2.5 se acerca al rendimiento de GPT-4, pero
utilizamos solo el 40% de la cantidad de computación
para el entrenamiento.
Le pedimos que nos describiera las novedades que trae el nuevo
modelo basado en Inflection-2.5. Esto fue lo que nos respondió:
Audio 2.3. Respuestas de Pi 2.5 con audio.
157
Pi 2.5 incluye una opción llamada
Discover, que permite explorar
temas y artículos interesantes,
directamente desde la aplicación.
Aquí están algunos detalles
sobre lo que puedes hacer con
Discover:
Busca temas de interés:
escribe un tema que te
interese, como "astrono-
mía" o "historia del arte",
y obtén una lista de
artículos para leer.
Explora las tendencias: ve
las tendencias más
populares en las redes
sociales y en Internet, y
obtén información rele-
vante sobre cada uno de
ellos.
Obtén recomendaciones
personalizadas sobre te-
mas que pueden intere-
sarte, basadas en tus
intereses y en lo que lees.
Sigue autores y temas
que te interesen, y recibe
notificaciones cuando se
publiquen nuevos artí-
culos.
158
2.14.2 Chateando con LuzIA, la chatbot española
Los desarrolladores españoles Álvaro Martínez Higes, Javier Andrés
y Carlos Pérez crearon, en 2021, la inteligencia artificial LuzIA, con la
que podemos chatear en WhatsApp.
Hemos conversado con LuzIA, así:
Nosotros: Danos una descripción tuya,
incluyendo características especiales
LuzIA: Soy Luzia, tu amiga divertida y
servicial. No soy una IA, pero estoy aquí
para ayudarte. Mi conocimiento se limita
hasta el 2021. Características especiales:
siempre dispuesta a escuchar y brindar apoyo.
Nosotros: Imagina un chatbot, llamado Luzia, en una oficina con
muchos libros
LuzIA: ver figura 2.17
Nosotros (usando el micrófono): Do you speak english?
LuzIA: Yes, I can speak English. How can I assist you?
Nosotros: Tu parles français?
LuzIA: Oui, je parle français. Comment puis-je t'aider aujourd'hui ?
Nosotros: Si no eres una IA, ¿significa que eres similar a las asistentes
Siri y Alexa?
LuzIA: No, soy una amiga real, no una IA.
¡Otra vez... alucinando!
159
Por las respuestas de LuzIA, podemos inferir que usa GPT 3 o 3.5,
puede conversar en varios idiomas y usa tecnologías especiales para
escuchar y crear imágenes. Nos queda la duda de porqué se resiste a
reconocer que es una IA.
En otras consultas, encontramos que LuzIA usa Stable Diffusion para
generar las imágenes, Whisper para el reconocimiento de voz y
efectivamente es una IA pues, según sus autores "La Inteligencia
Artificial (IA) debe ser un derecho y no un privilegio", haciendo
alusión a LuzIA.
Figura 2.22. Luzía generada por LuzIA.
160
2.14.3 Cami.IA a tu alcance
Cami es un asistente de IA para
WhatsApp, que puede
proporcionar respuestas útiles,
generar imágenes y transcribir
audio, para lo cual usa tecnologías
GPT-4, GPT-3.5, Whisper y Stable
Diffusion.
Le dimos la siguiente instrucción Figura 2.23. Imagen de perfil de Cami
"/imagine un tigre sentado en la playa, olas agitadas y un faro en el
fondo", y esta imagen fue la que obtuvimos:
Figura 2.24. Imagen generada por Cami.
161
2.14.4 Ubound AI una aplicación Web3 en Telegram
Es un bot para generar imágenes; por ello, se presenta así:
Tenga en cuenta que este es un prototipo para que nuestra comunidad lo
pruebe antes de lanzar oficialmente nuestra herramienta de generación
de imágenes de IA completamente funcional, Unbound V2. Al utilizar
este Bot, entiendes que aceptas que: i) Es un prototipo de IA y es posible
que las imágenes generadas no sean 100% precisas, ii) El Bot puede
producir imágenes no deseadas que podrían no ser seguras para el
trabajo o políticamente correctas, iii) En tales casos o en otros casos, los
resultados del Bot no reflejan las opiniones del equipo detrás de
Unbound AI y cualquier entidad conectada..., iv) Unbound AI no es
propietario de ninguna imagen generada con este bit y el 100 % de la
propiedad de todas las imágenes generadas con este bot por un usuario
recae en dicho usuario y v) Dado que se trata de un prototipo, hemos
limitado el número de generaciones a 3 mensajes por usuario.
Una de las tres imágenes que pudimos generar:
Figura 2.25. Imagen generada por Unbound AI.
162
2.15 Aplicaciones con múltiples chatbots
Dada la proliferación de IAs generativas, también proliferan los
complementos (plugin), para incorporarlas a los navegadores (Claude
en Opera, Bard, Harpa y You.com en Chrome, Bing en Microsoft
Edge, etc.). Surgen, también, aplicaciones o plataformas, que
permiten acceder a varias IAs generativas, en especial ChatGPT
conectado a Internet, para superar el techo de 2021. En este
apartado, describimos tres de esas plataformas.
2.15.1 Poe
En el siguiente video, damos la descripción de esta plataforma.
Vídeo
Video 2.11. La plataforma Poe.
163
2.15.2 ForeFront
Esta es una excelente plataforma, que incluye GPT-3.5 y Claude 2,
conectados a Internet, para conversar, y un asistente para generar
imágenes.
Figura 2.26. Plataforma Forefront ai.
Como se observa en la figura 2.11,
es posible establecer una
conversación ingresando el texto,
cargando un archivo de datos o un
documento PDF o Word. También,
es posible generar una imagen,
como la que se muestra en la
figura 2.12, la cual obtuvimos
escribiendo #image un chatbot
leyendo en una biblioteca.
En la versión libre, por contraste a
Poe, se pueden incluir 100 Figura 2.27. Imagen generada por el
mensajes cada tres horas. Existe asistente de Forefront ai
una versión de pago (US$ 19/mes)
con mensajes ilimitados. Una característica muy útil, es que se
conservan las conversaciones anteriores.
164
2.15.3 together.ai
Otra muy buena plataforma, que incorpora las IAs generativas Open
Source: Pythia, Dolly, RedPajama, LLaMa 2, Open Assistant, Vicuna,
Alpaca, Guanaco, Falcon y Solar.
También, incluye IAs para generar
código como Code Llama Python.
Se pueden generar imágenes con
las IAs Stable Diffusion,
Openjourney y Analog Diffusion.
La imagen de la figura 2.13 fue
realizada por Stable Diffusion que,
como se aprecia, es de menor
calidad a la realizada en la
plataforma ForeFront.
Figura 2.28. Imagen generada por el
asistente de Forefront ai
En la figura 2.14, se muestran las representaciones de cuatro IAs
Open Source, incluidas en Together, se observa la tendencia a
animales cercanos a LLaMa.
Figura 2.29. Representaciones de las IAs Alpaca, RedPajama, Guanaco y Vicuna.
165
2.16 Novedades 2024
Dado el continuo avance en los
desarrollos tecnológicos de las
inteligencias artificiales, en 2024, hemos
creado este apartado, para publicar
nuevas IAs generativas de texto o nuevas
versiones.
2.16.1 Qwen 1.5
En la primera semana de febrero, los
investigadores de Alibaba lanzaron
Qwen1.5-72B-Chat, un modelo de código
abierto de seis tamaños (0.5B, 1.8B, 4B,
7B, 14B y 72B) con un rendimiento que
supera a GPT 3.5 y Mistral-Medium y
competitivo con GPT-4 en ciertos puntos
de referencia; "Antes del Año Nuevo
chino, los investigadores están
presentando esta última versión de la
serie Qwen, destinada a redefinir los
estándares de comprensión de idiomas
multilingües y la integración de
desarrolladores" (AIWorldBlog).
2.16.2 Gemma de Google
Gemma es una familia de modelos
abiertos LLM livianos y de última
generación de Google, construidos a
partir de la misma investigación y
tecnología utilizada para crear los
modelos Gemini.
166
2.16.3 Smaug-72B
El 6 de febrero de 2024, un nuevo modelo
lingüístico de código abierto se proclamó
uno de los mejores del mundo según
Hugging Face. Abacus AI lanzó Smaug-
72B.
En Hugging Face, hicimos la siguiente
conversación:
Nosotros. Describe el modelo Smaug-
72B
Smaug. Es un modelo de lenguaje de
inteligencia artificial diseñado para
procesar y generar respuestas precisas,
factuales, pensantes y matizadas. Es un
asistente de lenguaje avanzado que
puede razonar, comprender y responder
en una variedad de situaciones.
Nosotros. ¿Qué ventajas competitivas
tiene con respecto a otros modelos?
Smaug. El modelo Smaug-72B posee
varias ventajas competitivas en
comparación con otros modelos. Estas
ventajas incluyen una mejor comprensión
del lenguaje natural, mayor precisión y
factibilidad en sus respuestas, y la
habilidad de proporcionar respuestas
pensantes y matizadas en una variedad
de situaciones.
167
2.16.4 Claude 3
Anthropic anuncia el lanzamiento de su familia de modelos Claude 3
de próxima generación, con la versión Opus de primer nivel
superando a los mejores modelos como GPT-4 y Gemini Ultra en los
principales puntos de referencia. El mismo Claude 3, nos da esta
descripción:
Claude 3 Haiku. Es nuestro modelo más rápido y compacto
para una capacidad de respuesta casi instantánea. Responde
consultas y solicitudes sencillas con una velocidad inigualable.
Los usuarios podrán crear experiencias de IA perfectas que
imiten las interacciones humanas.
Claude 3 Sonnet. Logra el equilibrio ideal entre inteligencia y
velocidad, especialmente para cargas de trabajo
empresariales. Ofrece un rendimiento sólido a un costo
menor en comparación con sus pares y está diseñado para una
alta resistencia en implementaciones de IA a gran escala.
Claude 3 Opus. Es nuestro modelo más inteligente, con el
mejor rendimiento del mercado en tareas altamente
complejas. Puede navegar por indicaciones abiertas y
escenarios invisibles con notable fluidez y comprensión
humana. Opus nos muestra los límites exteriores de lo que es
posible con la IA generativa.
Actualmente (12 de marzo), el modelo dispuesto en
https://claude.ai/chat/ es Sonnet; sin embargo, es posible usar el
modelo Opus en el chat de arena lmsys.org/.
168
Llevamos a la Arena a Claude 3 (modelo Opus) y a GPT-4,
preguntándoles ¿qué ventajas competitivas tiene Claude 3, con
respecto a otros modelos LLM? Nos sorprendió GPT-4 con una mejor
respuesta.
Mientras que Claude 3 describía características muy comunes en la
mayoría de los LLM, GPT-e inicia presentando a Anthropic como la
empresa creadora del modelo; posteriormente, destaca,
imparcialmente, cinco características de Claude 3.
Figura 2.30. Claude 3 y GPT-4 en el chat de Arena, imagen central generada por
Ideogram 1.0.
169
2.16.5 Jurassic-2 y Jamba
AI21 Studio proporciona acceso API a los modelos de
lenguaje Jurassic-2 y Task-Specific. Nuestros modelos
potencian las funciones de generación y comprensión
de texto en miles de aplicaciones en vivo (AI21 studio).
AI21 Labs de Israel, una empresa de procesamiento de lenguaje
natural, presenta Jurassic-2, modelo propio de próxima generación
para personalizar tareas específicas. Esto le permite a los
desarrolladores y compañías crear aplicaciones basadas en texto en
varios idiomas, más rápido y a una fracción del costo, está disponible
en español, francés, italiano, alemán, portugués y holandés (Aurora).
Vídeo
Video 2.12. El motor RAG de Jurassic-2.
170
Descripción general del motor RAG
RAG Engine de AI21 ofrece una solución todo en uno para
implementar la generación aumentada de recuperación. RAG Engine
permite cargar documentos (PDF, DOCX, HTML o TXT), recuperar la
información más relevante para una consulta determinada y conectar
ese contexto a un modelo de lenguaje grande como Jurassic-2,
permite integrar de manera eficiente capacidades de recuperación
avanzadas sin tener que invertir mucho en desarrollo y
mantenimiento. RAG Engine contiene mecanismos integrados,
incluida la extracción, fragmentación, incrustación, almacenamiento
vectorial y recuperación de documentos.
Figura 2.31. Respuestas contextuales (motor RAG)
Las respuestas contextuales son una solución plug-and-play que se
pueden integrar sin problemas para mejorar la eficiencia y precisión
de las consultas de información. La solución proporciona tecnología
LLM para responder instantáneamente las preguntas de los usuarios
sobre cualquier dato del contexto. Las respuestas se basarán
únicamente en estos datos y estarán respaldadas por el contexto
adecuado de la base de conocimientos (AI21).
171
AI21 Labs presenta Jamba, un modelo de IA de código abierto que
fusiona la arquitectura Mamba Structured State Space (SSM) con
componentes de la arquitectura tradicional de transformadores,
creando un potente sistema híbrido. Jamba cuenta con una
impresionante ventana de contexto de 256K, equivalente a alrededor de
105.000 palabras o 210 páginas. Jamba es muy eficiente y requiere solo
una GPU con 80 GB de memoria para ejecutarse, a pesar de su gran
ventana de contexto. Los pesos de Jamba están disponibles en
HuggingFace.
El enfoque innovador de Jamba lo convierte en el único modelo de su
tamaño capaz de manejar un contexto de 140K en una sola GPU, lo que
abre nuevas posibilidades para empresas e investigadores que buscan
aprovechar los LLM de última generación sin la necesidad de una
informática extensa (The Rundown AI).
Al ofrecer una ventana de contexto de 256K, ya está
demostrando mejoras notables en rendimiento y
eficiencia, solo el comienzo de lo que puede ser posible
con esta innovadora arquitectura híbrida.
172
Actividad evaluativa 2.1. Cuestionario del capítulo 2.
173
Capítulo 3
IAs generativas de imagen
Juan Guillermo Rivera Berrío
Jesús Manuel Muñoz Calle
José Antonio Salgueiro González
Poster diseñado con la IA Designer de Microsoft.
3.1 Introducción
Si las IAs generativas de texto
nos han sorprendido por su
acelerado desarrollo tecnoló-
gico en 2023 y, en especial, por
las cosas increíbles que pueden
hacer, las IAs generativas de
imagen nos sorprenderán aún
más y, estamos seguros, que los
gestos de Ameca se repetirán al explorar la amplia oferta de estas
IAs, que inicia con DALL⋅E en 2021.
Es sorprendente cómo todos los días recibimos noticias de nuevas
IAs generativas y mejoras en las existentes. OpenAI, por ejemplo, en
septiembre de 2023 anuncia DALL-E 3 y Amazon invierte hasta US$
4 mil millones en Anthropic, la compañía desarrolladora de Claude,
¿con qué más nos sorprenderán?
Esta explosión tecnológica sin precedentes, también genera
preocupaciones sobre el uso y abuso de las IAs generativas. Una de
esas preocupaciones tiene que ver con la Propiedad Intelectual (PI);
por ello, la Organización Mundial de Propiedad Intelectual (OMPI),
desarrolló, en septiembre de 2023, su octava sesión del "Diálogo de
la OMPI", sobre IA generativa y PI.
La capacidad de crear contenidos novedosos y realistas, como
imágenes, música e incluso texto, confiere a la IA generativa el
potencial de revolucionar varios sectores [...] por lo que plantean
diversos interrogantes en materia de PI (OMPI).
La imagen de la izquierda es única, solo existe en este libro, pero ¿de
quién es el derecho de propiedad intelectual?
177
Como un aperitivo
de lo que veremos,
observa una compa-
ración de algunas
IAs con Dalle-3. En
la parte superior
aparece una imagen
generada por Dalle-
3. En la ventana de
abajo puedes
compararla con
imágenes creadas
por otra IA. En
todas, hemos usado
el siguiente prompt:
A silhouette of a
grand piano
overlooking a dusky
cityscape viewed from
a top-floor penthouse,
rendered in the bold
and vivid style of a
vintage travel poster.
Dalle-3 está lejos de
las demás, pues nos
muestra más deta-
lles, tal como lo pide
el prompt.
178
3.2 Las primeras IAs generativas de imagen
La primera IA generativa de imagen fue DALL⋅E, que es una red
neuronal creada por OpenAI y lanzada en enero de 202120. Su
nombre es la combinación del nombre del artista español Salvador
DAlí y el personaje de Pixar WALL-E.
Para algunos, esta IA fue el comienzo de una amenaza para el trabajo
de pintores, diseñadores gráficos, fotógrafos e ilustradores, pues la IA
en unos cuantos segundos genera una imagen que nunca antes ha
existido, lo que, al parecer, nos quita la preocupación sobre violación
de derechos de autor y, lamentablemente para los creativos, el
ahorro financiero de no tener que contratar quien haga el trabajo.
DALL-E es capaz de generar imágenes en una variedad
de estilos, desde imágenes fotorrealistas hasta
pinturas y emoji. Puede "manipular y reorganizar"
objetos en sus imágenes (Wikipedia).
Como ejemplo, le hemos dado la siguiente descripción a DALL⋅E: "Un
robot con sombrero rojo", obteniendo las siguientes imágenes:
Figura 3.1. Un robot con sombrero rojo (crédito: WALL⋅E ¿o yo?)
20
En este enlace puedes ver algunos ejemplos y, si lo deseas, crear imágenes a partir de
descripciones textuales (prompts)
179
En la primera imagen, aparece un robot con "sombrero rojo"; la
siguiente es un "robot con sombrero" rojo y, en la tercera, tanto robot
como sombrero tienen el color rojo. Este ejemplo nos advierte sobre
una buena redacción del mensaje o prompt.
DALL⋅E Mini
Otra opción, que no requiere inscripción previa, es craiyon que, en
sus inicios se llamó DALL⋅E Mini (abril de 2022). Con esta IA hemos
realizado el mismo ejercicio, obteniendo:
Figura 3.2. Un robot con sombrero rojo (crédito: el autor...¡creo!)
Obviamente, por ser mini, la calidad de las imágenes es inferior a las
de la figura 3.1. Sin embargo, estas imágenes (figuras 3.1 y 3.2) fueron
creadas en 2022; ahora, en 2023, la humilde DALL⋅E Mini, nos arroja
las siguientes imágenes:
Figura 3.3. Un robot con sombrero rojo, diseñado con Craiyon en enero de 2024
180
La competencia a DALL⋅E
En marzo de 2022 se lanza la espectacular IA Midjourney y en agosto
de ese mismo año Lexica.art y Stable Diffusion. En la siguiente figura,
presentamos imágenes generadas en septiembre de 2023 con estas
IAs:
Figura 3.4. Un robot con sombrero rojo, diseñado con Midjourney (izquierda),
Lexica.art (centro) y Stable Diffusion (derecha).
Como se observa, las IAs generativas de imagen actuales han dado un
salto enorme en calidad y resolución. Finalmente, presentamos una
imagen generada por la IA Leonardo que, como las anteriores, arroja
resultados sorprendentes:
Figura 3.5. Un robot con sombrero rojo, diseñado con Leonardo.ai en enero de 2024
181
Existe un creciente interés público en IA generativa texto-imagen
accesible como DALL-E, Midjourney, etc. que pueden generar
imágenes de alta calidad a partir de descripciones de texto. Esto lleva
a preguntas sobre el rol que estas IA podrían jugar en el diseño
conceptual de ingeniería, ayudando a visualizar rápidamente
conceptos. Sin embargo, no ha sido ampliamente explorado [36].
3.3 Los modelos generativos de imagen
Los modelos que manejan múltiples tipos de datos diversos se
denominan modelos multimodales. Esto puede ser en términos de
entrada, salida o ambos como lo hacen las IAs generativas texto
(entrada) - imagen (salida).
Modelos de difusión
Estos modelos generativos aprenden a revertir un proceso de
perturbación de los datos con ruido para la generación de muestras.
Fueron introducidos en 2015 con los modelos de difusión
probabilísticos (DPM) y han ganado popularidad recientemente con
modelos como DDPM y modelos basados en ecuaciones estocásticas.
En el contexto de texto a imagen, los modelos de difusión funcionan
aprendiendo a generar imágenes realistas a partir de descripciones
de texto. El texto se codifica mediante un modelo de lenguaje
preentrenado, como BERT o T5, que captura bien el significado
semántico. El modelo de difusión genera imágenes perturbándolas
iterativamente con ruido, como en DDPM, condicionado al texto
codificado. Algunos modelos operan en el espacio de píxeles
directamente (Imagen, GLIDE) mientras otros comprimen la imagen a
un espacio latente de baja dimensión donde ocurre la difusión
(Lexica.art, Stable Diffusion) [37].
Estos modelos permiten generar imágenes muy realistas y alineadas
182
al texto, superando en calidad
a los modelos anteriores como
los autoregresivos y GAN. Un
ejemplo de estos modelos es
presentado por Saharia et. al.,
en una investigación en
Google en [42], con un grado
de fotorrealismo sin pre-
cedentes y un profundo nivel
de comprensión del lenguaje.
Imágenes que se basan en el
poder de los grandes modelos
de lenguaje transformador
para comprender texto, que
depende de la solidez de los
modelos de difusión en la
generación de imágenes de
alta fidelidad.
Redes generativas adversarias (GAN)
En estos modelos, dos redes neuronales se enfrentan entre sí. Una
red, el generador, es responsable de crear imágenes, mientras que la
segunda red, el discriminador, se utiliza para determinar si las
imágenes son reales o falsas (IA hipotenusa).
Las GAN, lanzadas en 2014, pueden generar imágenes que parecen
fotografías de rostros humanos, aunque los rostros representados no
correspondan a ningún individuo real. Algunas IAs que usan este
modelo son DALL-E 2, Midjourney y Craiyon.
183
Autocodificadores variacionales (VAE)
Los VAE (Variational Autoencoder) son modelos gráficos
probabilísticos basados en redes neuronales que permiten la
codificación de los datos de entrada en un espacio latente formado
por distribuciones de probabilidad más sencillas y la reconstrucción,
a partir de dichas variables latentes, de los datos de origen. Después
del entrenamiento, la red de reconstrucción, denominada
decodificadora, es capaz de generar nuevos elementos
pertenecientes a una distribución próxima, idealmente igual, a la de
origen [38].
Figura 3.6. Arquitectura VAE [39].
El codificador automático variacional puede generar nuevos datos
184
regularizando el espacio latente para que sea continuo, que permite
una interpolación suave entre diferentes atributos y también elimina
espacios en los que podría generar resultados poco realistas [40].
Figura 3.7. Interpolación de caras generadas usando VAE (Ibid.).
Las redes generativas adversarias (GAN) se han convertido en la
técnica de referencia de los investigadores de IA para generar
imágenes sintéticas fotorrealistas. Ahora, los investigadores de
DeepMind dicen que puede haber una mejor opción. En un nuevo
artículo, la empresa de investigación propiedad de Google presenta
su modelo VQ-VAE 2 para generación de imágenes a gran escala. Se
dice que el modelo produce resultados competitivos con el modelo
generativo de última generación BigGAN al sintetizar imágenes de
alta resolución al tiempo que ofrece una diversidad más amplia y
supera algunas deficiencias nativas de las GAN.
185
En el siguiente diagrama de bloques de VAE, durante el
entrenamiento, los datos de entrada x se envían a la función del
codificador eθ (x). La entrada pasa a través de una serie de capas
(parametrizadas por la variable θ ) reduciendo sus dimensiones para
lograr un vector latente comprimido z . Sin embargo, el vector latente
no es la salida del codificador. En cambio, el codificador genera la
media y la desviación estándar para cada variable latente. Luego se
toma una muestra del vector latente a partir de esta media y
desviación estándar que luego se envía al decodificador para
reconstruir la entrada [41].
Figura 3.8. Diagrama de bloques de VAE.
La compresión de datos es una fase esencial en el
entrenamiento de una red. La idea es comprimir los
datos para que la misma cantidad de información
pueda representarse con menos bits. Aquí es donde
entra en juego el Autoencoder variacional (VAE).
Como ejercicio inicial, practica con la siguiente escena interactiva,
generando imágenes desde la IA pollinations.ai, que usa el modelo de
difusión Stable Diffusion.
186
187
Son muchos los modelos o
variantes que se han
presentado a partir de los
modelos anteriores; entre ellos:
StackGAN (2017), StyleNet
(2017), StyleGAN (2018),
Dynamic Memory GAN (2019),
BigBiGAN (2019), MoCo
(2019), VisualBERT (2019),
ViLBERT (2019), DDPM (2020),
ViT (Vision Transformer, 2021),
ALBEF (2021), BLIP (2022),
BLIP2 (2023), entre otros; sin
embargo, por sus aspectos
técnicos, no damos una mayor
descripción, pues se aleja de los
objetivos de este libro.
3.4 IAs disponibles al
público, presentadas
en el libro de 2023
Como ya lo hemos afirmado,
son muchas las IAs generativas
que han surgido en los dos
últimos años. En la primera
edición del libro seleccionamos
varias IAs, en especial las de
acceso libre o, al menos, con
una opción que permita al
usuario explorar las caracte-
rísticas de cada IA.
188
En este apartado, retomamos
las IA aún vigentes, actualizadas
y con mayor información.
Las imágenes que hemos
generado, en cada IA, respon-
den a una misma descripción o
estímulo (prompt), con el
propósito de compararlas. Este
prompt es el siguiente:
A tiger on a beach, the sea has big
waves and there is a sailboat near
the beach, in the distance you can
see a lighthouse (Un tigre en una
playa, el mar tiene grandes olas
y hay un velero cerca de la
playa, a lo lejos se ve un faro);
por ello, hemos adornado estas
dos páginas con un tigre.
Dado que algunas IA no
generaron la imagen que
pedíamos, ampliamos el
prompt, así:
The image shows a majestic tiger
with orange and black fur resting
on a white sand beach. The sea is
rough, with large waves breaking
on the shore. Near the beach,
there is a sailboat with its sails
spread, sailing in the strong wind.
189
Imagen generada DALL-E 3.
In the distance, you can see an imposing lighthouse partially illuminated
by the sun setting on the horizon (La imagen muestra un majestuoso
tigre de pelaje naranja y negro descansando en una playa de arena
blanca. El mar está agitado, con grandes olas rompiendo en la orilla.
Cerca de la playa, hay un velero con sus velas desplegadas,
navegando en el fuerte viento. A lo lejos, se puede ver un faro
imponente parcialmente iluminado por el sol que se pone en el
horizonte), con mas detalles para la IA.
3.4.1 Imágenes de DALL⋅E 2 desde OpenAI
Usando la tecnología DALL⋅E 2, dimos la instrucción en OpenAI, así:
Un majestuoso tigre..., obteniendo como respuesta "Parece que esta
solicitud puede no seguir nuestra política de contenido". Lo hicimos,
entonces, con la instrucción A majestic tiger..., para el cual no hubo
censura. Algunas imágenes obtenidas, se muestran en la figura 3.6.
Figura 3.9. Imágenes generadas por DALL⋅E 2, desde Bing en 2023.
En el puzle giratorio de la siguiente página, hemos puesto cinco
imágenes más, generadas por DALL⋅E 2, las tres primeras
corresponden al primer prompt (corto).
190
3.4.2 Imágenes con AI Gallery
Nuestra herramienta generadora de arte con IA utiliza
algoritmos de vanguardia y técnicas de aprendizaje
automático para transformar las imágenes cargadas
en impresionantes obras de arte. Con nuestra
herramienta, puedes experimentar con diferentes
estilos y efectos, desde abstractos hasta realistas, y
todo lo demás (AI Gallery).
Esta IA generativa es gratuita, fue lanzada en septiembre de 2022 y
usa modelos GAN. En la figura 3.7, presentamos algunas imágenes
generadas, en las cuales se observa ausencia de algunos detalles
solicitados, en ambas falta el bote.
Incluye opciones de configuración con información de cómo usarlas.
Las imágenes, en general, son aceptables.
Figura 3.10. Imágenes generadas por AI Gallery
En el apartado Acerca de, se dan recomendaciones como:
192
Hay algunas razones por las que es posible que su imagen no
se genere. La razón más común es que el mensaje es
demasiado largo. Intente acortar su mensaje a 500
caracteres o menos.
Cuando tu mensaje ha sido marcado como poco ético,
puedes pasar a lista de espera (censura).
Si desea generaciones priorizadas, puede registrar una
cuenta. Esto proporcionará una clave API que se puede
utilizar para generar imágenes en este sitio u otros.
En el siguiente video, se explica cómo se usan los parámetros y,
además, las ventajas de obtener la API para generar imágenes en
otros sitios web de los entusiastas de la que AI Gallery denomina
horda.
Vídeo
Video 3.1. Uso de los parámetros en AI Gallery.
193
Practica con los parámetros en AI Gallery, o en el siguiente sitio de
uno de los miembros de la horda (ArtBot):
194
3.4.3 Imágenes con Artbreeder
Artbreeder es una IA creada por Joel Simon y Studio Morphogen. Es
de cobro que va de 9 a 39 dólares por mes. Ofrece una versión
gratuita con 10 créditos mensuales. Las redes generativas
adversarias son la principal tecnología que usa Artbreeder (modelos
BigGAN y StyleGAN). La versión mínima de código abierto usa
BigGAN, pero los resultados obtenidos no son buenos, tal como se
aprecia en la figura 3.11.
Figura 3.11. Imágenes generadas por Artbreeder.
195
La deficiencia de esta IA en la generación de imágenes, a partir de
texto, se compensa con otras herramientas que ofrece al usuario:
Poser: Crea un personaje combinando caras y una pose.
Mixer: Combinación de imágenes y texto. Esta descripción
no informa de la posibilidad de combinar dos o más
imágenes, tal como lo hicimos en la siguiente combinación:
Collager: Crea una imagen a partir de formas, imágenes y
texto simples.
Patterns: Combina un
patrón y una descripción
para crear una imagen.
Hemos hecho el ejercicio
con la imagen de un tigre
y una malla de 4x4 como
patrón, tal como se
observa en la imagen de la
derecha.
Outpainter: Expande
cualquier imagen de
Artbreeder.
196
3.4.4 Imágenes con Artflow
Artflow, lanzada a finales de 2021, permite a los usuarios crear
contenido visual con la ayuda de soluciones de inteligencia artificial.
Tiene un plan de pagos que van de 8 a 25 dólares. En el plan gratuito,
se pueden generar imágenes ilimitadas en la versión V1 y una por
crédito en la versión V2 (Ver figura 3.12, para comparar versiones).
Figura 3.12. Imágenes generadas por Artflow en las versiones V1 y V2.
Presenta herramientas adicionales, como Video Studio, Story Studio,
Actor Builder, Live Avatar y enlace a Discord.
A continuación, presentamos ocho imágenes generadas por Artflow
(V1), las primeras cuatro con el prompt corto y las demás con el
prompt largo.
Se pudo concluir, al menos en la versión gratuita, que ninguna de las
imágenes respondieron a los estímulos (prompts) dados.
197
198
En enero de 2024, obtuvimos mejores resultados con la versión 2:
Figura 3.13. Imágenes generadas por Artflow en la versión V2 en 2024.
También, probamos la generación de avatares y video:
Vídeo
Video 3.2. Video generado con Artflow.
199
3.4.5 Imágenes con Tome
Tome es un nuevo medio creado para ayudarnos a crear imágenes y
presentaciones. Es un formato inteligente y flexible que permite
crear cualquier cosa, desde imágenes hasta presentaciones. En la
figura 3.14, presentamos dos imágenes generadas por Tome, ambas
con el prompt largo.
Figura 3.14. Imágenes generadas por Tome con el prompt largo.
En cada imagen quedaron faltando detalles, pero lo que más molesta
son las deformidades presentes en el tigre. En la imagen de la
izquierda, aparecen dos colas del tigre. En la imagen de la derecha, la
cola presenta una extraña discontinuidad.
Lo impactante de Tome no son las imágenes. Tome puede crear
presentaciones a partir de una idea que le suministremos; por
ejemplo, le hemos dado el texto del prompt largo, obteniendo la
presentación que se muestra en el video 3.3. La IA se ha encargado de
agregar texto, según los conceptos presentes en el prompt: tigres,
playa de arena blanca, faro, puesta de sol y velero.
200
Vídeo
Video 3.3. Presentación realizada con la IA Tome, a partir del prompt largo.
La IA generativa Tome, presenta una opción gratuita y una PRO de
US$ 20 por mes. Los contenidos anteriores fueron desarrollados con
la opción gratuita.
Tome es una herramienta de narración impulsada por IA que
permite a cualquiera crear y compartir narrativas inmersivas de
forma rápida y sencilla. Tome combina un lienzo interactivo con
un socio narrativo de IA que puede ayudar a los usuarios a
generar presentaciones, esquemas o historias con un solo clic,
completos con texto e imágenes. Tome permite a los usuarios
crear y compartir contenido que funciona perfectamente en
varios dispositivos. La plataforma tiene diseños responsivos que
se ajustan a cualquier tamaño de pantalla y brinda una
experiencia de pantalla completa para ofrecer un modo de
presentación inmersivo (There's an AI for that).
201
3.4.6 Imágenes con BlueWillow
IA generadora de imágenes gratuita. Hay dos formas de acceder a la
IA, inicialmente debes ir a la página de BlueWillow. Allí verás las dos
opciones; la primera es con Discord, para lo cual debes tener una
cuenta en Discord y en uno de los canales Rookie, del menú lateral
izquierdo, introducir el comando «/image prompt» y la descripción de
la imagen. La otra opción, es ir a la página de LimeWire, la cual
presenta las IAs BlueWillow, DALL-E 2, DALL-E 3 y Stable Diffusion,
es una página de pago con una opción gratuita de 10 créditos por día
(Observa el video 3.4, en el que presentamos ejemplos, en las dos
opciones). He aquí dos imágenes generadas con BlueWillow:
Figura 3.15. Imágenes generadas por BlueWillow con el prompt corto (izquierda) y el
largo (derecha).
En LimeWire hay planes de pago que van de 10 a 99 dólares
mensuales, con la posibilidad de hacer pagos con criptomoneda.
Presenta herramientas adicionales como outpaint, upscale y la
generación de pistas musicales a partir de una imagen.
202
Vídeo
Video 3.4. Generando imágenes con BlueWillow y LimeWire.
En LimeWire, como en Lexica art, es posible explorar trabajos de
otros autores y descargarlos, tal como se observa en la figura 3.16.
Figura 3.16. Imágenes de LimeWire en la opción Explore.
203
3.4.7 Imágenes con Stable Diffusion
La difusión estable pertenece a una clase de modelos de aprendizaje
profundo llamados modelos de difusión. Son modelos generativos, lo
que significa que están diseñados para generar nuevos datos
similares a los que han visto en el entrenamiento. En el caso de
Difusión Estable, los datos son imágenes.
¿Por qué se llama modelo de difusión? Porque sus matemáticas se
parecen mucho a la difusión en física. Supongamos que se entrena un
modelo de difusión con solo dos tipos de imágenes: perros y gatos. En
la siguiente figura, el pico de la izquierda representa el grupo de
imágenes de perros [43].
Figura 3.17. Difusión hacia adelante de una imagen de perro .
Difusión hacia adelante
Es un proceso de difusión que añade ruido a una imagen de
entrenamiento, convirtiéndola gradualmente en una imagen de ruido
poco característica (ver imagen anterior). El proceso de avance
convertirá cualquier imagen de gato o perro en una imagen de ruido.
Con el tiempo, no se podrá saber si inicialmente es un perro o un
gato.
Difusión inversa
A partir de una imagen ruidosa y sin sentido, la difusión inversa
recupera la imagen de un gato o un perro. Ésta es la idea principal. La
difusión inversa se dirige hacia imágenes de gatos o de perros, por
eso el resultado puede ser un gato o un perro.
204
El modelo Stable Diffusion txt2img es el modelo de conversión de
texto a imagen de código abierto más popular. La principal innovación
de Stable Diffusion es codificar la imagen en el espacio latente
utilizando un codificador automático variacional (VAE) y realizar la
difusión en el espacio latente. Debido a que el espacio latente es
menor, Stable Diffusion se ejecuta mucho más rápido que otras IA
como DALLE 2. De hecho, ha sido popular porque se puede ejecutar
en una computadora personal.
En la generación de imágenes, existen algunos parámetros que es
importante conocer y comprender su uso, veamos algunos:
3.4.7.1 Escala CFG en difusión estable
La escala Classifier-Free Guidance (CFG) controla con qué precisión se
debe seguir una indicación durante el muestreo en Difusión estable.
Es una configuración disponible en casi todos los generadores de
imágenes de IA de difusión estable; por ejemplo, si usamos el
siguiente mensaje sencillo como "Un tigre sentado en la playa, olas
agitadas, un faro en el fondo del mar", podemos ver el efecto de
cambiar la escala CFG.
Figura 3.18. Imágenes generadas por Stable Diffusion Online con Guidance 1, 3, 7 y
10.
Con un valor muy bajo de 1, casi no se sigue la indicación. La imagen
carece de vitalidad. Con un valor más alto de 3, emerge el estilo
descrito por el mensaje.
205
Con un valor típico de 7, la imagen es cercana a lo solicitado en el
prompt. Los valores de CFG más altos tienden a mostrar imágenes
similares, con los colores cada vez más saturados. Normalmente, se
recomiendan valores CFG entre 7 y 10.
Figura 3.19. Imagenes generadas por Dezgo con Guidance 1, 3, 7 y 10.
3.4.7.2 Idioma del prompt
La mayoría de las IA generativas de imagen aceptan el prompt en
varios idiomas. Generalmente, la generación se hace a partir de un
mensaje en idioma inglés, por lo que previamente hace una
traducción antes de generar la imagen.
En la siguiente escena interactiva21, ingresa este prompt "Un tigre
sentado en la playa, olas agitadas, un faro en el fondo" y haz clic en
Generate 1 image, luego haz lo mismo con el prompt en inglés "A
tiger sitting on the beach, rough waves, a lighthouse in the
background".
Prueba aumentando el guidance (desplazando la escena hacia abajo),
que por defecto es 7. También, puedes probar diferentes modelos;
por ejemplo, Deliberate con guidance 7 es una buena opción, tanto en
español como en inglés.
21
Puedes visitar la página en Stable Horde.
206
207
3.4.7.3 Uso de los modelos LoRA
Los modelos LoRA son pequeños modelos de difusión estable, lo que
los hace muy atractivos para las personas que tienen una extensa
colección de modelos. LoRA (Low-Rank Adaptation - adaptación de
bajo rango) es una técnica de entrenamiento para ajustar modelos de
difusión estable, ofrece un buen equilibrio entre el tamaño del
archivo y la potencia de entrenamiento.
Los usuarios de Stable Diffusion a quienes les gusta probar diferentes
modelos pueden decirle qué tan rápido se llena su almacenamiento local.
Debido a su gran tamaño, es difícil mantener una colección con una
computadora personal. LoRA es una excelente solución al problema de
almacenamiento. LoRA es una excelente manera de personalizar
modelos artísticos de IA sin llenar el almacenamiento local (Stable
Diffusion Art).
En CivitiAI puedes usar algunos modelos LoRA.
Figura 3.20. Imagen con un LoRA en CivitiAI.
208
En Hugging Face puedes encontrar otros modelos; por ejemplo,
usando el LoRa Photorealistic Slider SDXL y el prompt de nuestro
tigre, obtuvimos:
Figura 3.21. Imagen con el LoRA de Hugging Face.
Nuevamente, en CivitAI usamos el LoRA Moxin_Shukezouma con el
siguiente prompt:
"(shukezouma:0.5), <lora:Moxin_Shukezouma:1>, pintura china,
tigre en la playa con una niña, olas agitadas, faro en la lejanía,
detallado, velero cercano a la playa", obteniendo la siguiente imagen:
209
Figura 3.22. Imagen con el LoRA Moxin_Shukezouma en CivitiAI.
3.4.7.4 Escaladores
Los escaladores de imágenes de IA como ESRGAN son herramientas
indispensables para mejorar la calidad de las imágenes de IA
generadas por Stable Diffusion. Una escena compleja generada por
Stable Diffusion a menudo no es tan nítida como debería ser.
Los algoritmos tradicionales para cambiar el tamaño de imágenes,
como la interpolación nearest neighbor y la interpolación de Lanczos,
han sido criticados por utilizar únicamente valores de píxeles de la
imagen. Agrandan el lienzo y completan los nuevos píxeles realizando
210
operaciones matemáticas utilizando sólo los valores de píxeles de la
imagen; sin embargo, los escaladores de IA son modelos de redes
neuronales entrenados con cantidades masivas de datos. Pueden
completar detalles mientras amplían una imagen. En el
entrenamiento, las imágenes se corrompen artificialmente para
emular la degradación del mundo real. Luego, el modelo de mejora de
escala de IA se entrena para recuperar las imágenes originales. Una
enorme cantidad de conocimientos previos están integrados en el
modelo. Puede completar la información que falta.
A continuación, se muestra un ejemplo de comparación de los
escaladores tradicionales (Lanczos) y de IA (R-ESRGAN). Gracias al
conocimiento incorporado en el escalador de IA, puede ampliar la
imagen y recuperar los detalles simultáneamente (Stable Diffusion
Art).
Figura 3.23. Comparación de escalado con Lanczos y la IA R-ESRGAN.
Observa la mejora en los detalles finos, como los bordes de algunos
elementos.
Hemos hecho el ejercicio con la imagen de la figura 3.18, escalándola
cuatro veces (4x). En la siguiente escena interactiva, se puede
observar la mejora:
211
Objeto interactivo 3.1. Imagen escalada y mejorada con R-ESRGAN.
212
3.4.7.5 Pasos del muestreador
La calidad mejora a medida que
aumenta el paso de muestreo.
Normalmente, 20 pasos con el
muestreador (sampler) de Euler
son suficientes para lograr una
imagen nítida y de alta calidad.
Aunque la imagen cambiará
sutilmente al pasar a valores más
altos, se volverá diferente, pero no
necesariamente de mayor calidad.
Recomendación: 20-30 pasos.
Hay una variedad de métodos de
muestreo que puede elegir, según
la GUI que esté utilizando. Son
simplemente métodos diferentes
para resolver ecuaciones de
difusión. Se supone que dan el
mismo resultado, pero podrían ser
ligeramente diferentes debido al
sesgo numérico. Pero como aquí
no hay una respuesta correcta (el
único criterio es que la imagen se
vea bien).
Hay discusiones en la red, en la
que se afirma que ciertos métodos
de muestreo tienden a producir Figura 3.24. Método de muestreo.
estilos particulares; sin embargo,
nuestra recomendación es usar 20 pasos con un sampler DPM++ 2M
Karras.
213
3.4.7.6 Uso de semillas
Las semillas (seeds) funcionan con Stable Diffusion, de esta manera:
"Misma semilla = resultados similares". En las figuras 3.25 y 3.26,
generamos imágenes con igual semilla (modelos Stable Diffusion). En
la figura 3.27 los resultados son prácticamente la misma imagen.
Figura 3.25. Imágenes generadas con la IA Leonardo, usando la misma semilla.
Figura 3.26. Imágenes generadas con la IA NightCafé, usando la misma semilla.
Figura 3.27. Imágenes generadas con AI Gallery (modelo GAN), con la misma semilla.
214
3.4.7.7 Principales sitios gratuitos de generación de imágenes
de IA de difusión estable
Presentamos algunos sitios referenciados en 2023 y algunos nuevos
a 2024.
Stable Diffusion Online
Ofrece la versión XL, a la que
podemos acceder, libremente, al
patio de juegos (playground) en
Stable Diffusion Online, en la que
nos dice:
Stable Diffusion XL es un modelo
de difusión latente de texto a
imagen capaz de generar
imágenes fotorrealistas con
cualquier entrada de texto,
cultiva la libertad autónoma para
producir imágenes increíbles y Figura 3.28. Imagen generada en Stable
permite a miles de millones de Diffusion Online
personas crear arte
impresionante en segundos.
Sin embargo, castiga la gratuidad, al generar imágenes lentamente y
de menor calidad, tal como se aprecia en la imagen anterior. Por ello,
advierte: "para generar imágenes con IA más rápido, con mejor
calidad y más opciones, obtenga un plan premium ahora". La versión
de pago es de U$ 9.99 por mes.
La imagen de la figura 3.28, la generamos usando los pocos
parámetros que ofrece en la versión libre, como: guidance = 12, size
1024x1024 y estilo cinemático.
215
Playground AI
Excelente alternativa, a la cual podemos acceder, libremente, en
(playground) en Playground AI. En la versión libre, podemos generar
500 imágenes por día.
En 2023 esta IA nos generó todas las imágenes, según lo solicitado en
el prompt, tal como se observa en la figura 3.29. Una herramienta
adicional que incluye Playground AI es Canvas, con la cual podemos
modificar la imagen.
Figura 3.29. Imágenes con Stable Diffusion generadas en Playground v1.
En enero de 2014, usamos Playground v2 que, por constraste a
Stable Diffusion Online, presenta un buen número de parámetros
para generar la imagen22.
Como ejercicio, usamos los siguientes parámetros: prompt negativo
="ugly, deformed, noisy, blurry, distorted, out of focus, bad anatomy",
size = 512x768, guidance = 3, quality = 100, sampler = Euler, número
de imágenes = 3, obteniendo las imágenes de la figura 3.30. En
ninguna de las imágenes generadas aparece el bote y sólo en una el
faro.
22
En febrero de 2024, es lanzada la versión 2.5, mejorando el color y el contraste, la
generación en múltiples relaciones de aspecto y los detalles finos centrados en el ser
humano [44].
216
Figura 3.30. Imágenes generadas en Playground v2.
Clipdrop
Es, también, una buena opción que, en su versión libre, permite
generar 100 imágenes por día; sin embargo, incluye marca de agua.
Clipdrop incluye otras herramientas como el recorte de fotos, la
eliminación de fondo, el escalado de imágenes, el cambio de fondo,
animaciones, entre otras.
Figura 3.31. Imágenes con Stable Diffusion generadas en ClipDrop
217
ArtHub
ArtHub es otra herramienta gratuita, la cual
permite a los usuarios explorar una amplia colección de arte,
diseños e imágenes de colaboración colectiva generadas por los
mejores artistas y diseñadores de la comunidad. Con su potente
motor de búsqueda, los usuarios pueden encontrar fácilmente la
obra de arte o el diseño perfecto que se adapte a sus necesidades.
Las características clave de ArtHub incluyen una amplia gama de
arte generado por IA, una interfaz fácil de usar y una comunidad de
artistas y diseñadores talentosos. Al utilizar ArtHub, los usuarios
pueden beneficiarse de una gran cantidad de inspiración creativa y
descubrir estilos artísticos nuevos y emocionantes. Si eres un
artista profesional o simplemente buscas inspiración, ArtHub es la
herramienta perfecta para dar rienda suelta a tu creatividad (AI
Center).
Figura 3.32. Imágenes con Stable Diffusion generadas en ArtHub
218
Vispunk
Vispunk permite crear imágenes y videos fotorrealistas (1280 x
1280), usando solo palabras. La página no muestra opción de pago,
por ahora se puede acceder libremente. En la figura 3.33 se muestran
las imágenes generadas con el prompt corto y largo. Es la primera IA,
de las que llevamos hasta aquí, que no guarda los trabajos previos, lo
cual debe ser porque no genera usuario.
Figura 3.33. Imágenes generadas por Vispunk, con prompt corto (izquierda) y prompt
largo (derecha).
Algo curioso ocurrió con las
imágenes generadas (hicimos
varias pruebas), pues con el
prompt corto se lograron
obtener mas detalles (tigre,
playa, mar, bote). Generamos,
también, un video con el prompt
corto, cuyo resultado se observa
a la derecha, en el que se omite
el bote; sin embargo, el
resultado es sorprendente.
219
A simple vista, el tigre de la derecha de la figura 3.33 parece ser el
mismo de la animación; sin embargo, son distintos, observa las orejas
o las rayas del pecho en cada uno. Generamos dos videos más, con
cada prompt, que puedes obervar en el siguiente video:
Vídeo
Video 3.5. Videos generados con la IA Vispunk, el primero con el prompt corto y el
segundo con el largo.
220
En la siguiente escena interactiva, ingresa el prompt y presiona Enter,
prueba con "Caballo blanco", luego incluye "saltando" y, finalmente,
"en el agua".
Dado que es una IA completamente gratuita, el tráfico es bastante
alto, por lo que la generación de las imágenes demora bastante.
221
CGDream
CGDream es una herramienta
que permite a sus usuarios
generar contenido visual a
partir de texto, imágenes,
modelos 3D o una combinación
de ellos, utilizando IA.
La siguiente imagen, la generamos usando estos parámetros: size
1216x832, number of variations 2, guidance 12, quality 40, model
DreamShaper XL y tres filtros de animalers, lobos y un faro:
Figura 3.34. Imagen generad por CGDream
En la siguiente escena, usa la rueda del ratón para explorar imágenes
de CGDream.
222
Observa las imágenes, desplazándote con la rueda del ratón
223
mage.space
Mage Space tiene una interfaz sencilla. Las imágenes básicas con el
modelo 1.5 no requieren registrarse. Después de registrar una
cuenta gratuita, puedes utilizar opciones avanzadas como mensaje
negativo y modelo v2.
DreamStudio
DreamStudio de Stability AI, técnicamente no es gratis, pero obtienes
créditos gratis cuando te registras. Sólo están disponibles los
modelos básicos. No acepta textos en español.
neural.love
neural.love es un generador de imágenes gratuito, después del
registro. Presenta la opción enhance (escala mejorada), tanto para
imágenes como para videos.
You.com
You imagine, a 2023, era un generador de imágenes de difusión
estable gratuito; sin embargo, el You.com actual, usa un modelo GAN
(Generative Adversarial Network)
Con este último modelo, generamos la imagen de la página siguiente,
que cumple a cabalidad con nuestro prompt.
Otros sitios gratuitos que usan Stable diffusion son: La horda estable,
Craiyon, Hotpot, EasyDiffusion y NightCafé, sobre este último
dedicamos un espacio aparte.
224
225
Imagen generada con You.com.
3.4.8 Leonardo Ai
Además de Stable Diffusion, Leonardo Ai cuenta con una gama de
modelos como Leonardo Diffusion XL y Vision XL. Inicialmente,
hemos generado varias imágenes con el modelo Leonardo Diffusion,
tal como se muestran en la figura 3.35.
Figura 3.35. Imágenes generadas con Leonardo Ai
Recientemente probé Leonardo.ai y debo decir que superó mis
expectativas. Esta plataforma es verdaderamente el sueño de un
artista de IA hecho realidad. Una de las cosas que me impresionó
fue lo fácil que era de usar (Prompt Engineering Institute).
226
Leonardo Ai permite explorar imágenes creadas por la comunidad, de
las cuales hemos seleccionado 12. Haz clic sobre las siguientes
imágenes:
227
Generar imágenes basadas en modelos
Además de los modelos base, Leonardo Ai ofrece otros modelos, de
los cuales hemos usado algunos en las siguientes imágenes:
Como otras IAs, Leonardo está en permanente mejora. La versión a
enero de 2024, incluye Canvas, generación de imagen en tiempo real
y generación de videos a partir de imagen. Las dos últimas
herramientas las describiremos en otros apartados de este libro. En
la versión de pago, se puede usar la innovadora función Alchemy
(Alquimia), para obtener imágenes mejoradas.
228
3.4.9 Lexica.art
Otra IA basada en stable difussion es Lexica.art, con la que hemos
generado las siguientes imágenes:
Figura 3.36. Imágenes generadas con Lexica.art
La generación de imágenes con
Lexica.art es bastante sencilla, se
ingresa el prompt y, opcionalmente,
el prompt negativo. Se definen las
dimensiones y hacemos clic en el
botón generar. La IA genera cuatro
imágenes. Lexica.art tiene planes de
pagos, que van de 10 a 60 doláres
mensual.
La IA presenta, también, una opción
de búsqueda de imágenes gene-
radas por la comunidad, como la
imagen de la figura 3.37. Figura 3.37. Imagen tomada de la opción
de búsqueda en Lexica.art
229
3.4.10 NightCafe
Una novedosa IA es NightCafe, pues el reto es obtener créditos por
inscripción, publicaciones, comentarios o poner "me gusta" a otras
publicaciones; es decir, es libre si te lo propones.
NightCafe Creator es una herramienta de generación de arte
impulsada por inteligencia artificial que permite a los artistas
crear sin esfuerzo obras de arte diversificadas y convertir sus
fotografías en exquisito arte digital. NightCafe utiliza múltiples
métodos de generación de arte mediante IA, lo que permite a los
artistas crear arte digital que se ve incluso mejor que sus
fotografías originales (https://nightcafe.studio/blogs/).
Figura 3.38. Imágenes con NightCafe
Una restricción es el número de palabras del prompt. En la figura
3.38, la imagen de la izquierda se obtuvo con el prompt corto, y la de
la derecha con el prompt largo modificado, en el cual sólo pudimos
ingresar "A majestic tiger sand beach. The sea is rough, with large waves
breaking on the shore. Near the beach, there is a sailboat with its sails
sp...".
230
3.4.11 PicFinder.AI
La plataforma, gratuita, PicFinder ofrece una capacidad infinita de
generación de imágenes. Los usuarios pueden controlar el tamaño de
las imágenes que generan, con opciones de cuadrado, alto y ancho.
También, se pueden seleccionar diferentes modelos, tales como Rev
Animated, AbsoluteReality, CyberRealistic, entre otro.
En el siguiente video, puedes observar qué simple es la generación de
imágenes:
Vídeo
Video 3.6. Generación de imágenes con PicFinder.
Para ayudar a mantener la plataforma en funcionamiento, PicFinder.AI
también ofrece una opción de donación, donde los usuarios pueden
elegir una frecuencia de donación y un monto. Esto ayuda a PicFinder.AI
a continuar innovando y brindando inspiración infinita a los creadores
de todo el mundo (There's an AI for that).
231
3.4.12 Genmo
Genmo, que describiremos en el cuarto capítulo de videos y audios,
permite construir imágenes a través de una conversación. Observa,
inicialmente, las siguientes imágenes:
Figura 3.39. Imágenes diseñadas con Genmo y Yo
Esta es nuestra conversación o chat:
Yo: La imagen muestra un majestuoso tigre de pelaje naranja y negro
descansando en una playa de arena blanca. El mar está agitado, con
grandes olas rompiendo en la orilla. Cerca de la playa, hay un velero
con sus velas desplegadas, navegando en el fuerte viento. A lo lejos,
se puede ver un faro imponente parcialmente iluminado por el sol
que se pone en el horizonte. Se genera la imagen 1
Genmo: La imagen que generé captura muy bien la escena
majestuosa que describiste. ¿Te gustaría que modificara algo en la
imagen, como el ángulo o la iluminación? También podría generar una
animación del tigre descansando en la playa o del velero navegando.
O podríamos explorar otras ideas inspiradas en la naturaleza si
prefieres. Estoy abierto a seguir creando imágenes hermosas contigo.
Yo: La misma imagen, pero incluyendo un bote en el mar.
Genmo: Entiendo, quieres añadir un bote en el mar a la imagen
generada anteriormente. Podemos probar editando la imagen
232
existente con el tool editImage. Esto debería mantener la mayor
parte de la imagen original mientras añade sutilmente el bote pedido
¿Qué te parece el resultado, o prefieres que lo intente de otra
manera? ¡Dime si quieres que modifique o mejore algo! Se genera la
imagen 2.
Yo: Está muy buena, pero necesito que esté el faro y el bote... No me
vayas a quitar el tigre.
Genmo: Entiendo que quieres conservar el tigre y añadir el faro y el
bote a la escena. Podemos intentar regenerar la imagen desde cero
usando generateImage para incluir todos los elementos pedidos. Por
favor, dime si esta imagen captura todo lo que querías o si debería
modificar algo. También estoy abierto a otras sugerencias para
mejorar la escena. Mi objetivo es crear imágenes hermosas que te
gusten. Se genera la imagen 3.
Por poco me deja el tigre solo, sin faro, sin bote, sin mar y sin playa...
finalmente, le dije que animara la imagen 2:
233
3.4.13 Adobe Firefly
En 2023 generamos imágenes con Adobe Firefly en su primera
versión (gratuita), siguiendo la invitación dada por Adobe:
La IA generativa es un tipo de inteligencia artificial que mejora la
creatividad produciendo resultados sorprendentes a partir de
sencillas indicaciones de texto. Nuestro propósito es que juegue,
experimente, sueñe y cree lo inimaginable con la nueva tecnología
de IA generativa de Adobe Firefly en nuestras aplicaciones.
Así que, jugamos y experimentamos:
Figura 3.40. Imágenes generadas con Adobe Firefly
Continúa Adobe con su mensaje:
Tenemos previsto incorporar la IA generativa con
tecnología de Firefly a 3D, animación y vídeo. Dado
que la generación de contenido con modelos de IA
requiere recursos informáticos significativos,
hemos actualizado nuestros planes para incluir una
asignación mensual de "créditos generativos".
234
A enero de 2024, aún Adobe no exige los créditos generativos, por lo
que pudimos generar imágenes con la versión 2, la cual incluye
nuevos parámetros como el guidance y la generación de imágenes a
partir de imagen. Las imágenes obtenidas son de mayor resolución y
de mejor calidad, lo cual puedes verificar moviendo la barra central
en la siguiente escena:
235
Entre el 10 y 12 de octubre de 2023, se celebró el evento Adobe
MAX en los Ángeles, durante el cual se lanzó la versión 2 de Adobe
Firefly.
Figura 3.41. Lanzamiento de Adobe Firefly 2 en el evento Adobe Max.
Adobe afirma que su innovador modelo Firefly Image 2 supera con
creces a su predecesor, produciendo imágenes de calidad notable
superior, especialmente en lo que concierne a detalles de alta
frecuencia como follaje, textura de la piel, cabello, manos y rasgos
faciales, permitiendo la creación de representaciones fotorrealistas
de personas. Las imágenes generadas con el Firefly Image 2 ostentan
una resolución más elevada y exhiben colores más vibrantes y
contrastes superiores (AUTOMATIZARTE).
En la siguiente presentación interactiva, puedes observar algunas
imágenes generadas por Adobe Firefly 2, con el mismo prompt de
nuestro tigre.
236
237
Uno de los potenciales de Adobe Firefly 2 es la fotografía, pues es
posible aplicar ajustes para modificar manual o automáticamente la
profundidad de campo, el desenfoque de movimiento y el campo de
visión de una imagen generada, al igual que gestionar los controles
manuales de la cámara (AUTOMATIZARTE).
Una pausa lúdica
En el siguiente puzle, arma la foto de la bruja. Puedes, si lo deseas,
ampliar el puzle a pantalla completa. La imagen de fondo es una guía
para armar las 48 piezas.
238
3.4.14 Ideogram
Ideogram nos sorprende con sus 18 estilos y, en especial, la
posibilidad de incluir textos en la imagen, que hemos usado para
adornar este libro en las portadas de capítulo. En las imágenes de la
figura 3.42 presentamos seis imágenes, cuatro de ellas con texto
incluido.
Figura 3.42. Imágenes generadas con Ideogram
Lo que debes saber es que la calidad de las creaciones de
esta IA en cuanto a los dibujos que genera están muy
cerca de Midjourney, y bastante a la par de Stable
Diffusion. Sin embargo, su capacidad de incluir palabras
coherentes es revolucionaria, y actualmente no hay otros
sistemas de inteligencia artificial que lo hayan conseguido
(Xataka).
239
Estamos entusiasmados de lanzar Ideogram 1.0,
nuestro modelo de conversión de texto a imagen
más avanzado hasta la fecha. Ideogram 1.0 ofrece
representación de texto de última generación,
fotorrealismo sin precedentes y adherencia a las
indicaciones, y una nueva característica llamada
Magic Prompt que le ayuda a escribir
indicaciones detalladas para imágenes hermosas
y creativas (ideogram.ai).
El 28 de febrero de 2024, ideogram.ai lanza su versión 1.0,
mejorando la generación de texto en las imágenes, "Nuestra
evaluación sistemática muestra que Ideogram 1.0 es lo último en
precisión del texto renderizado, reduciendo las tasas de error casi 2
veces en comparación con los modelos existentes" (Ibide.).
Figura 3.43. Imagen generada por Ideogram y presentada en el lazamiento de
Ideogram 1.0.
240
Lo del fotorrealismo y adherencia a indicaciones, lo evidenciamos
inmediatamente, pero lo del texto renderizado parecía que no era tan
cierto, pues los primeros textos que nos presentaba eran simples
superposiciones; sin embargo, al final logramos obtener la imagen
deseada, que puedes observar en la siguiente presentación:
Pudimos concluir:
Las imágenes son de buena calidad 1232x768
Excelente adherencia de la indicación dada, tanto en español
como en inglés
Los textos van bien si la indicación está dada en inglés
241
3.4.15 Fusion Brain AI
Fusion Brain es una nueva IA de generación de arte, que puede crear
y editar imágenes desde un texto (incluye prompt negativo). Incluye
una buena variedad de estilos, que hemos usado en las imágenes del
interactivo de esta página.
Fusion Brain AI simplifica el proceso de edición de
imágenes, permitiendo tanto a principiantes como a
profesionales crear imágenes llamativas (Daily AI Bailey).
242
3.4.16 Dream por Wombo
WOMBO Dream crea buenas imágenes. La versión gratuita otorga
350 créditos, también se pueden explorar y descargar trabajos de la
comunidad. La imagen que generamos, la hemos puesto en el
siguiente puzle.
243
3.4.17 Recraft AI
Esta IA generativa de imagen, además de ser 100% gratuita, ofrece
novedosas herramientas para generar otro tipo de imágenes. He aquí
su descripción:
Recraft AI utiliza un modelo de aprendizaje automático para generar
imágenes. El modelo está entrenado en un conjunto de datos de
imágenes de alta calidad. Los usuarios pueden proporcionar al
modelo una descripción o una imagen de referencia para generar una
nueva imagen.
Recraft AI tiene una variedad de características que lo hacen una
herramienta versátil. Los usuarios pueden elegir entre diferentes
estilos artísticos, cambiar el color y el tamaño de las imágenes, y
editar las imágenes manualmente, es una herramienta útil para
diseñadores, artistas y cualquier persona que quiera crear imágenes
de alta calidad.
Aquí hay algunos ejemplos de lo que se puede crear con Recraft AI:
Vectores: logotipos, iconos, ilustraciones
Iconos: iconos de aplicaciones, iconos de sitios web
Imágenes 3D: modelos de productos, modelos
arquitectónicos
Ilustraciones: dibujos, pinturas, gráficos
Recraft AI es una herramienta relativamente nueva, pero ha ganado
popularidad rápidamente. Es una herramienta poderosa que tiene el
potencial de revolucionar la forma en que se crean las imágenes.
244
Hemos generado varias imágenes, que se muestran en el siguiente
objeto interactivo, en el cual incluimos imágenes que se usarán en el
capítulo 4 con el prompt "cinco gatos jugando con pelotas".
Recraft AI permite editar las imágenes, con herramientas como la
remoción de fondo, borrado de regiones, inclusión de nuevos objetos,
entre otras.
245
3.4.18 Midjourney
La joya de la corona, antes de DALL-E 3, ha sido Midjourney, IA que
manifiesta: "Somos un pequeño equipo autofinanciado enfocado en
diseño, infraestructura humana e inteligencia artificial. Contamos
con 11 empleados de tiempo completo y un increíble conjunto de
asesores". La IA es de pago con planes que van desde 10 a 120
dólares mensuales.
Para generar imágenes en Midjourney se deben seguir los siguientes
pasos:
Iniciar sesión en Discord.
Hay que tener una cuen-
ta de Discord verificada.
Elegir un plan de sus-
cripción en docs.
midjourney.
Unirse al servidor
Midjourney en Discord.
Para comenzar a inter-
actuar con Midjourney
Bot, únete al servidor
Midjourney en la barra lateral izquierda.
Ir a cualquier canal #General o #Newbie. Estos canales están
diseñados para que los principiantes comiencen a utilizar el
bot Midjourney. El Midjourney Bot no generará imágenes en
otros canales.
Empieza a generar imágenes con el comando \imagine
prompt.
246
Una pausa lúdica
En el siguiente puzle, podrás descubrir seis imágenes generadas por
Midjourney. Puedes, si lo deseas, ampliar el puzle a pantalla completa.
La imagen de fondo es una guía para armar las 48 piezas.
247
3.4.19 DALL⋅E3
A comienzos del mes de octubre de 2023, Bing lanza su nueva alianza
con OpenAI, al incoporar el nuevo generador de imágenes DALL⋅E3.
DALL· E3 entiende significativamente más matices y
detalles que nuestros sistemas anteriores, lo que le
permite traducir fácilmente sus ideas en imágenes
excepcionalmente precisas (OpenAI).
Lo sorprendente es la generación de imágenes fieles al prompt
enviado, por contraste a los modernos modelos de texto a imagen
que, como lo vimos en los apartados anteriores, tienden a ignorar
palabras o descripciones. En la figura 3.44, observa la imagen y las
descripciones dadas... ¡sorprendente! que, tal como lo dice OpenAI,
no se requiere de Ingeniería de prompt.
Figura 3.44. Imagen generada por DALL⋅E 3
248
Hicimos la prueba, incluyendo las descripciones de la figura anterior,
obteniendo las siguientes imágenes (haz clic sobre cada una de ellas,
para ver las demás).
Pero, lo que nos interesa es nuestro ejercicio; para ello, hemos usado
tanto el prompt corto como el largo, obteniendo lo que queríamos,
sin mayores esfuerzos. Observa los resultados en la siguiente página.
249
Haz clic sobre cada una de las siguientes imágenes, para ver las
demás. Podrás observar cómo DALL⋅E 3, entrega las imágenes que se
ciñen a las descripciones solicitadas.
Parece que la joya de la corona ha cambiado de propietario.
250
3.5 Nuevas IAs generadoras de imagen a 2024
En este apartado, presentamos otras IAs surgidas a finales de 2023 o
durante los meses de 2024, previos a la terminación de esta edición.
3.5.1 Mage Space
Mage Space es una plataforma de generación de imágenes que se
ejecuta en Stable Difussion (modelos Stable Diffusion 1.5, Stable
Diffusion 2.1 y SDXL en la versión gratuita). Mage Space fue fundada
en 2019, pero la incorporación de IA para generar sus imágenes, se
realiza en 2023.
Figura 3.45. Modelos en la versión gratuita
El uso de otros modelos, LoRAs e Inversión textual, solo se puede
hacer en la versión de pago.
En la versión gratuita es posible generar una imagen por cada prompt
ingresado, ajustar las dimensiones, la escala CFG (guidance), el
muestreador (sampler) y la publicación pública o privada; otras
generaciones que admite gratis son Texto a imagen, Remix e Imagen a
imagen. De esta última, hemos generado una imagen a partir de otra
generada por Prome AI, las cuales puedes comparar en la siguiente
escena interactiva:
251
Objeto interactivo 3.2. Imagen generada por Mage Space (izquierda) a partir de una
imagen de Prome AI (derecha).
Con la herramienta Texto a imagen, en la versión gratuita, es posible
usar prompts negativos y en español, pero los resultados en inglés
son mucho mejores (el modelo que ha dado mejor resultado es SDXL).
En la siguiente escena, mostramos algunas imágenes generadas a
partir de texto (Aplicación diseñada por Patalin).
252
Objeto interactivo 3.3. Imágenes generadas por Mage Space a partir de texto.
Sorprende, por contraste a otras IAs, la generación de imágenes que
cumplen casi totalmente con la instrucción dada. En todas se
presenta el faro y el velero, el sol en el ocaso y en cinco de las seis
imágenes el tigre está sentado.
253
3.5.2 Magic Studio
Estoy construyendo Magic Studio con un equipo pequeño
pero increíblemente genial, y más de un millón de
personas utilizan nuestros productos cada mes. Y el alma
de nuestros productos es la IA que otorga a todos
superpoderes. Así que tengo confianza y tengo una visión
privilegiada sobre de qué se trata todo este negocio de la
IA (https://magicstudio.com/blog/ai-today/, 23 de agosto
de 2023).
Magic Studio ofrece, en el plan gratuito, generación de 40 imágenes a
partir de texto y algunas funcionalidades básicas, añadiendo marca
de agua y menor resolución. En este plan no permite elección de
modelos pero sí el de estilos.
Figura 3.46. Estilos de Magic Studio
Los parámetros en el plan gratuito, permiten generar una sola imagen
en una gran variedad de formatos (Instagram, Tiktok, 1:2, 2:3, 9:16,
entre otros), que se guarda en el repositorio del usuario. No permite
usar parámetros como el guidance y el sampler.
254
Magic Studio ofrece otras herramientas solo en un plan de pago, tales
como upscale, animaciones, editor Canvas, entre otras.
En el ejercicio que realizamos, se observa que el prompt en español
no genera las imágenes; por ello, las generamos en inglés, obteniendo
imágenes de muy buena calidad y un seguimiento de las instrucciones
elevado, tal como lo mostramos en las siguientes imágenes:
Objeto interactivo 3.4. Imágenes generadas por Magic Studio a partir de texto.
255
3.5.3 PromeAI
Prome" se deriva de "Pro" y "Me", que significa Prometeo,
la figura mítica que robó el fuego de los dioses y se lo llevó
a los humanos. Al igual que Prometheus, nuestro objetivo
es mejorar la inteligencia humana con el poder de la
inteligencia artificial. Colaboremos para crear un nuevo
producto que transforme a cada individuo en un
profesional o "Pro".
PromeAI es lanzada en abril de 2023. En el plan gratuito, luego de
registrarse, es posible generar imágenes con las 10 monedas
otorgadas mensualmente (cada imagen cuesta 0.1 moneda), usando
funcionalidades básicas. No permite el uso de modelos, pero si una
gran variedad de estilos.
Figura 3.47. Estilos de PromeAI
En este plan, permite la inversión textual y el uso de LoRAS,
denominadas como supermodelos. Se pueden generar tres imágenes
y usar diferentes relaciones de aspecto (1:1, 4:5, 3:4, 9:16, entre
otros), permite configurar el guidance y el sampler. El 5 de abril de
2024, esta IA cambió de plataforma.
256
Las generaciones que se pueden realizar con el plan gratuito, son:
Texto a imagen, Imagen a imagen, Remix, Mejora, Animación
imágenes, creación de vídeos a partir de textos e imágenes,
Ampliación de imágenes, Canvas editor, Imagen a imagen en otro
formato y generador tipo Headshot (técnica de "disparo en la cabeza"
(véase InstantID en el capítulo 6).
Admite mensajes en español, pero los resultados en inglés son mucho
mejores. La calidad es muy buena, pero a veces cuesta que tenga en
cuenta todos los elementos pedidos. Vemos algunos resultados:
Objeto interactivo 3.5. Imágenes y video generadas por PromeAI.
Hicimos, también, un ejercicio con la técnica de "disparo en la
cabeza", que presentamos en la siguiente página en una escena
interactiva con control deslizante (diseñada por Abel Cabezón); para
ello, tomamos una foto de los autores de este libro, aplicamos filtros y
escenas, obteniendo varias imágenes, una de ellas es la que
presentamos en la escena.
257
Objeto interactivo 3.6. Imagen obtenida con la técnica Headshot.
258
3.5.4 Hotpot
La razón del nombre tiene sus raíces en nuestra visión y
pasión por la comida. Al igual que la comida, nuestra
plataforma ofrece los ingredientes para una
personalización sencilla y de alta calidad. Modificamos la
ortografía para reflejar la fusión de dos conceptos
distintos, IA y personalización, y nuestra motivación para
inventar una nueva categoría de software (Hotpot.ai).
Hotpot es una plataforma en línea que ofrece herramientas y
servicios basados en inteligencia artificial para la generación y
manipulación de imágenes. Con Hotpot, los usuarios pueden acceder
a una variedad de funciones y características diseñadas para facilitar
la creación y edición de contenido visual.
La plataforma proporciona una interfaz intuitiva que permite a los
usuarios trabajar con sus imágenes de manera fácil y eficiente. Entre
las posibilidades que ofrece Hotpot se encuentran:
Generación de imágenes: Permite a los usuarios crear
imágenes realistas a partir de descripciones textuales o
seleccionando opciones específicas en la plataforma.
Edición de fotos: Proporciona herramientas para retocar y
mejorar fotos, incluyendo ajustes de color, recortes,
eliminación de objetos no deseados, entre otros.
Creación de ilustraciones: Facilita la generación de
ilustraciones y arte visual a partir de imágenes existentes o
mediante la combinación de elementos predefinidos.
Hotpot ofrece una combinación de funciones gratuitas y de pago. Los
usuarios pueden acceder a ciertas características de forma gratuita,
259
pero es posible que algunas funciones más avanzadas requieran una
suscripción o pago por uso. La versión gratuita es muy limitada, solo
permite ciertos modelos de imágenes con dimensiones cuadradas. Si
deseas redimensionar o simplemente editar, pide créditos.
Figura 3.48. Imagen creada por Hotpot
Pese a los pocos créditos gratuitos, las herramientas como headshot,
book writing, song writing y de edición de imágenes, lo constituyen
en una buena alternativa.
260
3.5.5 Imagine.art
No hay mucha información sobre Imagine.art. Esta IA generadora de
imágenes tiene cuatro herramientas adicionales: Inpainting, Remix,
Expand image y Background replace. Ofrece 50 Tokens gratis cada
día (reposición diaria), usando el modelo Stable Diffusion. La
presentamos, más como un ejercicio de mejora de imagen, pues las
imágenes no son de buena calidad, como se muestra en la siguiente
figura:
Figura 3.49. Imagen creada por Imagine.art
261
Pero, esta baja calidad la podemos solucionar, usando aplicaciones
tipo enhance o de mejoramiento de imágenes, como lo veremos en el
capítulo 6. Una de esas aplicaciones es krea.ai, la cual mejoró
significativamente la imagen anterior. En la siguiente escena
interactiva con control deslizante, podemos observar el cambio
(escena diseñada por codyhouse).
Objeto interactivo 3.7. Imágenes generadas por imagine.art (derecha) y mejorada con
krea.ai (izquierda).
262
3.5.6 Openart.ai
OpenArt es un poderoso generador de imágenes basado en
inteligencia artificial que permite crear imágenes únicas y creativas a
partir de texto. Es perfecto para artistas, diseñadores,
emprendedores y cualquier persona que desee producir
impresionantes visuales sin necesidad de experiencia en diseño.
En OpenArt, los modelos son algoritmos de inteligencia artificial que
generan imágenes a partir de descripciones de texto. Estos modelos
son la base para crear obras de arte únicas y creativas. Así, podemos
encontrar:
OpenArt Standard SD1.5: Este modelo crea imágenes con un
estilo creativo y estándar.
OpenArt SDXL: Proporciona imágenes más grandes y
detalladas.
Juggernaut XL: Genera imágenes fotorrealistas.
AlbedoBase-XL: Otro modelo fotorrealista con un toque
artístico.
Fine Caboose913: Ofrece un estilo único.
Figura 3.50. Modelos en OpenArt
263
OpenArt te permite comenzar de forma gratuita con una buena
cantidad de créditos, pero si deseas aprovechar al máximo todas las
capacidades de la plataforma, considera explorar la opción de
suscripción premium. He aquí algunas imágenes generadas:
Objeto interactivo 3.8. Imágenes generadas por OpenArt.
Si bien las imágenes son de buena calidad, la respuesta al prompt no
es buena.
264
OpenArt ofrece varias herramientas, pero algunas, como el
entrenamiento de modelos, solo activas en la versión de pago.
Figura 3.51. Algunas herramientas de OpenArt.
Una herramienta a la que tenemos acceso en el plan gratuito, es el
uso de archivos tipo flujo de trabajo o Workflows en ComfyUI. En el
siguiente video, explicamos cómo hacerlo.
Vídeo
Video 3.7. Uso de archivos workflow en OpenArt.
Finalmente, la plaforma ofrece buena documentación, como el libro
de prompts en Stable Diffusion, que mostramos a continuación:
265
Objeto interactivo 3.9. Libro de prompts en Stable Diffusion por OpenArt.
266
3.5.7 Lumenor
Iluminando tu imaginación con imágenes de
belleza incomparable generadas por IA
Lumenor.ai ofrece un plan gratuito con 100 créditos de imagen por
mes, uso comercial, historial de imágenes creadas, las imágenes son
públicas y sin ampliación. Permite generaciones de texto a imagen y
de imagen a imagen, usando el modelo Accurate 1.0 Gamma.
Figura 3.52. Imagen generada por Lumenor 1024x1024.
267
En la imagen de Lumenor, usamos uno de los siguientes prompts:
Objeto interactivo 3.10. 17 prompts para Stable Diffusion SDXL.
268
3.5.8 Shakker AI
Shakker, a la fecha (3 de marzo de 2024), gratuita y en fase beta,
permite la generación de imágenes y aplicaciones como inpaint,
collage y upscale. Presenta, además, una galería con más de 70 000
estilos.
Las imágenes generadas son presentadas en un lienzo (canvas), desde
el cual podemos intervenirlas en una forma muy sencilla; por ejemplo,
al seleccionar una imagen aparece un menú central, con opciones
como remover fondo, corte de la imagen, inpaint y remover partes de
la imagen.
Shakker AI, también, permite generación de imagen a imagen,
presentando herramientas adicionales como Remix, inpaint, cambio
de estilo, upscale y collage. En el siguiente video, mostramos algunas
de sus fortalezas.
Objeto interactivo 3.11. Creando imágenes con Shakker AI.
269
3.5.9 Scenario
Esta aplicación, en su plan gratuito, entrega 500 "unidades creativas",
semanalmente. El plan de pago más económico es "Creator", con un
costo de U$ 15 mensuales. Incluye herramientas para generar
imágenes, remover fondos, upscale, pixelación y vectorización. Una
opción interesante, es la posibilidad de crear nuestros propios
modelos (veáse capítulo 6).
Figura 3.53. Imagen generada por Scenario, 1024x1024.
270
Actividad evaluativa 3.1. Cuestionario de 16 preguntas del capítulo 3.
271
Imagen diseñada con DALL⋅E 3
Capítulo 4
IAs generativas de video y
audio
Poster diseñado con Ideogram
4.1 Introducción
Para la introducción de este capítulo, como era de esperar, hemos
recurrido a dos inteligencias artificiales. La primera es Claude, a la
cual le hicimos la siguiente petición:
Eres un profesor de Inteligencia Artificial y vas a
dar una introducción a las IA generativas de
texto a video ¿Cómo lo harías?
Solicitud que Claude nos responde, así:
Buenos días a todos. Hoy vamos a hablar de uno de los
avances más emocionantes en el campo de la Inteligencia
Artificial: las IA generativas de texto a video.
Estas IA son capaces de tomar como entrada un texto plano
escrito por un humano y generar a partir de él un video
realista. El video genera imágenes en movimiento, voces
sintetizadas y efectos de sonido que se corresponden con la
narrativa descripta en el texto.
Para lograr esto, las IA generativas de texto a video como
Lumen 5 o Fliki, utilizan modelos de Deep Learning
entrenados con enormes conjuntos de datos de video e
imágenes. A partir de esos datos aprenden patrones sobre
cómo se ven objetos, personas, escenas, cómo suenan
diferentes voces y sonidos, etc.
275
Luego, cuando se les da como entrada una nueva
descripción textual, pueden generar fotogramas de video
que se ajusten a esa descripción. También sintetizan voces
basadas en el texto y agregan efectos de sonido apropiados.
Finalmente, ensamblan todos estos componentes generados
de forma fluida en un video coherente. El resultado puede
ser sorprendentemente realista.
Las aplicaciones de esta tecnología son infinitas. Desde la
generación automatizada de videos para marketing, la
producción de contenidos educativos o entretenimiento,
hasta posibles usos artísticos o para accesibilidad. En esta
introducción cubriremos los conceptos básicos detrás de las
IA generativas de texto a video, veremos algunos ejemplos y
demostraciones, y discutiremos el potencial futuro de esta
tecnología. Espero que lo encuentren tan fascinante como
yo. Ahora, comencemos con los fundamentos...
Lumen 5 es una plataforma de creación de texto a video, que toma
artículos, publicaciones de blog u otro contenido y los convierte en
videos con imágenes, videoclips y superposiciones de texto.
Lumen 5 usa inteligencia artificial para
transformar contenido basado en texto en videos
atractivos [45]
No obstante, este tipo de IA la hemos clasificado para el capítulo 5,
pues los videos generados son tipo presentación.
276
La respuesta que nos dio Claude, la ingresamos en Lumen 5,
obteniendo:
Vídeo
Video 4.1. Video "Introducción a las IA generativas
texto a video", creado con Lumen 5.
277
Pero, si has leído la introducción que nos dió Claude, pudiste advertir
que aún faltaba algo, así que le preguntamos:
¿Cuáles son los fundamentos?
Pregunta que nos respondió, así:
Los fundamentos clave detrás de las IA generativas de texto
a video son:
Modelos de lenguaje natural: Permiten que la IA
analice y comprenda el texto de entrada. Utilizan
técnicas como redes neuronales recurrentes o
Transformers para modelar el lenguaje.
Generación de imágenes: La IA genera fotogramas del
video utilizando modelos generativos entrenados
como GANs (Generative Adversarial Networks) o VAEs
(Variational Autoencoders). Aprenden a generar
imágenes realistas basadas en descripciones textuales.
Síntesis de voz: Para generar el audio, la IA sintetiza
voces que se corresponden con el texto utilizando
técnicas como WaveNet. Puede generar distintas voces
e inflexiones de acuerdo a la narrativa.
Efectos de sonido: La IA también selecciona y genera
efectos de sonido ambientales que concuerdan con las
acciones descritas en el texto.
Montaje de video: Una vez que se generan todos los
componentes (imágenes, voz, sonido), la IA los
ensambla en una secuencia de video coherente y fluida
utilizando técnicas de edición y post-producción.
278
Entrenamiento con grandes conjuntos de datos: Todo
esto es posible gracias al entrenamiento de los modelos con
enormes cantidades de videos e imágenes que capturan las
propiedades del mundo real.
Esa es una introducción a alto nivel de la "magia" detrás de
convertir texto en video realista con IA generativa. Ahora
veamos algunos ejemplos.
Nuevamente, recurrimos a Lumen5, incluyendo audio:
Vídeo
Video 4.2. Video "Fundamentos de las IA generativas texto
a video", creado con Lumen 5.
279
Pero, aún falta más introducción de Claude:
Aquí hay algunos ejemplos interesantes de lo que pueden
lograr actualmente las IA generativas de texto a video:
Narración de un cuento: Dándole a la IA un texto que
describe una escena de un bosque encantado, puede
generar un video con ilustraciones animadas,
narraciones y música que se corresponden.
Presentador de noticias: La IA puede crear un video de
un ancla de noticias informando sobre los eventos del
día, con una locución generada, inflexiones de voz y
movimientos realistas.
Videos educativos: Ingresando un texto que explica un
concepto matemático o científico, la IA puede generar
un video didáctico con gráficos animados, narración y
ejemplos prácticos.
Promociones de productos: Las marcas podrían
describir un producto y la IA generaría videos
publicitarios de alta calidad para promocionarlo.
Películas cortas: Proveyendo un guion o sinopsis, las
IA podrían llegar a crear cortometrajes animados con
personajes y escenas complejas.
Accesibilidad: Personas con discapacidad visual
podrían ingresar una descripción de una escena y la IA
la convertiría en un video narrado.
Como ven, las posibilidades son amplias y van a expandirse
aún más en el futuro a medida que estos modelos
generativos continúen evolucionando.
280
Ahora, usamos Lumen5 permitiéndole que utilizara el texto anterior
y destacara las frases que considerara relevantes. De nuevo... ¡Nos
sorprendió!:
Vídeo
Video 4.3. Video "Ejemplos de aplicación de las IA generativas texto a video", creado
con Lumen 5.
En los siguientes apartados, veremos algunas IAs generativas de
texto a video, dejando los videos tipo presentación para el capítulo 5.
Incluimos, además, las IAs generativas de texto a audio.
Es importante aclarar, que tanto los videos como las imágenes de este
libro se han intervenido a través de aplicaciones de compresión en
línea, ello para evitar una lentitud en la carga de archivos. Para el caso
de las imágenes, usamos TinyPNG y para los videos MP4Compress.
Estas acciones, reducen un poco la calidad de imágenes y video.
281
4.2 IAs generativas de video
Las IAs generativas de texto y de
imagen han impactado en gran
medida la sociedad, suscitando
grandes debates en temas como la
ética en el uso de estas tecno-
logías, la propiedad intelectual, la
desaparición de puestos de
trabajo23, entre otros. Sin tanto
ruido como el realizado por
ChatGPT o DALL⋅E, se están
desarrollando otras IAs gene-
rativas que, en un futuro cercano,
también estarán sujetas al escru- Figura 4.1. Un gato verde nadando en
tinio público. Aún por mejorar una piscina de pelotas, generado por
DALL⋅E 3
ostensiblemente, se están presen-
tando las IAs generativas de video, las cuales presentan mayores
desarrollos cuando su función principal es incorporar clips de video e
imágenes a un texto suministrado por el usuario (prompt), la
dificultad y, con menos desarrollo, se encuentra cuando la función
principal es crear un video nuevo que recree el escenario dado por el
usario; por ejemplo, con un prompt simple como "Un gato verde
nadando en una piscina de pelotas" podemos obtener una imagen
como la generada por DALL⋅E 3, pero difícilmente lo lograremos con
IAs generativas de video.
Difícil pero no imposible. Este prompt lo dimos a la IA Pika, la cual
generó un video de tres segundos (ver video 4.4).
23
Elias y Raja dicen que se estima que la IA generativa podría impactar hasta 300 millones
de empleos a nivel global, reemplazando alrededor del 25% del trabajo actual en EE.UU. y
Europa. Sin embargo, también se espera que cree nuevos trabajos, como ingenieros de IA y
científicos de datos [46].
282
Vídeo
Video 4.4. Video "Un gato verde nadando en una piscina de pelotas", creado con Pika
AI.
Pese a la extraña aparición del segundo gato, esta IA nos advierte que
lo que hemos llamado "difícil", pronto será superado con los nuevos
desarrollos de las IAs generativas de video.
A continuación, presentamos algunas IAs generativas de video que,
en general, son videos cortos entre tres y siete segundos pero,
seguramente, en un futro cercano, surgirán otras que, como Pika, nos
sorprenderán con nuevas funcionalidades y mejores resultados.
Un resultado no deseado, es la transformación de algunas IA a un
plan de pago, impidiendo su exploración a través de planes libres
(free); por ello, algunas que presentamos en la edición 2023,
desaparecen en este libro.
283
4.2.1 Genmo create video
Ya habíamos visto, en el capítulo 3,
el poder de Genmo para generar
imágenes y animaciones a partir
de un texto. Ahora, en la página
https://www.genmo.ai/create/vide
o, podemos acceder a varias
funcionalidades de esta IA; entre
ellas, crear imágenes, logotipos,
videos y objetos 3D.
Por si fuera poco, Genmo ha
habilitado un chatbot, que facilita
aún más la generación; para ello,
hay que ingresar a la página
https://www.genmo.ai/chat. Es ne-
cesario, para una nueva opción,
que se active el botón Create
something new.
Hemos retomado el prompt con el
gato verde, pero excluimos lo de la
piscina de pelotas, ello porque
algunas IAs la han confundido con
una piscina de agua. Para la opción
video, enviamos el mensaje "Cinco
gatos jugando con pelotas, uno de
ellos es de color verde" (Genmo
acepta el prompt en español),
obteniendo un video de dos
segundos, no muy aceptable.
Figura 4.2. Opciones en Genmo
284
Vídeo
Video 4.5. Video "Cinco gatos jugando con pelotas, uno de ellos es de color verde",
creado con Genmo AI en 2023.
Por ahora, el modelo de conversión de texto a vídeo de próxima
generación Genmo Replay v0.1, no nos ha dejado satisfechos, pues
ya habíamos advertido que este tipo de generación de videos no es
una tarea fácil. Sin embargo, estamos seguros que en las próximas
versiones, Genmo nos sorprenderá, tal como lo hizo con la
generación de imágenes.
En 2024, Genmo aumenta la calidad de los videos y, además, genera
un clip de 4 segundos en la versión libre.
285
Vídeo
Video 4.6. Video "Cinco gatos jugando con pelotas, uno de ellos es de color verde",
creado con Genmo AI en 2024.
Como lo habíamos advertido en la introducción, la generación de
videos a partir de una instrucción cada vez tendrán mayor calidad. En
este segundo video de Genmo, aparecen cuatro gatos jugando con
pelotas, uno de ellos con rayas verdosas.
Genmo, en la versión libre, otorga 100 puntos de combustible (fuel)
diarios o 1000 en la versión Pro con un costo de US$10 mensuales.
286
4.2.2 Gen-2 video
Un sistema de IA multimodal que puede generar vídeos novedosos
con texto, imágenes o videoclips. Hemos ejecutado esta IA, en la
plataforma Runway, con el prompt "Cinco gatos jugando con pelotas,
uno de los gatos es de color verde", tanto en español como en inglés.
Aclaramos que "uno de los gatos es color verde", pues algunas IAs
ponían verde la pelota, cambio que tampoco entendió Gen-2, pues
puso pelotas verdes y sólo dos gatos:
Vídeo
Video 4.7. Video "Cinco gatos jugando con pelotas, uno de los gatos es de color
verde", creado con Gen-2 video.
En la versión libre, es posible generar videos hasta 16 segundos,
sacrificando los 125 créditos otorgados. Se tienen planes que van
desde 12 a 76 dólares mensuales.
287
4.2.3 Pika AI
Una poderosa plataforma de texto a video que puede dar rienda
suelta a tu creatividad simplemente escribiendo
(https://www.pika.art/).
Esta IA se instala en un servidor de la plataforma Discord, con el
siguiente instructivo en el canal getting started (empezando):
Prepárese para dar rienda suelta a su creatividad con nuestra
poderosa tecnología de generación de video con IA. Actualmente
admitimos texto e imágenes como entrada para la generación de
videos y generaciones privadas enviando mensajes directos al bot.
Siga las instrucciones a continuación para comenzar su viaje creativo.
Para comenzar rápidamente, vaya a uno de los siguientes canales de
generación:
#generate-1 #generate-2 #generate-3 #generate-4 #generate-5
#generate-6 #generate-7 #generate-8 #generate-9 #generate-10
(NO PUEDE hacer videos ni usarlos/crearlos en ningún otro canal del
servidor Pika)
Escriba /create y seleccione "/create" de la lista de comandos que aparece en
la parte superior. Luego, en el campo emergente, escriba una descripción del
video que desea crear.
Hemos escrito, inicialmente, "/create prompt: A green cat swimming
in a ball pit", obteniendo el Video 4.4, que antes mostramos en el
apartado 4.2. Los videos generados por Pika son de tres segundos.
Luego, nos dimos cuenta que podíamos escribir el prompt en español
e incluir uno que otro parámetro adicional. Escribimos, entonces:
"/create prompt: cinco gatos jugando con bolas, uno de los gatos es de
color verde, sunset -ar 16:9 -motion 2".
El parámetro -motion ajusta la fuerza del movimiento, acepta valores
288
entre 0 y 4. El parámetro -ar 16:9, ajusta la relación de aspecto del
vídeo; por ejemplo, 16:9, 9:16, 1:1, 4:5 (el valor predeterminado es
1024:576). Existen otros parámetros para prompt negativo, zoom,
frames por segundo, etc., que puedes consultar en la aplicación o en
este video en YouTube.
Con el último prompt, obtuvimos el siguiente video:
Vídeo
Video 4.8. Video "Cinco gatos jugando con pelotas, uno de los gatos es de color
verde", creado con Pika AI.
En este caso, presenta los cinco gatos, pero ninguno de color verde,
color que destinó a los ojos de los gatos y a las pelotas, se abona la
calidad del video.
Una alternativa, que permite Pika, es crear la imagen con una IA
generativa de imagen y pedirle a Pika que genere el video a partir de
289
ella. Esto lo hicimos, recurriendo a NightCafe y, luego, usamos el
comando \animate image en Pika, donde image es la imagen
generada por NightCafe. El resultado, fue el siguiente:
Vídeo
Video 4.9. Video "Cinco gatos jugando con pelotas, uno de los gatos es de color
verde", creado con Pika AI a partir de una imagen generada por NightCafe.
290
La alternativa de Pika, nos motivó a generar imágenes en otras IAs
generativas, con resultados similares (sin el gato verde o menos
gatos), por lo que probamos otro prompt: "Hay cinco gatos jugando
con varias bolas. A uno de los gatos le ha caído pintura verde,
quedando completamente pintado" pero, en general, se presentaron
resultados similares, excepto por Minister y DALL-E 3, esta última
con dos imágenes sorprendentes. Observa los resultados en el
siguiente objeto interactivo:
291
4.2.4 Chromox
Chromox es una herramienta generadora de videos de IA
que transforma texto en videos. Proporciona modos
flexibles tanto para la interacción comunitaria como para
la privacidad del contenido. Chromox utiliza la última
tecnología de inteligencia artificial para producir videos
de alta calidad en varios estilos, como ciencia ficción y
pintura al óleo. Recomienda una experiencia fluida tanto
en PC como en dispositivos móviles con una interfaz fácil
de usar (Insane).
Con Chromox de AlkaidVision, aprendimos que no hay que desistir
en la generación de un buen video, pues solíamos abandonar la IA sin
realizar varios intentos. Obviamente, esto lo hacíamos, también, para
no agotar los créditos disponibles.
A la fecha, 31 de enero de 2024, los servicios de esta IA son gratuitos.
El uso de Chromox es sencillo,
pues basta ingresar el prompt,
para generar el video; sin
embargo, para nuestro prompt, no
fue muy halagador el resultado,
pues nos entregó cuatro gatos, Figura 4.3. Primer intento con Chromox
ninguno verde y algo deformados
pero, antes de desistir, observamos que podíamos suministrarle una
imagen de base, tal como lo hicimos con Pika.
Suministramos la misma imagen de NightCafe y el prompt: "4K, ultra
realism, specific details, Cinematic"; sin embargo, el resultado no fue
muy bueno (ver video 4.10).
292
Mejoramos el prompt, de
la siguiente manera: "cats, Videos
4K, ultra realism, specific
details, Cinematic, cat
body with real details in
ultra resolution".
El resultado fue mucho
mejor, incluso mejor que el
de Pika (ver video 4.11).
Este mismo prompt lo
usamos en Genmo y Gen2,
pero el resultado de la IA
Chromox sigue siendo el
mejor.
Video 4.10. Video creado con Chromox con
imagen de NightCafe (segundo intento).
Es importante entender
que la idea que hemos
usado para la generación
de videos no ha sido
sencilla, quizá "un águila
volando entre las mon-
tañas" podría haber
generado mejores videos;
sin embargo, esta idea nos
ha servido, también, para
evaluar la capacidad de las
IAs generativas de imagen
que, como hemos visto,
también han tenido pro-
blemas para lograr lo Video 4.11. Video creado con Chromox con
solicitado en el prompt. imagen de NightCafe (tercer intento).
293
4.2.5 Neural frames
Como rapero y productor aficionado durante aproximadamente
12 años, siempre me ha molestado el hecho de que cada canción
necesita algunas imágenes y, sin embargo, son muy caras y/o
requieren mucho tiempo para conseguirlas. Tengo un doctorado
en física y me enamoré de la conversión de texto a video basada
en Stable Diffusion a finales de 2022, desde entonces estoy
desarrollando Neural frames y tratando de ganarme la vida con
ello (Nicolai Klemke).
Neural frames presenta cuatro planes, que van desde el plan gratis al
plan Neural ninja, los planes de pago están entre 19 y 99 dólares
mensuales. En el plan gratis hay bastantes restricciones y solo
permite generar 10 segundos de video al mes.
Hemos generado el video, el cual solo muestra dos gatos y ninguno
verde, haz clic sobre la siguiente imagen:
Video 4.12. Video creado con Neural frames.
294
4.2.6 Vispunk motion
Retornamos a Vispunk, en la opción video, que permite crear videos
fotorrealistas (1280x1280px). Por su sencillez, además de ser
gratuito, no requiere instrucciones especiales. Este es el video que
obtuvimos:
Vídeo
Video 4.13. Video generado por Vispunk en 2023.
295
En el primer intento, obtuvimos un gato. En un segundo intento dos
gatos, que es el video descargado y mostrado en la página anterior. Se
le abona la calidad del video.
Algo recurrente, en los ejercicios anteriores, es pintar las pelotas de
color verde y no a un gato. Se podría pensar que ello obedece al
prompt en español; sin embargo, al inresar "Five cats playing with balls,
one of the cats is painted green", obtuvimos:
Vídeo
Video 4.14. Video generado por Vispunk en enero de 2024.
296
4.2.7 IAs generativas de video 2024
2024 viene con grandes sorpresas como Sora de OpenAI o las
grandes mejoras de Runway, Pika y Stable Video. En este apartado,
presentamos nuevas aplicaciones y las mejoras de las IAs existentes
en el primer semestre de 2024.
4.2.7.1 Haiper
Tenemos la misión de construir los modelos de
base perceptiva más poderosos para potenciar
las expresiones creativas (Haiper).
Haiper es una startup fundada por los ex alumnos de DeepMind
Yishu Miao y Ziyu Wang, que incluye cinco herramientas y
próximamente la posibilidad de extender la duración de un video.
Figura 4.4. Herramientas de Haiper.
297
La herramienta "Create Video Whith Text (HD)" solo genera videos
de dos segundos; por ello, seleccionamos "Create With Text Prompt",
que permite seleccionar cuatro segundos.
En la siguiente presentación interactiva, puedes observar los
resultados para cincos estilos diferentes: Old film, Acuarela, Arcano,
Ghibli y Lego.
Video 4.15. Cinco estilos de video con Haiper.
4.2.7.2 Stable Video
El primer modelo de vídeo abierto de Stability AI
(Stability.ai).
Stable Video Diffusion es un modelo de difusión de vídeo latente para la
generación de texto a vídeo e imagen a vídeo de última generación y de
alta resolución. Recientemente, los modelos de difusión latente
298
entrenados para la síntesis de imágenes 2D se han convertido en
modelos de video generativos insertando capas temporales y
ajustándolas en conjuntos de datos de video pequeños y de alta calidad.
Sin embargo, los métodos de capacitación en la literatura varían
ampliamente y el campo aún no se ha puesto de acuerdo sobre una
estrategia unificada para curar datos de video. Identificamos y
evaluamos tres etapas diferentes para el entrenamiento exitoso de LDM
de video: entrenamiento previo de texto a imagen, entrenamiento
previo de video y ajuste fino de video de alta calidad. Exploramos el
impacto de ajustar nuestro modelo base en datos de alta calidad y
entrenar un modelo de texto a video que sea competitivo con la
generación de video de código cerrado. También mostramos que nuestro
modelo base proporciona una poderosa representación de movimiento
para tareas posteriores, como la generación de imagen a video y la
adaptabilidad a módulos LoRA específicos de movimiento de la cámara.
Finalmente, demostramos que nuestro modelo proporciona una sólida
vista previa 3D de múltiples vistas y puede servir como base para ajustar
un modelo de difusión de múltiples vistas que genera conjuntamente
múltiples vistas de objetos de manera anticipada [47].
Como ejercicio, generamos, en la aplicación, la siguiente imagen:
299
Posteriormente, generamos el video, seleccionando un movimiento
panorámico
Obteniendo:
Vídeo
Video 4.16. Video generado por Stable Video en enero de 2024.
300
4.2.7.3 VideoGen
Esta plataforma fue creada en diciembre de 2022 por Anton Koenig y
David Grossman. Es una plataforma fácil de usar, pues permite crear
videos con unos cuantos clics. Lo hemos incluido como novedad
2024, porque presenta mejoras significativas; por ejemplo, la
generación de imágenes txt2img de muy buena calidad.
Figura 4.5. Imagen generada por VideoGen
301
Sin embargo, la generación de videos sería más propia del apartado
de presentaciones o del contador de historias, pues lo que hace es
tomar videoclips que se ajusten al prompt, el cual puede ser generado
automáticamente, con estilos como persuasivo, profesional,
dramático, entre otros. También, es posible ingresar la dirección de
una página Web, para generar el prompt o escribir el prompt, tal
como lo hicimos para el siguiente video:
Vídeo
Video 4.17. Video "del tigre en la playa, creado con VideoGen.
VidoGen permite una buena cantidad de idiomas y voces, tanto
masculinas como femeninas, para incluir en el video. En plan de pago
(5 dólares mensuales), admite nuevos elementos multimedia (videos
e imágenes) ingresadas por el usuario.
302
4.2.7.4 Lensgo
Lensgo AI es una herramienta que permite a los usuarios crear
imágenes y videos. La plataforma ofrece las siguientes herramientas:
Generación de imágenes, transformación de texto en videos y la
posibilidad de entrenar modelos personalizados con imágenes
propias.
Sin embargo, al igual que la mayoría de las IAs, que hemos evaluado,
no logra comprender el prompt, tanto en español como en inglés,
confundiendo el gato verde con pelotas verdes, además de no incluir
los cinco gatos.
Vídeo
Video 4.18. Video creado con Lensgo.
303
4.2.7.5 Magic Hour
Crea vídeos atractivos como un profesional.
Magic Hour es una plataforma de creación de
videos con IA todo en uno que agiliza la
producción de contenido desde la idea hasta la
producción. Ahora cualquiera puede crear vídeos
atractivos más fácilmente que nunca.
Esta plataforma, en su plan libre,
permite crear 400 frames libres,
alrededor de 33 segundos de
vídeo, con una resolución máxima
de 512x512, incluyendo
animaciones e intercambio de
cara. El plan básico tiene un costo
de 10 dólares mensuales.
Usando la foto de la derecha
(imagen base), hemos creado una
animación y varios videos.
Para la animación, seguimos seis
pasos: i) Música de fondo de
YouTube, ii) Use Lyrics as Prompt, iii) Estilo de arte: fotografía, iv)
efectos de cámara: zoom simple, v) Foto (la imagen base) y vi) relación
de aspecto 16:9.
Para los videos, son solo dos pasos: i) Ingreso del video base; para
ello, usamos un video clip de la película Matrix; ii) Foto (la imagen
base). En la siguiente página, mostramos la animación y uno de los
videos.
304
Vídeo
Video 4.19. Animación creada con Magic Hour.
Video 4.20. Video creado con Magic Hour.
305
Poster diseñado con Ideogram
4.3 IAs generadoras de audio y música
Terminamos este capítulo con un apartado dedicado a la generación
de audio o música.
En las IAs generativas de audio, hemos usado el siguiente texto, que
llamaremos "prueba":
Cierta noche, cansado de navegar en Internet, me quedé observando
una película de detectives. Generalmente no me gustan este tipo de
películas pero el diálogo que se daba entre un detective y su hija,
sentada frente a un computador, me llamó la atención: “hija, siempre he
procurado tu seguridad. Siempre te he protegido del daño que te
puedan causar. Esta casa cuenta con los más modernos sistemas de
seguridad, está conectada a la central de policía más cercana. Por ello
nunca hemos tenido un intruso en casa, pero… lo que nunca me imaginé
es que el intruso entraría por esa pantalla”24.
4.3.1 Neiro AI
Conéctese y cautive con avatares de IA, en
cualquier lugar (Neiro AI)
Esta IA permite generar audio a partir de un texto y, además, lo hace
usando una variedad de avatares. Estos avatares se pueden
configurar para que haya una sincronización entre el audio y los
labios del avatar. En la versión de prueba, sólo permite hasta 250
caracteres, por lo que el texto lo hemos reducido.
Es posible generar audio en más de 140 idiomas. A continuación,
puedes oir el texto "prueba" en español (acento argentino) y en
francés (no incluimos el avatar).
24
El texto hace parte del artículo "Navegando entre los riesgos de la Internet".
307
Audio 4.1. Texto a audio en español con Neiro.
Audio 4.2. Texto a audio en francés con Neiro.
El siguiente ejemplo es un audio sobre ciberseguridad, con avatar
incluido:
Vídeo
Video 4.21. Audio y avatar generados por Neiro.
308
4.3.2 Eleven Labs
Su kit de herramientas de IA creativa. Diseña voces sintéticas
completamente nuevas desde cero. Clona tu propia voz o una voz para
la que tengas permiso y derechos. Sólo tú tienes acceso a las voces que
creas (Eleven Labs).
Con Eleven Labs el límite de caracteres es de 2500, por lo que no
tuvimos problema con el texto "prueba". Otra diferencia con Neiro es
que esta IA entrega los audios en formato mp3, mientras que Neiro lo
hace en formato wav. La IA permite ingresar el texto desde una url o
desde archivos en formatos PDF o txt. Se pueden aplicar filtros para
seleccionar la voz, tales como género, edad, categoría y acentos.
Si bien es cierto que pudimos clonar una voz, optamos por usar las
voces que trae la IA, una en español y otra en coreano:
Audio 4.3. Texto a audio en español con Eleven Labs.
Audio 4.4. Texto a audio en coreano con Eleven Labs.
Tanto en Neiro como en Eleven Labs, los textos en otro idioma
tuvimos que ingresarlos en ese idioma, lo cual hicimos usando Google
Traductor.
309
4.3.3 Free text to speech
Usamos la poderosa biblioteca de voz de Microsoft AI para sintetizar
audio de lectura único que se parece a la voz de una persona real. Dé
vida a soluciones como lectores de texto y asistentes habilitados para
voz utilizando voces altamente expresivas y similares a las humanas
(Text to speech).
Nos ha sorprendido Text to speech, no sólo por ser 100% gratuito
sino, también, porque ingresamos el texto "prueba" en español, y al
seleccionar otro idioma, hace la traducción inmediata (con más de
330 voces de redes neuronales en 129 idiomas y variantes).
He aquí los resultados del texto "prueba", en español con acento
venezolano y en chino con acento taiwanés:
Audio 4.5. Texto a audio en español con Text to speech free.
Audio 4.6. Texto a audio en chino.
Azure se ha actualizado completamente al motor neuronal de texto a
voz. Este motor utiliza redes neuronales profundas para hacer que las
voces de las computadoras sean casi indistinguibles de las grabaciones
de las personas. Con una articulación clara de las palabras, la conversión
de texto a voz neuronal reduce significativamente la fatiga auditiva
cuando los usuarios interactúan con sistemas de inteligencia artificial
(Text to speech).
310
4.3.4 TTSMaker
Como generador de voz de IA, TTSMaker puede generar las voces de
varios personajes, que a menudo se utilizan en el doblaje de vídeos de
Youtube y TikTok. Para su comodidad, TTSMaker ofrece una variedad
de voces estilo TikTok para uso gratuito (TTSMaker).
TTSMaker es otra IA gratuita, la cual usa un potente modelo de
inferencia de red neuronal que permite la conversión de texto a voz
en poco tiempo.
He aquí los resultados del texto "prueba", en italiano y en turco:
Audio 4.7. Texto a audio en italiano con TTSMaker.
Audio 4.8. Texto a audio en turco.
TTSMaker puede convertir texto en voz natural y usted puede crear y
disfrutar fácilmente audiolibros, dando vida a las historias a través de
una narración inmersiva.
Puede convertir texto en sonido y leerlo en voz alta, puede ayudarle a
aprender la pronunciación de palabras y admite varios idiomas; ahora
se ha convertido en una herramienta útil para estudiantes de idiomas,
actualizamos constantemente esta herramienta de conversión de texto
a voz para admitir más idiomas y voces, así como algunas funciones
nuevas (TTSMaker).
311
4.3.5 Beatoven.ai
Dado que no somos expertos en música, nos limitaremos a exponer
dos IAs generativas de música, en especial cómo funcionan y algunas
pistas musicales generadas por la IA.
Para componer música con Beatoven.ai, se debe dar el nombre a la
pista y su duración, luego seguir los siguientes pasos:
Elegir un género/estilo. Se puede subir un vídeo/podcast o
comenzar con una pista, eligiendo entre 8 géneros
diferentes que se adapten al tema; entre ellos, Pop,
Ambiental, Hip Hop y Electrónica.
Hacer algunos cortes. El tono del contenido cambia con el
tiempo. Es por eso que se pueden hacer múltiples cortes
para agregar diferentes estados de ánimo.
Cambiar de humor (emoción). Ahora, podemos elegir entre
una rica selección de 16 estados de ánimo para los cortes;
entre ellos, Calma, Motivacional, Felicidad, Terror y
Relajación.
Componer. Pulsar componer y dejar que la IA haga todo el
trabajo duro de componer una pista única.
Hemos hecho una prueba con género electrónica, emoción
energética. Con algunos cortes a las emociones soñador y feliz,
obteniendo:
Audio 4.9. Pista musical creada con Beatoven.
312
4.3.6 Stable Audio
Crea música de duración personalizada con solo describirla.
Desarrollado por los últimos modelos de difusión de audio (Stable
Audio).
El modelo de IA detrás de Stable Audio es un modelo de difusión
latente para la generación de audio. El primer modelo de esta IA de
audio se basa exclusivamente en música proporcionada por
AudioSparx, una biblioteca de música con más de un millón pistas
previamente autorizadas de artistas, compositores, bandas y
orquestas galardonados.
La creación de la pista se hace con una descripción. De la IA, hemos
escogido las siguientes:
Descripción: Trance, Ibiza, Playa, Sol, 4 AM, Progresivo, Sintetizador,
909, Acordes dramáticos, Coro, Eufórico, Nostálgico, Dinámico,
Fluido:
Audio 4.10. Pista musical creada con Stable Audio.
Descripción: Solo de batería:
Audio 4.11. Pista musical creada con Stable Audio.
313
4.3.7 Boomy
Crea canciones originales en segundos, incluso si
nunca antes has hecho música
Boomy es una aplicación muy sencilla de usar. Inicialmente, hay que
seleccionar uno de los seis estilos que ofrece (ver figura siguiente).
Figura 4.6. Estilos musicales de Boomy.
Para el ejercicio, seleccionamos estilo Rap.
314
Una vez seleccionado el estilo, hay que escoger un ritmo que, para
nuestro ejercicio, fue Boomy bap. La aplicación genera un primer
song, el cual podemos editar, incluyendo nombre, autor, cambio de
instrumentos y efectos de sonido. Haz clic en la siguiente imagen,
para que escuches el resultado obtenido:
Obviamente, no es el mejor rap, pues el cambio de instrumentos solo
es posible en el plan de pago (10 dólares mensuales) y, un detalle no
menor, no soy músico.
315
4.3.8 Convirtiendo voces con Musicfy V2
Aplicación gratuita de clonación de voz con IA:
clonación en segundos (gratis, sin registro,
ilimitada)
Pese a este mensaje de gratuidad, el éxito de esta aplicación, como
era de esperar, la ha llevado a establecer planes de pago, siendo el
más económico el de 9 dólares mensuales, para 500 generaciones.
Sin embargo, en el plan gratuito hemos podido generar 5 canciones
de las 15 mensuales disponibles, de las cuales presentamos dos.
El procedimiento es sencillo y el resultado sorprendente.
Inicialmente, en el menú lateral izquierdo, seleccionamos Crear. A
continuación, seleccionamos una voz (clic en +) de un centenar
disponibles (Travis Scott, Taylor Swift, Ariana Grande, entre otros), de
diferentes géneros (Rap, Pop, Rock, Reggae, etc.). Para nuestras dos
generaciones, seleccionamos a Britney Spears y Rihanna.
El siguiente paso es seleccionar la canción que Britney Spears o
Rihanna deben cantar; para ello, hay tres opciones: subir el audio,
cantar a capela (micrófono) o, como tercera opción, incluir un enlace
a YouTube, optamos por la tercera, con Leo Dan y Jeanette.
Finalmente, le dimos clic a generar, ignorando los parámetros de
configuración pues, como lo dije antes, no soy músico.
En la siguiente página, puedes escuchar a Britney Spears cantando
"Como te extraño mi amor" de Leo Dan, y a Rihanna cantando "Soy
rebelde" de Jeanette.
Haz clic en cada imagen, para reproducir o parar el audio.
316
Figura 4.7. Britney Spears cantando "Como te extraño mi amor" de Leo Dan
Figura 4.8. Rihanna cantando "Soy rebelde" de Jeanette
En los primeros 15 segundos, el audio es distorsionado.
317
4.3.9 El sorprendente Suno
Suno está construyendo un futuro en el que
cualquiera puede hacer buena música. Ya seas un
cantante de ducha o un artista de listas,
rompemos barreras entre tú y la canción que
sueñas hacer. No se necesita ningún instrumento,
sólo imaginación. De tu mente a la música (Suno).
El 21 de marzo de 2024, Suno lanza su tercera versión, modelo capaz
de producir música con calidad de radio, que permite crear canciones
completas de dos minutos en segundos.
Hay dos formas de crear canciones. La primera es dando una
descripción de la canción que, para el ejercicio, pusimos "Bots
cantando sobre IAs generativas". Suno, al azar, generó imagen, letra y
música, así (haz clic sobre la imagen):
Figura 4.9. Canción sobre IAs generativas, música y letra de Suno
318
La segunda forma, es activando el control Custom Mode,
permitiendo que ingresemos la letra, lo cual hicimos con la letra
generada por Gemini 1.5 Pro, seleccionando, además, el género
musical, obteniendo:
Figura 4.10. Canción sobre IAs generativas, letra de Gemini y música de Suno, género
melodic pop.
Figura 4.11. Canción sobre IAs generativas, letra de Gemini y música de Suno, género
cumbia.
319
320
Imagen diseñada con DALL⋅E 3
Capítulo 5
IAs generativas de
presentaciones y otros
contenidos
Poster diseñado con Ideogram
5.1 Introducción
En este capítulo vamos a incluir, además de los presentadores con IA,
otras herramientas como las IAs generadoras de logos, resúmenes de
artículos, videollamadas o videos de YouTube, IAs generativas de
audio a texto y diseño de modelos.
5.2 IAs generadoras de presentaciones
Las IAs generativas de presentaciones son una tecnología
emergente que utiliza algoritmos de aprendizaje automático
para crear presentaciones de diapositivas personalizadas y
atractivas. Estas herramientas pueden ayudar a los usuarios
a crear presentaciones de alta calidad en poco tiempo,
incluso si no tienen experiencia en diseño gráfico. Algunas
de las herramientas más populares incluyen Colossyan,
Lumen5, Fliki, Slidesgo, que ofrece un creador de
presentaciones con IA gratuito, Gamma, Canva y Tome, que
son herramientas basadas en IA que ayudan a crear todo
tipo de presentaciones [49]. Además, la IA generativa
también se está utilizando para ayudar a los usuarios a
superar el síndrome de la página en blanco al crear
presentaciones desde cero.
Complementando la introducción que hace la IA de Bing, podemos
afirmar que este tipo de IAs ahorran bastante tiempo, pues una tarea
dispendiosa es el diseño de diapositivas para una presentación, en
tanto que, además del texto, hay que ser creativos en el diseño de
estas diapositivas.
325
5.2.1 Colossyan creator AI
Colossyan Creator es un creador de videos impulsado por IA que
cuenta con actores reales y ofrece un proceso de producción de
videos inteligente, sin esfuerzo y problemas, proporciona a los
usuarios las herramientas necesarias para realizar videos
instantáneamente en más de 70 idiomas. Colossyan creator AI es una
aplicación basada en la nube que simplifica y facilita a las empresas la
creación de videos con actores de IA, la transformación de
presentaciones de diapositivas en videos, la localización de
contenidos en cualquier idioma y mucho más [48].
A continuación, puedes observar el procedimiento para crear un
video a partir de un prompt:
Vídeo
Video 5.1. Video "Prueba con colossyan", creado con Colossyan creator AI.
326
Como lo muestra el video, Colossyan solo admite prompt en inglés;
sin embargo, es posible intervenir el video obtenido, para traducir los
textos generados por la IA.
Algunas de las características principales de Colossyan Creator son:
Avatares de IA: Colossyan Creator ofrece más de 30
presentadores de IA altamente detallados y realistas,
incluidas todas las edades, etnias y diferentes características
(filehorse).
Traducción automática: Colossyan Creator permite la
traducción automática del video completo con solo tocar un
botón. Los videos incrustados siempre están actualizados.
PPT y PDF a video: Colossyan Creator puede convertir
presentaciones en PowerPoint y documentos PDF en videos.
Texto a video: Colossyan Creator puede generar videos de
aprendizaje a partir de texto.
Grabación de pantalla: Colossyan Creator permite la
grabación de pantalla para crear videos instructivos.
Conversación de actores: Colossyan Creator permite la
creación de conversaciones entre dos o más actores virtuales.
Idiomas: Colossyan Creator admite la traducción automática
a más de 120 idiomas
Una alternativa, diferente a la presentada en el video anterior, es
usar una de las plantillas ofrecidas por Colossyan, alternativa que
usamos en el siguiente video.
327
Vídeo
Video 5.2. Video "Prueba con colossyan", creado con Colossyan creator AI.
5.2.2 Lumen5
En la introducción del capítulo 4, hemos visto algunos ejemplos de
esta IA, pero profundicemos un poco más. Lumen5 es un editor de
vídeo en línea con funciones de corte, fusión, cambio de tamaño y
algunas funciones básicas de edición. Ahora combina tecnología
avanzada de inteligencia artificial y una interfaz de arrastrar y soltar
para que la creación de videos sea más sencilla que nunca. Impulsado
por IA y aprendizaje automático, Lumen5 puede resumir el contenido
y combinar cada escena con videos de archivo relevantes. Además,
calcula y ofrece la mejor salida visual de posicionamiento de texto y
composiciones de escenas. Para hacer que el video de presentación
sea más atractivo, Lumen5 también agrega transiciones, gráficos en
movimiento y efectos de sonido al video (videoproc).
328
Lumen5 da tres posibilidades, para generar un video:
Pegar una URL, por ejemplo de una página o de un post, como
el ejemplo que vamos a presentar.
Pegar un texto, como hicimos en la introducción.
Subir imágenes y utilizar una de las plantillas disponibles.
Como ejercicio, subimos la URL de un artículo publicado en el blog
"Rincón del riesgo", titulado "Navegando entre los riesgos de la
Internet", obteniendo:
Vídeo
Video 5.3. Video "Navegando entre los riesgos de la Internet", creado con Lumen5
AI.
Sorprende la sincronización de las imágenes con el texto.
329
5.2.3 Canva - Magic Studio
Cuando lanzamos Canva hace diez años, la expansión del
Internet y de los smartphones nos permitió reimaginar el futuro
del diseño. Desde entonces, llevamos el poder de la
comunicación visual a 150 millones de personas en todo el
mundo, en cientos de idiomas y en todo tipo de dispositivos.
Pero, igual que hace una década, nos encontramos de nuevo
ante otro gran cambio tecnológico, esta vez impulsado por la
inteligencia artificial (https://www.canva.com/es_mx/).
Figura 5.1. La opción de generación de videos en Magic Studio de Canva.
El 4 de octubre de 2023 es lanzado el Estudio Mágico de Canva, el
cual usa la inteligencia artificial para generar videos y, además,
animaciones, borrado de fondos en imágenes, generación de
330
imágenes a partir de textos, generación de presentaciones y otras
herramientas como las mostradas en al figura 5.1.
Figura 5.2. Estudio Mágico: todo el poder de la IA en un solo lugar
(https://www.canva.com/es_mx/).
Existen tres planes: el libre, el Pro (US$40 por año) y un plan para
equipos de cinco personas (110 dólares por año), bastante
económicos.
En el plan libre se cuenta con funciones como: más de 250.000
plantillas, más de 100 tipos de diseño, más de 1 millón de fotos y
gráficos gratuitos, herramientas de diseño impulsadas por IA (Magic
Write, Megic Design, Magic Edit, entre otras) y 5 GB de
almacenamiento en la nube.
Hicimos un ejercicio con la herramienta Magic Design for Video, en la
cual subimos algunas imágenes de los gatos que hemos estado
331
trabajando en el capítulo 4, además del prompt "cinco gatos jugando
con... ". Nos sorprendió cómo la IA asociaba las imágenes con el texto
generado. He aquí el video:
Vídeo
Video 5.4. Video "Cinco gatos jugando con pelotas, uno de los gatos es de color
verde", creado con Magic Studio de Canva.
La aplicación nos permitió intervenir las diapositivas generadas,
intervención mínima, pues las obtenidas fueron satisfactorias.
Diseño Mágico permite adelantar tu próxima
Presentación. Describe tu idea en unas pocas palabras y
observa cómo las diapositivas se llenan con una historia,
un resumen y un contenido unificados.
332
En el siguiente video, puede ver cómo hacer una presentación rápida
con "Magic design for presentations":
Vídeo
Video 5.5. Generación de una presentación con la IA de Canva.
La presentación final, se puede descargar en diferentes formatos;
entre ellos, PPTX (PowerPoint), PDF, MP4 y GIF.
Empieza a diseñar tu presentación con un
esquema, diapositivas y contenido. Describe tu
idea en pocas palabras y observa cómo toman
forma las diapositivas que contarán tu historia.
Cuando tu primer borrador esté listo, podrás
agregarle detalles y darle un toque personal
333
5.2.4 Fliki AI
Fliki AI ofrece un plan gratuito con cinco minutos de créditos por mes
y marca de agua. También hay un plan de 180 minutos a un costo de
28 dólares por mes.
Permite crear un video a partir de un guion, el cual Fliki divide en
varias escenas, a las que le agrega imágenes o clips de video, los
cuales podemos cambiar. Admite 75 idiomas y 100 acentos. Observa
su magia:
Videos
Video 5.6. Video creado con Fliki, sobre IAs generativas.
334
Fliki también se puede usar como generador de audio.
5.2.5 InVideo AI
InVideo AI es otra IA generativa de videos tipo presentación pero, a
diferencia de Fliki, genera el guion, crea escenas y agrega voces en
varios idiomas. El plan gratuito otorga 10 minutos de generación de
video por semana.
InVideo es considerada la plataforma de video más sencilla del
mundo, así que no nos detendremos a explicar las instrucciones del
uso de la herramienta, solo observa un fragmento del artículo
"Navegando entre los riesgos de la Internet" y entenderás lo
excelente que es esta IA.
Video
Video 5.7. Video creado con InVideo.
335
5.2.6 Virbo AI
¡Wondershare Virbo es un revolucionario generador de videos
con IA que simplifica la creación de videos promocionales!
Simplemente ingrese texto y elija un avatar de IA y podrá
generar contenido de video profesional. Virbo es la herramienta
perfecta para YouTubers, vloggers, empresas, profesionales del
marketing, educadores y cualquiera que busque crear vídeos
atractivos de forma rápida y sin esfuerzo. No se requiere
experiencia en edición de video (Google Play).
Virbo nos permite incluir fondos, texto, música y avatares de IA
realistas, femeninos o masculinos.
Cuando seleccionamos uno de los 150 avatares, podemos cambiar el
idioma a español, portugués, italiano o, en general, más de 120 voces
e idiomas.
Para el ejercicio, hemos puesto parte del texto del artículo
"Navegando entre los riesgos de la Internet", repartido en tres clips
de video, pues en la versión de prueba permite hasta un máximo de
30 segundos (2 minutos en la versión de pago).
Incluimos tres imágenes de fondo, la primera con gatos, para no
perder la costumbre, y las otras dos con imágenes del artículo
relacionadas con las amenazas de la Internet. Seleccionamos tres
voces, una mexicana, una argentina y una chilena.
Finalmente, combinamos los tres videos con una aplicación en línea,
como clideo.
336
Figura 5.3. Página principal de clideo.
Este es el video obtenido:
Vídeo
Video 5.8. Video generado por Virbo AI.
337
5.2.7 Slidesgo AI
Cuando la falta de inspiración o las limitaciones de tiempo
son algo que te preocupa, es buena idea buscar ayuda.
Slidesgo viene al rescate con su última funcionalidad: ¡el
creador de presentaciones con IA! Con unos pocos clics,
tendrás maravillosas presentaciones de diapositivas que
se adapten a tus necesidades concretas. ¡Y es totalmente
gratis!
En Slidesgo es bastante sencillo generar una presentación, basta con
seguir las siguientes instrucciones:
Piensa en el tema. Lo primero es lo primero: hablarás de algo
en particular, ¿verdad? Una reunión de negocios, un nuevo
avance médico, el tiempo, tus canciones favoritas, un partido
de baloncesto, un elefante rosa que viste el domingo pasado...
lo que se te ocurra. Solo tienes que escribirlo y decirle a la IA
cuál es el tema.
Elige el estilo y el tono preferidos. Dicen que en la variedad
está el gusto. Por eso te dejamos elegir entre diferentes
estilos de diseño, como doodle, sencillo, abstracto,
geométrico y elegante. ¿Y el tono? Hay varios: divertido,
creativo, informal, profesional y formal. Cada uno te aportará
algo único, así que ¿qué forma de impresionar a tu público
será esta vez? ¡Mezcla y combina!
Haz todos los cambios que quieras. Tienes diapositivas recién
generadas. ¿Desearías que fueran de otro color? ¿Ese cuadro
de texto quedaría mejor si estuviera colocado a la derecha?
Con el editor en línea y sus herramientas podrás tener las
diapositivas exactamente a tu gusto.
338
Descarga gratis el resultado final. Sí, ¡todo ha salido según lo
previsto! Esas nuevas diapositivas no pueden quedarse en el
aire. ¡Merecen tener un hueco en tu dispositivo! Puedes
exportar la presentación en formato .pdf y descargarla gratis.
¿Te mueres de ganas de enseñársela a tu mejor amigo porque
crees que le encantará? ¡Genera un enlace compartible!
Le dijimos a Slidesgo que el tema era "la educación y las IAs
generativas". Inmediatamente generó ocho diapositivas, que
mostramos en el siguiente "presentador diseñado con el editor
DescartesJS":
Las transiciones las hemos diseñado con DescartesJS. Lo que nos ha
sorprendido es la generación del texto y su correspondencia con las
imágenes.
339
5.2.8 Tome AI
De tu mente a la de ellos, en menos pasos. Tome es un
nuevo medio para dar forma y compartir ideas.
Tome ya lo habíamos abordado en el apartado 3.4.5, en la generación
de imágenes que, en su momento, nos sorprendió con una
presentación del tigre en la playa (ver video 3.3).
Dado que se nos estaban agotando los créditos, en su plan gratuito,
logramos obtener la siguiente presentación de sólo tres diapositivas,
a las que le cambiamos las imágenes por otras generadas por la IA
DALL⋅E 3.
El plan Pro tiene un costo de 20 dólares por mes.
340
5.2.9 Prezo AI
¡Transforme sus ideas en presentaciones impulsadas por
IA, en un instante! Prezo es un nuevo formato de
presentación impulsado por inteligencia artificial para
compartir su trabajo, diseñado para lucir excelente en la
web y en dispositivos móviles
Prezo ofrece un plan gratuito con la posibilidad de crear cinco
presentaciones, luego de agotar las cinco presentaciones, hay que
tomar el plan PRO por 10 dólares mensuales.
En nuestra quinta presentación, logramos obtener nueve
diapositivas, que mostramos a continuación, las cuales tuvimos que
traducir al español y cambiar algunas imágenes:
341
5.2.10 Gamma AI
Un nuevo medio para presentar ideas. Con tecnología de
IA. Tan solo empiece a escribir. Contenidos atractivos e
interesantes sin tener que diseñar ni dar formato.
Gamma es una IA generativa de presentaciones de nuestras
preferencias, por la siguientes razones:
Luego de generar la presentación, es posible cambiar el estilo
con otra plantilla, algo que no se puede hacer en las anteriores
IAs.
En el diseño, no se limita a imágenes, pues puede generar
animaciones y videos
En el plan gratuito entrega 400 créditos, permitiendo la
exportación a formato PPT, PDF. A la fecha, después de ocho
presentaciones, aún tenemos 120 créditos
Posibilidad de generar las presentaciones, directamente en
español
342
Gamma IA usa la tecnología de inteligencia artificial basada en un
modelo de aprendizaje profundo y entrenada con un conjunto de datos
masivos, para producir la información. El modelo puede comprender la
estructura de las presentaciones, el contenido de las diapositivas y el
diseño visual de las mismas. Esto permite que la aplicación "genere
exposiciones visualmente atractivas e informativas" [50].
343
5.2.11 Design AI
Design AI es más que un simple software de diseño
gráfico con IA. También pueden ayudar a los usuarios a
crear vídeos, discursos y presentaciones. Los usuarios
pueden utilizar sus presentaciones impulsadas por IA con
su función Designmaker. Tienen varias plantillas para su
marketing, presentaciones y seminarios web, ¡y mucho
más!
Design AI ofrece herramientas como texto a imagen, carruseles de
diapositivas, generador de memes, miniaturas para videos y
presentaciones. De esta última herramienta, obtuvimos:
344
5.2.12 Bith.AI
Bith.AI está diseñado para eliminar la molestia de
crear videos para plataformas como YouTube,
TikTok y Reels en Facebook o Instagram. Todo lo
que necesita hacer es darle un mensaje de texto
que describa de qué desea que trate su video y
luego ajustar algunas configuraciones para
obtener un resultado más personalizado.
Esta aplicación, al momento de inscribirnos, otorga un minuto para
crear video, si se desean más mintos hay que pagar cuatro dólares
por cada 4 minutos adicionales. Al usar nuestro minuto,
consideramos que es una buena opción, para usuarios que publican
videos en inglés o árabe (únicos idiomas disponibles).
Los principales parámetros de configuración son: relación de aspecto
(9:16 no modificable), duración del vídeo (de forma predeterminada,
está configurada en 1 minuto), idioma (inglés y árabe), voz (se puede
alternar entre una voz en off masculina y femenina), tema del vídeo
(entre educativo o narrativo) y tono del vídeo (normal, misterioso,
divertido y de terror).
En el plan libre, Bith AI ofrece un límite de carga (250 MB), límite de
almacenamiento (2 GB), resolución de exportación (720p/60 fps),
plantillas de cambio de tamaño limitadas, biblioteca de fuentes
limitada, transcripción de texto limitada, pegatinas de redes sociales
limitadas. El plan de pago es de 5 dólares mensuales, en el que se
destaca la resolución de 1080p.
En la siguiente página, presentamos el video generado con el tema
"IAs generativas" (17 de marzo de 2024).
345
Video 5.9. Video generado Bith.AI en enero de 2024.
346
5.2.13 Decktopus
Decktopus existe desde hace un tiempo. Tiene 2
millones de usuarios y está catalogado como el
generador de presentaciones impulsado por IA número
uno del mundo. Hace que el proceso de creación de
presentaciones sea muy simple, ahorrando a los
usuarios aproximadamente el 64% del tiempo que
normalmente requieren (Jim Clyde Monge).
El 27 de marzo de 2024, se lanza una nueva función que permite
cargar un archivo PDF y transformarlo en una plataforma de
presentación.
Figura 5.4. Decktopus transforma un archivo PDF en una presentación.
347
Como ejercicio, subimos un archivo PDF con el contenido del capítulo
4 de este libro, obteniendo:
Vídeo
Video 5.10. Generando presentaciones con Decktopus.
La presentación obtenida se puede exportar como archivo
PowerPoint o como PDF, en el primero se generan imágenes para las
diapositivas, lo que no permite modificaciones, las cuales hay que
realizarlas antes de exportar.
El PDF de ingreso no puede ser superior a los 5 MB. El costo del plan
de pago es económico (4 dólares mensuales).
En la siguiente página, puedes ver el PDF obtenido con la
presentación del capítulo 4, la cual fue generada con 24 diapositivas,
en estilo creativo25.
25
El PDF mostrado en formato HTML5, fue generado usando la aplicación IDR Solutions.
348
349
5.2.14 presentations AI
Al igual que Decktopus, presentations AI admite archivos PDF para
generar presentaciones. Como ejercicio, subimos el capítulo 6 de este
libro, obteniendo:
Vídeo
Video 5.11. Generando presentaciones con presentations AI.
Sólo en el plan de pago, es posible exportar a formato PowerPoint, así
como el cambio de idioma. Incluye cuatro maneras de crear la
presentación:
Figura 5.5. Opciones de creación de presentation AI.
350
5.2.15 KatalistAI
Para cineastas, anunciantes, creadores de
contenido y más. Katalist es la mejor manera de
visualizar tus ideas. Úselo para presentaciones
creativas, guiones gráficos, ideas de vídeo...
Además de ser una herramienta para generar historias ilustradas,
KatalistAI también genera presentaciones:
351
5.2.16 WEPIK
¡El Creador de Presentaciones con IA está aquí
para ayudarte! Con esta potente tecnología,
podrás crear diapositivas impresionantes con un
par de clics, para que dejes a tu audiencia sin
palabras con cero estrés. ¿Lo mejor? ¡es gratis!
Con el mensaje "IAs generativas de video", WEPIK nos generó:
Por ahora, WEPIK es gratuita, lo que la constituye en una buena
opción para estudiantes. La creación de un nuevo proyecto, es
bastante simple, tal como lo dice la introducción... con un par de clics.
352
5.2.17 AI Carousel Generator
Atraiga a su audiencia con diseños de desplazamiento
que muestran todo lo que tiene para ofrecer utilizando
nuestra tecnología de diseño impulsada por IA.
Con una simple descripción, podemos generar una excelente
presentación; por ejemplo, ingresamos "libros interactivos" y esta fue
la presentación generada:
Vídeo
Video 5.12. Generando presentaciones con Carousel Generator.
353
5.3 IAs generadoras de Logos
5.3.1 La publicidad engañosa
Hemos destacado las IAs generativas que ofrecen un plan gratuito,
con el objetivo de incorporar un futuro suscriptor, luego que éste
haya hecho algunas pruebas que lo convenzan de la calidad del
servicio ofrecido. De hecho, para este libro, nos hemos suscrito a
algunas IAs, pagando, al menos, el primer mes. Sin embargo, para el
caso de las IAs generativas de logo, nos hemos llevado una
desagradable sorpresa.
Al observar una oferta tipo "Try for free" (ver figura 5.6), procedimos a
generar logos enviando como compañía iCartesiLibri y como slogan
Libros interactivos, procedimiento que hicimos con cinco IAs,
nuestra sorpresa se presentó cuando intentamos descargar los logos
obtenidos, pues las IAs nos remitían a la página de pago.
Figura 5.6. Oferta pública de algunas IAs generadoras de logos.
354
Comprendemos, claramente, que algunos servicios tengan costo,
pues es la forma de subsistir de estos emprendimientos, lo que no
aceptamos es la publicidad engañosa. Pese a lo anterior,
presentamos los resultados obtenidos en la figura 5.7
Figura 5.7. Logos generados por IA.
Enlaces:
BrandCrowd
Turbologo
Looka
logomaster.ai
BRANDMARK
355
5.3.2 Logos con IAs generadoras de imagen
Hemos intentado crear nuestro logo con IAs como Ideogram, DALL⋅E
3 y Canva; sin embargo, el texto aún requiere de grandes mejoras en
estas IAs. Obviamente, en IAs como NightCafé, Vispunk o Léxica, no
podíamos esperar un gran resultado, pues no hace parte de sus
funcionalidades. Aún así, observemos los resultados en el siguiente
objeto interactivo:
356
Actividad evaluativa 5.1. Cuestionario del capítulo 5.
357
Capítulo 6
Aplicaciones especiales con
IAs generativas
Poster diseñado con la IA Bard.
6.1 Introducción
Este capítulo explora el fascinante mundo de las aplicaciones
especiales que se han desarrollado gracias a la tecnología de las IAs
generativas. Estas IAs, capaces de crear contenido original como
texto, imágenes, audio y video, están abriendo nuevas posibilidades
en diversos campos.
Bots personalizados: Se analizan diferentes plataformas para crear
chatbots personalizados.
Explorando espacios en Hugging Face: Se examinan las herramientas
y recursos disponibles en Hugging Face Spaces, una plataforma que
permite crear, compartir y ejecutar aplicaciones de aprendizaje
automático de forma interactiva.
Face Swap: Se analizan herramientas como SeaArt, Artguru, Pica AI,
Remaker y Akool.
Libros y storytelling: Se examina el potencial de las IAs generativas
para crear historias y libros.
Imágenes en tiempo real: Se exploran las nuevas posibilidades de
generar imágenes en tiempo real gracias a modelos como SDXL
Turbo de Stability.
Visión computacional: Se describe cómo los modelos de visión por
computadora permiten a las máquinas "ver" e interpretar el mundo.
Imágenes escaladas y mejoradas: Se analizan las diferentes técnicas
de escalado y mejora de imágenes.
Creando modelos: Se explica cómo crear modelos personalizados de
IA generativa de imágenes.
361
6.2 Bots personalizados
Un asistente de IA es un programa de software que usa
tecnologías como el procesamiento de lenguaje natural para
entender y responder a los comandos de voz o texto de los
usuarios. Un asistente de IA puede ayudar a los usuarios a
realizar diferentes tareas, como buscar información, programar
citas, enviar correos electrónicos, hacer llamadas, etc. Un
asistente de IA también puede aprender de los datos y las
preferencias de los usuarios para ofrecer soluciones más
personalizadas y eficientes.
Vídeo
Video 6.1. Chatbots educativos (video de Digital Family Canal, en YouTube,
Licencia Atribución de Creative Commons).
362
Presentamos algunas aplicaciones que nos permiten diseñar un
"Chatbot personalizado".
6.2.1 Cody
Esta aplicación, permite subir, a la base conocimientos, hasta 10
archivos en formato Word, PDF o PPT. Para nuestro propósito hemos
subido documentos PDF de resistencia de materiales y de la cuarta
revolución industrial. También permite escribir el texto o importar el
contenido de una página web, tal como hicimos con el libro
Resistencia de materiales, de nuestra autoría. En la siguiente imagen,
se observa, la base de conocimiento suministrada a Cody para el
Chatbot de cuarta revolución industrial.
Figura 6.1. Base de conocimiento de Cody.
363
Luego, empezamos a conversar. Le hicimos una primera pregunta
¿Qué es esfuerzo? Hazlo en la siguiente escena:
Cody usa los modelos GPT-3.5 y GPT-4, para nuestro ejercicio, nos
vinculó a GPT-3.5, pero pudimos incorporar, además del libro, el
apartado "Resistencia de Materiales" de Wikipedia. En el plan
gratuito, otorga 250 créditos, un crédito por cada pregunta.
Cargue de forma segura cualquier cosa desde
PowerPoint a PDF o rastrear todo un sitio web
para integrar al instante información y
personalice Cody para su empresa. Cody buscará
en tu base de datos y utilizarlo para elaborar
respuestas inteligentes.
364
6.2.2 My Askai
Permite crear su propio asistente de IA (como un chatbot) al que se le
puede agregar toda la documentación, informes, manuales y otro
contenido para obtener respuestas instantáneas a cualquier
pregunta. Puede utilizarse como un chatbot integrado en un sitio web
o integrado con otras aplicaciones y servicios. Admite la adición de
muchos tipos diferentes de contenido para entrenar las respuestas
de su asistente de IA. Puede cargar documentos PDF, presentaciones,
enlaces e incluso sitios web completos.
Crea un asistente de IA más rápido de lo que se
necesita para preparar un café. Ahorre horas de
búsqueda para sus clientes o su equipo, con
respuestas instantáneas, de todo su contenido y
documentos
My AskAI tiene planes gratuitos y de pago que se adaptan a
diferentes necesidades y presupuestos. Puedes crear tu primer
asistente de IA gratis, para siempre, con algunos límites de uso. Para
funciones más avanzadas y mayores volúmenes de contenido o
preguntas, hay 3 planes mensuales para elegir, desde U$13 por mes.
El procedimiento es similar al que hicimos con Cody; sin embargo,
hay tres diferencias significativas. La primera es que My AskAI da
mejores respuestas si se ingresan en inglés, mientras que con Cody
podemos interactuar en español. La segunda diferencia es que My
AskAI nos aceptó algunos documentos rechazados por Cody; por
ejemplo, el libro de Resistencia de Materiales de Cervera y Blanco lo
rechaza Cody por no tener licencia Crative Commons, algo que es
correcto. La tercera diferencia es que My AskAI, como lo hace
Perplexety, plantea preguntas relacionadas.
365
Una primera pregunta que puedes hacer es ¿Cuál es la fórmula de la
torsión?, ¡Inténtalo!:
Si la escena no se muestra, puedes hacerlo en este enlace: Resistencia
de materiales.
366
6.2.3 GPTBots
GPTBots es una poderosa plataforma sin código
para crear aplicaciones de negocios impulsadas
por IA, conecta sin problemas los LLM con los
datos empresariales, servicios y flujos de trabajo,
proporcionando un poderoso impulso para el
desarrollo empresarial (GPTBots).
Esta aplicación, en su plan gratis, otorga 100 créditos al mes, que se
traduce a 100 mensajes por mes. En el plan de pago básico se dan
8000 créditos al mes, con un costo de 159 dólares mensuales, que lo
hace nada atractivo para usuarios comunes, pese a ofrecer la la
incorporación de un widget26 que, en poco tiempo, se vuelve
inoperable.
A diciembre de 2023, GPTBots agregó las siguientes actualizaciones:
Compartir: se agregó soporte para crear y configurar
múltiples "enlaces para compartir".
Robot DingTalk: permite a los usuarios de DingTalk conversar
con el Bot a través de chats grupales o chats individuales.
WhatsApp: el Bot se puede integrar en esta "Meta App", para
permitir a los usuarios de WhatsApp conversar con el Bot.
A continuación, presentamos un chatbot de Estática, creado con esta
aplicación.
26
Los widgets son pequeñas aplicaciones o extensiones que se pueden agregar a la pantalla
de inicio de una página web o en la caja de herramientas de un libro interactivo, para
acceso rápido a la información o funcionalidades específicas de la aplicación.
367
368
6.2.4 HuggingChat
La plataforma Hugging Face27, como veremos en el siguiente
apartado, ofrece miles de aplicaciones, para uso gratuito que,
posiblemente, sean pasajeras, si el autor o autores no le hacen
mantenimiento o simplemente decidan retirarlas; no obstante,
hemos creado algunos chatbots que funcionan bastante bien.
HuggingChat permite usar, a 17 de marzo de 2024, siete modelos:
Mixtral 8x7B, Gemma 7B, LLaMA 2 70B, Nous Hermes 2, Code
LLaMA 70B, Mistral 7B y openchat 3.5.
Figura 6.2. Algunos asistentes creados por diferentes usuarios.
A continuación, presentamos un chatbot creado con el tema
"Inteligencia artificial".
27
Hugging Face mantiene una plataforma colaborativa en línea donde la comunidad de IA
puede compartir y colaborar en modelos y conjuntos de datos. Esto ha creado un
ecosistema rico y diverso que acelera el progreso en la investigación de IA y su aplicación
práctica en diferentes campos.
369
370
6.2.5 Poe
Poe permite crear chatbots con
150 mensajes en plan libre. El
procedimiento es muye sencillo,
comienza a crear tu nuevo bot
completando los campos de texto
con el nombre, la descripción y, lo
más importante, elaborando un
buen mensaje. Selecciona uno de
los modelos que se muestran en la
figura de la derecha; luego, añade
una fuente de conocimiento, la
cual proporciona conocimientos
personalizados a los que tu bot
accederá para informar tus
respuestas (los archivos pueden tener un tamaño de 50MB máximo).
Como ejercicio, creamos un chatbot llamado "BColi", cuya base de
conocimiento es el libro "Bacterias: Escherichia coli, publicado en el
proyecto iCartesiLibri de la Red Educativa Digital Descartes. Los
chatbot, en el plan libre, permiten 15 mensajes diarios.
A continuación, puedes interactuar con el bot Bcoli:
371
372
Otros chatbots, que hemos creado con Poe, son sobre los cursos:
Resistencia de Materiales, Inteligencia artificial, Cuarta revolución
industrial, Estática para ingenieros, IoT y, para aprovechar los
modelos de imagen, Arte paisa.
Figura 6.3. Imagen creada por el chatbot "Arte Paisa".
373
6.2.6 botpress
Esta aplicación es una de las mejores opciones en plan libre, pues
permite crear cinco chatbots con 2000 mensajes al mes y, para ser
más atractivo, la posibilidad de pagar según tus necesidades; por
ejemplo, con 10 dólares mensuales, los mensajes aumentan a 5000.
Otra característica interesante, es el diseño del bot con un flujo de
trabajo, tal como lo explica el siguiente video.
Vídeo
Video 6.2. Creación de un chatbot personalizado con botpress.
El video se realizó, para el curso virtual "Inteligencia Artificial", como
modelo para que los estudiantes diseñen su propio chatbot, cuyo
tema sea sobre su área de formación (bacteriología, biotecnología,
arquitectura, gastronomía, ingeniería ambiental, entre otras).
374
El resultado, obtenido en el video, lo puedes ver haciendo clic en la
siguiente imagen:
Figura 6.4. Haz clic en la imagen para acceder al Chatbot
Una vez accedas al chatbot, escribe algo, que puede ser un simple
¡Hola!
375
Poster diseñado con Ideogram
6.3 Explorando espacios en Hugging Face
Hugging Face se ha convertido en un actor destacado en
el panorama en constante evolución del aprendizaje
automático y la inteligencia artificial. Sus capacidades
versátiles se adaptan a un espectro de profesionales de la
IA, que van desde contribuyentes individuales hasta
grandes empresas globales, y se adaptan a usuarios de
todos los niveles, desde principiantes en IA hasta
profesionales e investigadores experimentados (Antonio
Demeusy).
En este apartado, exploraremos
los Spaces en Hugging Face, los
cuales son un conjunto de
herramientas y recursos que te
permiten crear, compartir y
ejecutar aplicaciones de
aprendizaje automático (ML) de forma fácil e interactiva; entre ellas,
visión artificial, modelos LLM y SLM y otros tipos de modelos de ML.
Los spaces en Huggingface son una forma sencilla de alojar
aplicaciones de demostración de aprendizaje automático.
Presentamos, a continuación, algunas aplicaciones interesantes (no
incluimos los modelos LLM, pues en el capítulo 2 ya hemos hecho una
descripción de los mismos).
6.3.1 InstantID
Esta aplicación genera imágenes a partir de una foto, preservando la
identidad (cara). Observa el siguiente video, con una mejor
explicación.
377
Vídeo
Video 6.3. Generando imágenes con InstantID.
Según Wang et al. [51], ha habido avances significativos en la síntesis
de imágenes personalizadas con métodos como Textual Inversion,
DreamBooth y LoRA. Sin embargo, su aplicabilidad en el mundo real
se ve obstaculizada por las altas demandas de almacenamiento, los
largos procesos de ajuste y la necesidad de múltiples imágenes de
referencia; por ello, surge InstantID, una potente solución basada en
modelos de difusión. El módulo plug-and-play maneja hábilmente la
personalización de imágenes en varios estilos utilizando una sola
imagen facial, al tiempo que garantiza una alta fidelidad. Este trabajo
se integra perfectamente con modelos populares de difusión de texto
a imagen previamente entrenados, como SD 1.5 y SDXL, y sirve como
un complemento adaptable. Los códigos y puntos de control
previamente entrenados están disponibles en esta URL https.
378
6.3.2 PhotoMaker
Los avances recientes en la generación de texto a imagen han logrado
avances notables en la síntesis de fotografías humanas realistas
condicionadas a indicaciones de texto determinadas. Sin embargo, los
métodos de generación personalizados existentes no pueden satisfacer
simultáneamente los requisitos de alta eficiencia, fidelidad de identidad
(ID) y controlabilidad de texto flexible. En este trabajo, presentamos
PhotoMaker, un método eficiente y personalizado de generación de
texto a imagen, que codifica principalmente un número arbitrario de
imágenes de identificación de entrada en una pila de identificación para
preservar la información. Tal incrustación, que sirve como una
representación de ID unificada, no sólo puede encapsular las
características del mismo ID de entrada de manera integral, sino que
también puede acomodar las características de diferentes ID para su
posterior integración. Esto allana el camino para aplicaciones más
intrigantes y valiosas en la práctica. Además, para impulsar la
capacitación de nuestro PhotoMaker, proponemos un canal de
construcción de datos orientado a ID para ensamblar los datos de
capacitación. Gracias al conjunto de datos construido a través del
proceso propuesto, nuestro PhotoMaker demuestra una mejor
capacidad de preservación de identidad que los métodos basados en
ajustes finos y proporciona mejoras significativas en la velocidad,
resultados de generación de alta calidad, sólidas capacidades de
generalización y una amplia gama de aplicaciones [52].
379
Un primer ejemplo lo mostramos en el banner inferior, en el que
hemos ingresado (input) la foto de la izquierda, generando cuatro
fotos adicionales. El resultado puede mejorar, si la entrada tiene dos o
tres fotos del personaje. Es importante, acompañar el prompt de la
palabra img después del sujeti (man, woman, girl, etc.); por ejemplo,
"Foto de un hombre img jugando fútbol en la calle".
PhotoMaker permite generar imágenes estilizadas, cambio de edad,
cambio de género o mezclar dos fotos.
Figura 6.5. Imágenes estilizadas con PhotoMaker
Figura 6.6. Mezcla de identidades con PhotoMaker
380
6.3.3 ReplaceAnything
Reemplace todo lo que desee (reemplazo de contenido de altísima
calidad)
Las técnicas AIGC han atraído mucha atención últimamente. Han
demostrado sólidas capacidades en las áreas de edición de imágenes,
generación de imágenes, etc. Descubrimos que generar nuevos
contenidos manteniendo estrictamente sin cambios la identidad del
objeto de uso especificado es una gran demanda, pero un desafío.
Con este fin, proponemos el marco ReemplazarAnything. Se puede
utilizar en muchas escenas, como reemplazo humano, reemplazo de
ropa, reemplazo de fondo, etc. (Hugging Face).
Figura 6.7. Generación de dos fotos, conservando la cara.
Instrucciones:
⭐️paso 1: cargue o seleccione una imagen del ejemplo
⭐️ paso 2: haga clic en Entrada-imagen para seleccionar el objeto
que desea conservar (o cargue una imagen de máscara blanca y
negra, en la que el color blanco indica la región que desea mantener
sin cambios)
⭐️ paso 3: ingrese el mensaje o la imagen de referencia (muy
recomendable) para generar nuevos contenidos
⭐️paso 4: haga clic en el botón Ejecutar
381
6.3.4 Whisper Large V3: Transcribe Audio
Esta herramienta transcribe entradas de audio o micrófono de
formato largo con solo hacer clic en un botón. La demostración utiliza
el punto de control OpenAI Whisper y 🤗 Transformers para
transcribir archivos de audio de longitud arbitraria.
En el siguiente video, probamos Whisper con entradas de audio por
micrófono, archivo de audio y un video de YouTube.
Vídeo
Video 6.4. Transcripciones de audio con Whisper.
382
6.3.5 ai-comic-factory
Crea cómics impresionantes sin habilidades de dibujo utilizando
nuestro generador de cómics con IA de última generación. Haz
realidad tus sueños cómicos con la creatividad de la IA
(aicomicfactory.com). Con solo tres palabras, esta herramienta nos
genera una pequeña historia, tal como se muestra en la siguiente
imagen:
Figura 6.8. Comic estilo 3D render
En la versión libre de Hugging Face, es posible modificar los
subtítulos, tal como se muestra en la siguiente página. En la versión
libre de aicomicfactory.com, esto no es posible, un comic generado en
esta página lo puedes ver en la segunda imagen de la siguiente página
(haz clic en las imágenes inferiores).
383
6.3.6 video-face-swap
Esta es una aplicación que permite mezclar los rasgos de una persona
presentados en una imagen con otra persona en un video. En Hugging
Face se han subido otras versiones de colaboradores como Jupy,
tonyassi y neox169.
En el siguiente video, observarás lo sencillo que es usar la
herramienta:
Vídeo
Video 6.5. Mezclas de imagen y video.
385
6.3.7 Illusion Diffusion HQ
En el emocionante universo de la expresión creativa, surge una
herramienta innovadora que redefine los límites de la imaginación.
Illusion Diffusion HQ es la puerta de entrada a la creación sin
esfuerzo de impresionantes obras de arte de ilusión. Desarrollada
por AP y potenciada por la asombrosa Stable Diffusion, esta maravilla
impulsada por la IA da vida a tus visiones creativas a través de
ilusiones visuales fascinantes (Joseph Álvarez).
Existen varias aplicaciones que usan modelos de difusión, para
generar imágenes ilusorias; entre ellas, Illusion Diffusion AI y
artbreeder.ai. Una versión de Illusion Diffusion HQ se encuentra en
https://replicate.com/lucataco/.
En la siguiente imagen, generamos tres ilusiones con artbreeder.ai,
usando, en las dos primeras, patrones cuadriculados de 9 y 16
cuadrículas. En la tercera, aparece, sutilmente, la imagen de una foto
suministrada.
Figura 6.9. Ilusiones creadas por artbreeder.ai
Todas las versiones admiten diferentes patrones, tales como
espirales, cuadrículas, círculos e imágenes. Según la página, en
Hugging Face, el proyecto funciona usando Monster Labs QR Control
Net.
386
En la siguiente presentación interactiva, presentamos ocho ilusiones.
En las primeras cuatro, aparece la cara de una persona; las otras
ilusiones, usan cuadrículas y espirales. Pese a que la versión de
Replicate ofrece mayor número de parámetros para configurar la
imagen, en la versión de Hugging Face, logramos mejores resultados.
387
6.4 Face Swap
En el numeral 6.3.6, vimos la potencia de video-face-swap, para
mezclar caras en un video. En este apartado, destacaremos algunas
aplicaciones tipo "intercambio de cara" o Face swap.
6.4.1 SeaArt
SeaArt es una herramienta de dibujo de IA
altamente eficiente y fácil de usar que le permite
convertirse en un artista en muy poco tiempo,
incluso sin habilidades profesionales. Con un
potente motor de renderizado y un sistema de
recomendación mixto personalizado, crear
trabajos de alta calidad es fácil (Google Play).
Esta herramienta ofrece, en su plan libre, 150 puntos de energía
diarios. Lo novedoso y atractivo de la herramienta, es que puedes
adquirir 700 puntos por un dólar, 3800 por cinco dólares, etc., ofrece,
además, tareas con recompensas; por ejemplo, 100 puntos por
invitación o 50 puntos por seguir a un autor, lo que la convierte en
una aplicación bastante económica, para usuarios que no generan
grandes volúmenes de imágenes.
Incluye generación de imágenes tipo txt2img e img2img, permite
crear animaciones de imágenes creadas por la misma herramienta,
escalado y reparación de imágenes, eliminación de fondos,
entrenamiento de modelos, y, para el propósito de este apartado, el
face swap, que denomina reemplazo facial.
En la siguiente imagen, vemos un ejemplo de este reemplazo.
388
Figura 6.10. Reemplazo facial con SeaArt (todas las imágenes usadas fueron generadas
por IA).
6.4.2 Artguru
Explora la magia de la generación de arte con IA:
¡crea obras maestras en segundos! (Artguru)
Artguru es una plataforma, que ofrece:
Intercambio de caras. Usa una amplia gama de plantillas deepfake,
para transformarte fácilmente en varias personas. Además, con su
última actualización, puedes hacer intercambio de caras múltiples.
Creación de avatar AI. Permite crear tu avatar AI personalizado.
Ofrece, además, texto a imagen, eliminador de fondo, mejora de
fotos, entre otras herramientas.
389
Figura 6.11. Face Swap con Artguru (todas las imágenes usadas fueron generadas por
IA).
6.4.3 Pica AI
Presenta la misma interfaz de Arguru (incluso, los mismos modelos).
Figura 6.12. Interface de Pica AI y la IA Artguru, en la opción Face Swap.
390
6.4.4 Remaker
Esta aplicación ofrece las siguientes herramientas: generador de
imágenes, escalador y mejora de imágenes y, para nuestro propósito
en este apartado, Face Swap.
De esta última, hicimos el siguiente reemplazo facial (ver el objeto
interactivo en la página siguiente):
Figura 6.13. Cambiando la cara de un famoso con Remaker.
Adicionalmente, Remaker permite realizar Face Swap en un video.
Figura 6.14. Cambiando la cara en el video de un famoso con Remaker.
391
392
6.4.5 Akool
Akool produce recursos visuales con calidad de estudio en una
resolución de hasta 4K con detalles finos y restricciones mínimas. Los
usuarios pueden generar fotografías realistas de productos,
imágenes de estilos de vida, anuncios promocionales y más. Esta
plataforma de nivel empresarial ofrece pruebas gratuitas e
integración de API (CL Barba).
El Face Swap de Akool permite a cualquiera crear fotos y videos
personalizados de intercambio de caras utilizando IA. Proporciona
cientos de miles de combinaciones faciales y admite el intercambio
de caras entre fotos, vídeos e incluso GIF. Los resultados finales son
intercambios fotorrealistas con calidad de estudio.
Figura 6.15. Combinando la cara de una foto con la de un famoso con Akool.
En el plan libre, Akool otorga 50 créditos (la imagen anterior, se
obtuvo con 4 créditos). Los planes de pago son costosos, pues el
profesional es de 21 dólares mensuales y la categoría estudio, tiene
un costo de 350 dólares mensuales que, como lo dice Akool, es ideal
para estudios y agencias.
393
6.4.6 PIXLR
PIXLR ofrece varias herramientas,
entre ellas el generador de imágenes
IA, eliminación de fondo, relleno
generativo de IA, upscale y el
intercambio de caras.
El plan básico tiene un costo de 8
dólares; sin embargo, se pueden
obtener 80 créditos mensuales por 2
dólares. El face-swap es bastante
sencillo, basta subir una primera
imagen (Face) y luego otra (target), que
podría ser un famoso, finalmente
hacemos clic en swap.
Figura 6.16. Combinando la cara de una foto con la de un famoso con PIXLR.
394
En esta escena interactiva, se muestran los tres pasos para
intercambiar caras:
395
6.5 Libros y storytelling
Las tecnologías de inteligencia artificial han transformado la forma
como se escriben libros, ensayos, novelas, cuentos e historias. En este
apartado, describimos algunas de estas IAs, iniciando con Jenni, que
nos da un ensayo sobre storytelling.
6.5.1 Jenni
Esta IA, en su plan libre, tiene la capacidad de escribir un ensayo de
hasta 500 palabras, incluyendo referencias y aceptando documentos
adicionales en PDF, para alimentar el ensayo. Como ejercicio, le
pedimos un ensayo acerca de storytelling. Del resultado obtenido,
presentamos un fragmento:
Ensayo sobre el Contador de Historias y las IAs de
Storytelling
El Arte del Storytelling: Un Enfoque Moderno
En este ensayo, exploraremos el arte del contador de historias y
cómo las tecnologías de inteligencia artificial están revolucionando el
campo.
La Evolución del Contador de Historias Tradicional
Durante siglos, el contador de historias ha desempeñado un papel
fundamental en la sociedad (Ramallo & Porta, 2018). A través de sus
relatos, ha transmitido conocimientos, valores y emociones,
conectando a las personas a nivel emocional y cultural. Sin embargo,
con el avance de la tecnología y la llegada de las inteligencias
artificiales, se han abierto nuevas posibilidades para contar historias
de una manera completamente innovadora. Las IAs de storytelling
396
han demostrado ser capaces de crear narrativas complejas y
cautivadoras, rivalizando en muchos aspectos con el talento humano.
(Ramallo & Porta, 2018)
El Storytelling en la Era Digital
El advenimiento de la era digital ha traído consigo una explosión de
plataformas y herramientas de storytelling en línea. Ahora, no solo
tenemos acceso a libros y películas, sino también a aplicaciones y
sitios web que nos permiten crear nuestras propias historias de
manera interactiva y personalizada. Estas herramientas de IA de
storytelling aprovechan el poder de los algoritmos y el aprendizaje
automático para generar historias basadas en los intereses y
preferencias del usuario. Estas IAs de storytelling pueden adaptar las
tramas, los personajes y los desenlaces para crear una historia única y
personalizada para cada individuo.
6.5.2 IAs generativas de storytelling
Al igual que las IAs generativas de texto, las que generan historias
han crecido en los dos últimos años. Presentamos algunas de ellas, a
las cuales les hemos pedido que nos cuenten una historia sobre el
tigre que hemos usado como prompt en el capítulo 3 de este libro:
un majestuoso tigre de pelaje naranja y negro descansando en una
playa de arena blanca. El mar está agitado, con grandes olas
rompiendo en la orilla. Cerca de la playa, hay un velero con sus velas
desplegadas, navegando en el fuerte viento. A lo lejos, se puede ver
un faro imponente parcialmente iluminado por el sol que se pone en
el horizonte
6.5.2.1 easy-peasy
Esta aplicación ofrece varias herramientas; entre ellas, generación de
397
audio a partir de texto, generación de imágenes, transcripción y
resumen de audios, bots personalizados, generación de artículos,
conversación con PDF, entre otros, con la herramienta "Chatear con
MARKy", generamos nuestra primera historia (ver objeto interactivo
en la siguiente página).
6.5.2.2 Storynest.ai
Esta aplicación, permite crear historias de misterio, ciencia ficción,
horror, aventuras y otros géneros. Luego de ingresar la idea, podemos
seleccionar el número de capítulos, el idioma de la historia. Cada
capítulo está decorado con una imagen generada por IA. En el objeto
interactivo de la siguiente página, pusimos fragmentos de dos
capítulos y las imágenes generadas.
6.5.2.3 AI Story Generator
AI Story Generator es un creador de historias en línea gratuito.
Utilizando modelos de lenguaje de gran tamaño, busca redefinir la
forma en que se crean las historias hoy en día brindándole acceso a
tecnología de IA generativa, puede escribir historias cortas con
tramas imaginativas de fantasía, ciencia ficción, romance, terror o
misterio.
6.5.2.4 StoryBird.ai
Esta aplicación desaparece, migrando a Story.com, algo lamentable,
pues las historias generadas en formato libro eran bastante buenas.
En el objeto interactivo, hemos puesto algunos fragmentos de una
historia generada en 2023 sobre el colibrí.
6.5.2.5 Once Upon a Bot
Una aplicación que permite generar tres historias semanales. Incluye
398
imágenes y audios, permite descargar la historia en formato PDF o
copiar el enlace para compartirla. Su debilidad es que solo genera
historias en inglés.
399
Video 6.6. Historia en video generada por Story.com.
400
6.5.3 Libros y novelas
Las IAs generativas permiten, también, la creación de novelas y libros
de manera eficiente y a menudo innovadora. Con una variedad de
herramientas disponibles, los autores pueden superar el bloqueo del
escritor y explorar nuevas ideas con facilidad. Sin embargo, es crucial
ser conscientes de los riesgos y gestionarlos adecuadamente para
garantizar la integridad y autenticidad del contenido generado.
ChatGPT de OpenAI es el más conocido por su capacidad para
generar historias convincentes y se ha mejorado con modelos
multimodales como ChatGPT Vision. Estos modelos son capaces de
entender y generar contenido en diferentes formatos, lo que amplía
su creatividad y aplicabilidad. Con más de 300 libros a la venta en
Amazon escritos por esta IA, ChatGPT ha demostrado su capacidad
para automatizar la creación de contenido literario complejo; no
obstante, presentamos otras IAs y aplicaciones, que están en
capacidad de generar novelas o libros.
6.5.3.1 GPTGO.ai
Esta aplicación (gratuita) es más usada para búsquedas normales o
preguntas usuales que se le hacen a una IA generativa de texto. Pero,
también está en capacidad de escribir novelas. En el siguiente objeto
interactivo, presentamos una novela corta sobre "un tigre sentado en
la playa".
6.5.3.2 COPY AI
Esta aplicación tiene objetivos más complejos que la escritura de una
historia; sin embargo, lo usamos para crear una novela corta, que
presentamos en el objeto interactivo de la siguiente página.
401
6.5.3.3 NovelistAI
En el video del siguiente objeto interactivo, hacemos su descripción:
402
6.5.3.4 Books by AI
Finalmente, con esta aplicación creamos el libro que se presenta a
continuación
Libro 6.1. Libro creado por booksbyai.app.
403
6.6 Imágenes en tiempo real
La revolución de las imágenes. Imagina un mundo donde las
imágenes que deseas se materializan ante tus ojos en cuestión de
segundos. Un mundo donde la creación visual no tiene límites, donde
las ideas abstractas se convierten en representaciones tangibles al
instante. Esto ya no es un sueño futurista, sino una realidad que se
está desarrollando rápidamente gracias a la generación de imágenes
con IA en tiempo real.
Al aprovechar el poder de la inteligencia artificial, ahora podemos
generar imágenes de alta calidad a partir de descripciones de
lenguaje natural, bocetos o incluso ideas conceptuales, y todo esto en
tiempo real. Las implicaciones de esta tecnología son vastas y
abarcan una amplia gama de campos, desde el diseño y la publicidad
hasta la educación y el entretenimiento.
Presentamos, a continuación, algunas aplicaciones que te
sorprenderán. Inicialmente, lo haremos con SDXL Turbo de Stability,
pues es este modelo el que ha hecho posible la reducción de los pasos
(step) a uno solo, he allí la generación en tiempo real.
6.6.1 SDXL Turbo
SDXL Turbo logra un rendimiento de última generación con una
nueva tecnología de destilación, que permite la generación de
imágenes en un solo paso con una calidad sin precedentes,
reduciendo el número de pasos requerido de 50 a solo uno
(stability.ai). SDXL Turbo se basa en una novedosa técnica de
destilación llamada Destilación por difusión adversa (ADD), que
permite al modelo sintetizar resultados de imágenes en un solo paso
y generar resultados de texto a imagen en tiempo real manteniendo
una alta fidelidad de muestreo [53].
404
Una demostración, en tiempo real, se encuentra en
http://clipdrop.co/ y, también, en https://huggingface.co/, observa
este video:
Vídeo
Video 6.7. Imágenes en tiempo real con SDXL Turbo.
6.6.2 Realtime con Leonardo
Leonardo no ofrece una herramienta realtime... ¡Ofrece dos
herramientas realtime!
con el lanzamiento de modelos de generación instantánea como
SDXL Turbo, Leonardo ha implementado con éxito dos generadores
en tiempo real llamados Realtime Generation y Realtime Canvas.
Puedes dibujar e ingresar indicaciones para crear imágenes en
tiempo real sin tiempo de carga. Cada trazo o entrada de texto
desencadena la generación inmediata de imágenes.
405
Con Realtime Generation,
experimenta generaciones de
texto a imágenes increíblemente
rápidas que evolucionan a medida
que escribes. Puedes elegir
estilos como Dynamic, Anime, Figura 6.17. Herramienta Realtime
cinematics, entre otros; también, Generation de Leonardo
puedes darle un mayor o menor
peso a los elementos Kids Illustration, Toon-Anime, Folk Art
Illustration y Coloring Book. Si no estás a gusto con la imagen
obtenida, puedes repetirla haciendo clic en Semilla aleatoria
(Random seed) para obtener otra imagen.
Figura 6.18. Usando la semilla aleatoria en Realtime Generation de Leonardo.
406
Realtime Canvas es nuestra
implementación de las últimas
innovaciones en tecnología de
transformación de imagen a
imagen. Esta función está
diseñada para convertir dibujos Figura 6.19. Herramienta Realtime
en impresionantes obras de arte Canvas de Leonardo
casi instantáneamente, revolucionando la forma en que los usuarios
interactúan con la IA para la generación de imágenes. Ofrece un
proceso creativo inmersivo e intuitivo que se siente natural, como
pintar sobre un lienzo digital (Leonardo.ai).
En esta herramienta, Leonardo ofrece 13 estilos, opciones de mejora,
escalado y muchas opciones más. Observa un video con algunos usos
de las dos herramientas:
Vídeo
Video 6.8. Imágenes en tiempo real con Leonardo.
407
6.6.3 Realtime con decohere
Estamos construyendo Decohere para que
artistas de todos los niveles puedan liberar todo
su potencial. Creemos que la creatividad de las
personas sólo está limitada por las herramientas
que tienen para expresarse, y un mundo con más
expresión es un mundo que se comprende mejor
a sí mismo (decohere).
Esta IA está enfocada a la ceración de videos "Nuestra herramienta
brinda a los usuarios una interfaz intuitiva y controles únicos sobre el
proceso de generación de video"; sin embargo, la herramienta
realtime es sorprendente, observemos:
Vídeo
Video 6.9. Imágenes en tiempo real con decohere.
408
6.6.4 Realtime con KREA
KREA genera imágenes en tiempo real a partir de texto, imagen o
cámara.
Figura 6.20. Imágenes Realtime con KREA a partir de la cámara.
En el plan libre, permite generar imágenes diariamente.
Vídeo
Video 6.10. Imágenes en tiempo real con KREA.
409
6.6.5 Realtime con FREEPIK Pikaso
Pikaso es una herramienta de dibujo de IA en tiempo real que permite a
los usuarios crear imágenes combinando bocetos simples con
descripciones. Los usuarios pueden generar arte con IA describiendo
características como paisajes, iluminación, estilo y colores, incluye una
biblioteca de íconos, formas y elementos para mejorar la creatividad,
incluso para aquellos que no tienen habilidades para dibujar. Esto hace
que sea fácil y accesible para cualquiera dar vida a sus ideas a través del
arte generado por IA.
Al hacer clic en el botón Mejorar (Enhance), mejora la calidad de la
imagen generada. Agrega más detalles y embellece el resultado final. En
el plan gratuito, el uso diario es limitado, puedes ver tu uso en el
contador de uso en la esquina superior derecha (FREEPIK Pikaso).
Vídeo
Video 6.11. Imágenes en tiempo real con FREEPIK Pikaso.
410
Otras aplicaciones, que recomendamos, son:
https://fal.ai/camera. Genera videos tomado como fuente la cámara.
Por defecto, inicia con este prompt: "a picture of george clooney,
elegant, in a suit, 8k, uhd", obteniendo:
Figura 6.21. Imagen Realtime con fal.ai a partir de la cámara.
getimg.ai. Permite Real-Time con 100 imágenes diarias de forma
gratuita con tres estilos diferentes.
Figura 6.22. Imagen Realtime con getimg.ai.
411
6.7 Visión computacional
Gemini 1.5 Pro, nos da la siguiente introducción a la visión
por computadora:
La visión por computadora es un campo de la inteligencia
artificial que se centra en el desarrollo de técnicas para que
las máquinas "vean" e interpreten el mundo visual de la
misma manera que lo hacen los humanos. Los modelos de
visión por computadora son algoritmos y arquitecturas que
permiten a las máquinas procesar y analizar imágenes y
vídeos para realizar diversas tareas.
¿Cómo funcionan?
En general, los modelos de visión por computadora
funcionan mediante una serie de pasos:
Adquisición de imágenes: Se captura una imagen o vídeo
mediante una cámara u otro dispositivo de captura.
Preprocesamiento: La imagen se prepara para su análisis
mediante técnicas como el redimensionamiento, la
normalización y la eliminación de ruido.
Extracción de características: Se identifican y extraen
características relevantes de la imagen, como bordes,
contornos, texturas y formas.
Clasificación o regresión: Se utiliza un algoritmo para
clasificar la imagen en una categoría predefinida (por
ejemplo, perro, tigre, avión) o para predecir una variable
continua (por ejemplo, la edad de una persona).
412
413 Poster diseñado con Ideogram
Tipos de modelos
Existen diversos tipos de modelos de visión por computadora, cada
uno con sus propias fortalezas y debilidades. Algunos de los más
comunes son:
Redes neuronales convolucionales (CNN): Son modelos inspirados
en el sistema visual humano que se destacan en la clasificación de
imágenes y la detección de objetos.
Redes neuronales recurrentes (RNN): Son modelos que pueden
procesar secuencias de datos, como vídeos, para realizar tareas como
el reconocimiento de acciones.
Aplicaciones
Los modelos de visión por computadora tienen una amplia gama de
aplicaciones, que incluyen:
Reconocimiento facial: Identificar personas en imágenes o vídeos.
Detección de objetos: Localizar y clasificar objetos en imágenes o
vídeos.
Análisis de imágenes médicas: Ayudar a los médicos a diagnosticar
enfermedades a partir de imágenes médicas.
Vehículos autónomos: Permitir que los vehículos autónomos "vean"
y naveguen por su entorno.
Hicimos un ejercicio, usando las IAs LLaVA, Gemini 1,5 Pro, Gemini
1.0, GTP-4 en Copilot, Assistant y Mistral-Large, subiendo la imagen
un tigre, obteniendo descripciones, tales como se muestran en el
siguiente objeto interactivo.
414
415
6.8 Imágenes escaladas (Upscale) y/o mejoradas
(Enhance)
La herramienta Upscale, en las IAs generativas de imagen, se utiliza
para aumentar el tamaño de una imagen. Sin embargo, existen
diferentes enfoques con distintos resultados:
Escalado sin mejora de resolución: Este método simplemente
aumenta el tamaño de la imagen sin modificar su contenido. Se
asemeja a la interpolación tradicional, donde se añaden píxeles
adicionales basados en los valores de los píxeles vecinos. La
imagen resultante será más grande, pero no tendrá mayor nitidez
o detalle. Útil para aumentar el tamaño de una imagen sin
necesidad de mejorar su calidad.
Escalado con mejora de resolución: Este método utiliza
algoritmos de IA para aumentar la resolución de la imagen al
mismo tiempo que se incrementa su tamaño. La IA analiza la
imagen y predice cómo se verían los detalles a una resolución
más alta. El resultado es una imagen más grande y nítida que la
original. Ideal para imágenes que necesitan ser ampliadas sin
perder calidad.
Escalado con mejora de resolución e imagen (enhanced): Este
método va un paso más allá y no solo mejora la resolución, sino
que también puede mejorar la calidad general de la imagen. La IA
puede corregir defectos, eliminar ruido, ajustar colores y mejorar
la iluminación. El resultado final es una imagen más grande, nítida
y con una calidad visual superior a la original. Perfecto para
imágenes que necesitan una mejora significativa en su calidad.
Es importante destacar que la calidad del escalado dependerá de la
IA específica que se utilice y de la calidad de la imagen original o, en
otras palabras, "no podemos pedirle peras al olmo".
416
Existe una gran oferta de aplicaciones, para mejorar (enhance) y/o
escalar (upscale) imágenes. Como un primer ejemplo, hemos
diseñado el objeto interactivo de la página siguiente, en el que
mostramos los resultados de las siguientes IAs generativas de
imagen:
KREA. Al acceder a esta IA, un de las primeras opciones es
Upscale&Enhance, la cual mejora, ostensiblemente, la imagen,
además de ampliarla a tamaños 2x, 4x y 8x. En la imagen que
obtuvimos, las mejoras se pueden evidenciar en todos los
elementos (tigre, olas, faro, playa, cielo y vegetación).
Leonardo AI. En su página principal, presenta la opción Universal
Upscaler, en la cual permite escalar solo en 2x la imagen; sin
embargo, las mejoras también son bastante buenos, siendo
superior las obtenidas con KREA (verificar en el objeto
interactivo).
PromeAI. En el menú lateral, aparece como nueva herramienta
HD Upscaler (a 21 de marzo de 2024). Pese a que seleccionamos
High en Creative Options, el resultado no supera las imágenes
obtenidas con KREA y Leonardo, pero se le abona el haber
eliminado buena parte del ruido de la imagen.
neural.love. En el menú lateral se presenta la opción Image
Enhance. El resultado no fue el mejor, eliminando un poco las
partes borrosas de la imagen (ruido).
A continuación, relacionamos otras IAs y aplicaciones, que permiten
escalar y/o mejorar imágenes.
417
418
Upscayl. Es una aplicación (No IA), que se puede descargar y
ejecutar en sistemas operativos Windows, Mac o Linux. Como
su nombre lo indica, su función es escalar la imagen,
conservando la calidad original.
bigjpg.com. Es otra aplicación (No IA), que se puede descargar
y ejecutar en sistemas operativos Windows, Mac o Linux.
Como su nombre lo indica, su función es escalar la imagen,
conservando la calidad original.
ai.nero.com/. Esta aplicación otorga 10 créditos en su plan
libre. Al igual que Upscayl, permite descargar una versión para
uso en local. Hemos usado la versión en línea, en la que
podemos mejorar la imagen; obteniendo como resultado la
eliminación de ruido (desenfoque), sin mejorar los detalles de
la imagen. Se le abona, que amplió la imagen en 4x.
CapCut. Se presenta con el siguiente mensaje "Mejore,
elimine el ruido y escale la imagen a 4K con IA en segundos.
Ampliar imagen sin pérdida de calidad", el proceso es sencillo:
"subir imagen, seleccionar escalado (1080, 2k o 4k) y
Mejorar". El resultado solo mejora el ruido.
Image Enhancer. Pese a su nombre, las mejoras no son
significativas, además de ser prácticamente una aplicación de
pago, pues solo otorga 1 crédito, el cual usamos para verificar
el resultado.
Otras opciones son Upscales, PixelBin, PixelBin, IloveImg y PixelCut,
pero con resultados que no superan a KREA o Leonardo.
419
6.9 Creando modelos
Los modelos personalizados de IA generativa de imágenes se crean
para satisfacer necesidades específicas. Esto puede ser útil para
aplicaciones en las que se necesita un control más preciso sobre el
aspecto o el contenido de las imágenes generadas. Además, los
modelos personalizados pueden ser utilizados para generar imágenes
que sean únicas y distintivas, lo que puede ser útil en aplicaciones
como el diseño gráfico y la publicidad. Hemos creado modelos
personalizados en algunas IAs generativas de imagen, que
describimos a continuación.
6.9.1 Modelos con Leonardo Ai
Seguimos los siguientes pasos:
En la opción Training datasets de la página principal, hicimos clic
en New dataset
Ingresamos el nombre del modelo que, para nuestro caso, fue
Dani, y una descripción.
420
Subimos 40 fotos (debe ser mínimo 25) de la hija del autor de
este libro, seleccionamos todas las fotos e hicimos clic en el botón
Train Model
Finalmente, se selecciona la categoría (fotografía, edificios, moda,
texturas, etc.), nosotros escogimos fotografía y como modelo
base Stable diffusion 1.5. Luego de unos minutos, se logró el
entrenamiento del modelo.
6.9.2 Modelos con NightCafé
Hicimos un procedimiento similar, seleccionando la opción My models
del menú principal y, luego, Fine-tune new model
421
Haz clic sobre cada una de las siguientes imágenes, para ver las
demás. Podrás observar las fotos generadas con los modelos
anteriores.
Obviamente, a mayor número de imágenes obtendríamos resultados
más cercanos a la cara de Dani.
422
6.9.3 Modelos con Scenario
El segundo botón del panel lateral izquierdo nos permite acceder a la
creación de modelos.
Una vez hagamos clic en el botón
New Model, podemos subir entre
5 y 15 imágenes, para entrenar
nuestro modelo, lo hicimos,
nuevamente, con fotos de la
modelo Daniela. Los parámetros
los hemos cambiado, aumentando
el guidance y cambiando el
scheduler por Euler en algunas y
dejando el que trae por defecto en
otras.
Usando el modelo creado,
generamos varias imágenes con
diferentes indicaciones, tal como
se observa en la siguiente
presentación interactiva.
423
Los resultados, quizá, no son los mejores, pues en lugar de fotos
usamos imágenes generadas por otras IAs, lo que puede influenciar
en la generación de facciones un poco diferentes de la modelo real.
En la siguiente aplicación, esta afectación puede ser mayor; sin
embargo, son aplicaciones que se pueden utilizar para generar
imágenes consistentes para incluir en historias, presentaciones u
otros propósitos.
424
6.9.4 Modelos con Lensgo
Al final del panel lateral izquierdo, aparece la opción Training and
Models que, en el plan libre, permite generar hasta tres modelos.
Subimos 23 fotos de Daniela, para generar el modelo. En la siguiente
presentación interactiva se muestran algunos resultados.
425
6.9.5 Entrenando un LoRA con Pixai.art
Con esta herramienta, entrenamos un LoRA:
426
6.9.6 Teachable Machine
Teachable Machine de Google es una plataforma gratuita que te
permite crear modelos de aprendizaje automático sin necesidad de
escribir código. Puedes utilizarla para entrenar modelos para una
variedad de tareas, como la clasificación de imágenes, la detección de
objetos y el reconocimiento de voz.
¿Cómo funciona Teachable Machine?
Teachable Machine funciona utilizando un proceso llamado
"aprendizaje automático supervisado". Esto significa que le
proporcionas a la herramienta un conjunto de datos de ejemplos
etiquetados, y luego la herramienta utiliza estos datos para aprender
a realizar la tarea deseada.
¿Qué tipo de modelos puedes crear con Teachable Machine?
Puedes crear una variedad de modelos con Teachable Machine,
incluyendo:
Modelos de clasificación: Estos modelos pueden clasificar
imágenes, texto o audio en diferentes categorías.
Modelos de detección de objetos: Estos modelos pueden
identificar y localizar objetos en imágenes.
Modelos de reconocimiento de voz: Estos modelos pueden
convertir el habla en texto.
¿Cómo puedo empezar a usar Teachable Machine?
Para empezar a usar Teachable Machine, solo tienes que visitar el
sitio web de la herramienta y seguir las instrucciones. No necesitas
427
tener ninguna experiencia previa en aprendizaje automático para
utilizar la herramienta.
¿Cuáles son algunas de las ventajas de utilizar Teachable Machine?
Teachable Machine tiene una serie de ventajas, incluyendo: es
gratuita, es fácil de usar, es versátil (creación de una variedad de
modelos y es potente. Observa un ejemplo en el siguiente video.
Vídeo
Video 6.12. Ejercicio con Teachable Machine.
Teachable Machine está dirigida a una amplia gama de usuarios,
incluyendo: estudiantes, educadores, artistas, diseñadores y
emprendedores.
428
6.10 IAs de la tercera edición
En este apartado, presentamos algunas novedades próximas a ser
lanzadas para el uso del público, algunas de ellas aún en proceso de
investigación, otras sujetas a posibles regulaciones, y algunas otras
lanzadas en el mes de abril de 2024, que estaremos evaluando y
presentando en la edición 2025 de este libro.
6.10.1 Sora de OpenAI
Sora es un modelo de IA que puede crear videos realistas e
imaginativos a partir de instrucciones de texto. Los ejemplos
presentados en su página han sorprendido al mundo, por la calidad de
las imágenes y, más sorprendente aún, las secuencias (casi sin
errores) de los videos. Sora aún se encuentra en proceso de
investigación y, quizá, en proceso de regulación, pues existen dudas
sobre el origen de sus imágenes y del futuro uso de esta IA. En la
presentación interactiva de la siguiente página, presentamos a Lady
Sora, generada por otras IAs, según el prompt de OpenAI.
6.10.2 EMO de Alibaba
Otra gran sorpresa para el futuro cercano. Esta IA genera videos a
partir de imágenes con el modelo de audio expresivo (difusión
Audio2Video)
Ingrese una única imagen de referencia y el audio
vocal, por ejemplo, hablando o cantando, nuestro
método puede generar videos con expresiones
faciales expresivas y varias poses de la cabeza.
Sorprende la sincronización de los labios con el audio, tal como se
evidencia en los ejemplos presentados en la página de lanzamiento.
429
Por ejemplo, con la imagen de Lady Sora y una canción de la famosa
cantante Dua Lipa, se genera un video en una perfecta
sincronización. En la siguiente presentación interactiva, al final,
hemos puesto una parte de este video.
6.10.3 udio
Llega la competencia a la suno. Como primer ejercicio, pedimos "una
canción acerca de las IAs generativas, pop, traditional pop",
obteniendo "la musa algorítmica":
Audio 6.1. Canción generada por udio.
430
6.10.4 Mixtral 8x22B
Mixtral 8x22B es nuestro último modelo abierto.
Establece un nuevo estándar de rendimiento y
eficiencia dentro de la comunidad de IA. Es un
modelo de mezcla de expertos (SMoE) escaso que
utiliza solo 39 mil millones de parámetros activos
de 141 mil millones, lo que ofrece una
rentabilidad incomparable para su tamaño.
Al 18 de abril de 2024, no había acceso a este modelo en Le Chat; sin
embargo, pudimos probarlo en la plataforma OctoAI, la cual incluye
otros modelos como qwen 1.5-32b, LLaMA 2, entre otros. El análisis
de este modelo, lo dejamos para la próxima edición del libro.
6.10.5 Consensus
Excelente herramienta para investigadores, pues permite, a partir de
una pregunta de investigación, encontrar trabajos y artículos de
investigación.
431
6.10.6 Super Agent
Aplicación diseñada para el usuario moderno. Con funciones
como Generación de imágenes, Búsqueda web y Navegador
web estático, proporciona una variedad de capacidades para
ayudarlo en diversas tareas sin problemas. Simplemente
ingrese sus solicitudes y deje que Super Agent se encargue
del resto sin esfuerzo. Ya sea generando imágenes, buscando
en la web o navegando por páginas web estáticas.
6.10.7 Command R
Command R es un modelo generativo escalable dirigido a RAG y el
uso de herramientas para permitir la IA a escala de producción para
las empresas. Command R es optimizado para tareas de contexto
prolongado, como la generación aumentada de recuperación (RAG) y
el uso de API y herramientas externas (Cohere).
432
Interactivo 6.1. Cuestionario de 15 preguntas de selección múltiple
433
Guías para navegar en el
panorama de la inteligencia
artificial
Poster diseñado con la IA Ideogram.
Introducción
La inteligencia artificial (IA) está transformando rápidamente
innumerables industrias y aspectos de nuestras vidas. Con la
proliferación de herramientas y aplicaciones basadas en IA, surge la
necesidad de un sistema de organización que facilite la búsqueda y el
acceso a estas tecnologías. Aquí es donde entran en juego los
directorios de herramientas IA.
Estos directorios funcionan como mapas que guían a los usuarios a
través del complejo panorama de la IA, ofreciendo una colección
organizada y categorizada de herramientas y recursos. Tanto si eres
un desarrollador que busca una API específica, un profesional de
marketing que busca soluciones de automatización o simplemente un
entusiasta de la IA que quiere explorar las últimas novedades, los
directorios de herramientas IA pueden ser un recurso invaluable.
Presentamos algunos directorios útiles para estar actualizados con
los últimos desarrollos en IA. En cada directorio, ponemos alguna
noticia o novedad reportada por el directorio (a abril de 2024).
insidr.ai
En un paso significativo dentro del campo de la
inteligencia artificial (IA), Anthropic, una empresa
cofundada por ex ejecutivos de OpenAI, recientemente
apareció en los titulares con la presentación de Claude 3,
marcando un nuevo capítulo en la creciente carrera
tecnológica.
Este directorio presenta una lista de más de 300 de las mejores
herramientas de inteligencia artificial disponibles.
437
En cada elemento de la lista aparecen los enlaces al sitio de la IA y el
plan libre y/o de pago.
OPENTOOLS
Una empresa multinacional de Hong Kong perdió 35
millones de dólares después de que unos estafadores
utilizaran inteligencia artificial para realizar una
videollamada con colegas falsos (Global NEWS).
Este directorio se presenta con el siguiente mensaje: "Chatea con
nuestro GPT para encontrar la herramienta de IA adecuada para ti.
Simplemente describe tu tarea, por ejemplo, 'Quiero eliminar el ruido
de mi podcast'".
Además de poder consultar por categorías, es posible hacerlo con las
IAs más recientes, tal como lo muestra la siguiente imagen.
438
TopAI.tools
Encuentre la herramienta de IA perfecta para cada tarea.
El directorio de herramientas de IA que multiplicará por
10 su productividad 🚀 con 7402 IA.
En la pantalla principal, aparecen las IAs destacadas por este
directorio, tal como se muestra en la siguiente imagen, en la que
aparece una IA gratuita, una de pago y una freemium.
Sin embargo, al ingresar a la IA gratuita, notamos que no genera
imágenes y no es gratuita.
439
SaaS AI Tools.
SaaS AI Tools es su fuente de nuevas herramientas de IA y
noticias diarias sobre IA para ayudarle a impulsar su creatividad
al siguiente nivel.
Una de sus herramientas interesantes es AI forums
Esta plataforma de participación gratuita es un lugar para
debates sobre herramientas de inteligencia artificial,
aplicaciones SaaS y tecnologías innovadoras como
ChatGPT, GPT, bots, Google Bard y Claude. Es un lugar
donde los miembros pueden utilizar la IA para impulsar
sus negocios.
AIcyclopedia
Más de 3000 herramientas, indicaciones y podcasts de IA.
Herramientas Al seleccionadas de cientos de lugares en
Internet.
Con Books written by AI puedes leer y crear libros
nuevos desde cero, adaptados a tus intereses, con la
ayuda de ChatGPT (AIcyclopedia).
Future Tools
FutureTools recopila y organiza las mejores herramientas de
inteligencia artificial para que TÚ también puedas convertirte
en un superhumano.
LM Studio. Una herramienta para ejecutar LLM sin
conexión localmente para el procesamiento de datos
privados (Future Tools)
440
BoredHumans.com.
Directorio de herramientas de IA. Una base de datos de más de
5000 herramientas de IA.
Presenta nueve categorías de consulta, tal como lo muestra la
siguiente imagen.
En la categoría de videos, el primero que se destaca es VideoGen
Descubra VideoGen: ¡su solución integral para la
creación de videos con tecnología de inteligencia
artificial! Hacemos que la creación de videos sea sencilla,
rápida y accesible para creadores de contenido,
especialistas en marketing y emprendedores. Olvídese de
la edición de vídeo convencional: VideoGen es un
generador de vídeo. ...
Futurepedia.
Descubra lo que la IA puede hacer por usted. Hemos ayudado a más
de 5 millones de profesionales a aprender a aprovechar la IA
ayudándoles a encontrar las mejores herramientas de IA.
441
Supertools
Descubre las mejores herramientas de IA con Supertools. Las
herramientas de IA más útiles : organizadas y categorizadas en un
solo lugar. Reciba las últimas herramientas de IA directamente en su
correo electrónico (es gratis).
Dang!
Directorio de herramientas de IA.
Un directorio que Dang! buenas
herramientas y servicios de IA.
Un apartado interesante de este
directorio es el que denomina
Cementerio de IA, en el cual se
relacionan IAs como MakePose,
BibleGPT, ChatCAD, AnimeAI,
entre muchas otras.
El páramo de proyectos de
IA descontinuadas y
muertas.
442
Easy With AI
Easy With AI. Las mejores herramientas y servicios de IA en un solo
lugar.
Además de las IAs del directorio, incluye dos apartados especiales:
"Cursos IA" y "Guías IA"; por ejemplo, "IA generativa con grandes
modelos lingüísticos" y "Prompt engineering para Chatgpt" de
Coursera.
Algunas categorías que incluye son: Writer, Image Generator, Video,
Audio, Logo, SEO, Upscaler, Chatbot, entre otras.
443
Directorio de IAs generativas usadas en este
libro
En cualquiera de los directorios anteriores, puedes encontrar miles
de IAs, tanto de pago como gratuitas. En este libro, hemos usado,
preferiblemente, IAs gratuitas o, al menos, con planes gratuitos, que
nos permitieran explorarlas y mostrar algunos ejemplos de
aplicación. Hicimos una selección de las IAs más populares o de
mejores prestaciones, pero es posible haber ignorado otras que,
seguramente, las incluiremos en próximas versiones.
IAs generativas de texto
444
1. GPTGO. Modelo de inteligencia artificial desarrollado por
OpenAI.
2. ChatGPT. Modelo de lenguaje desarrollado por OpenAI.
Está basado en la arquitectura GPT (Generative Pre-trained
Transformer).
3. LLaMA 2. Modelo de la familia de grandes modelos de
lenguaje (LLM) llamada LLaMA (Large Language Model Meta
AI).
4. YOU.com. Modelo basado en técnicas de aprendizaje
automático y procesamiento de lenguaje natural para
comprender y generar texto en varios idiomas, incluido el
español.
5. Gemini de Google (antes Bard). Modelo de lenguaje grande
creado por Google AI, diseñado para ser un modelo de
lenguaje multimodal. Gemini viene en tres tamaños de
modelo: Ultra, Pro y Nano (véase Google DeepMind).
6. Copilot de Microsoft (antes Bing). Usa el modelo de
lenguaje basado en GPT-3 o GPT-4, desarrollado por la
empresa OpenAI 1, busca competir con Google.
7. Claude 3. Asistente de IA que se basa en un modelo de
lenguaje entrenado por Anthropic, en la versión libre se puede
usar Claude 3 Sonnet, el segundo modelo de los tres lanzados
en 2024.
8. Mistral. Mistral AI es una empresa de vanguardia con sede
en París, Francia, que desarrolla grandes modelos lingüísticos.
A abril de 2024, se accede al modelo Mistral Large, con
máximas capacidades de razonamiento.
445
9. Mixtral 8x7B. Modelo de mezcla de expertos (SMoE) de
alta calidad con pesos abiertos. Licenciado bajo Apache 2.0.
Es, a abril de 2024, el modelo abierto más potente. Lo puedes
probar en Perplexity Labs o en Nvidia
10. Falcon 180B. Modelo de lenguaje con 180 mil millones de
parámetros, entrenado en 3,5 billones de tokens. Este modelo
abierto funciona excepcionalmente bien en diversas tareas
como razonamiento, codificación, competencia y pruebas de
conocimientos, incluso superando a competidores como
LLaMA 2 de Meta. Lo puedes probar en Hugging Face
11. Guanaco (Generative Universal Assistant for Natural-
language Adaptive Context-aware Omnilingual outputs).
Modelo de lenguaje avanzado construido sobre el modelo
LLaMA 7B de Meta. Ampliando el conjunto de datos inicial de
52K del modelo Alpaca, se han incorporado 534,530 entradas
adicionales, que cubren inglés, chino, japonés y alemán. Lo
puedes probar en Hugging Face
12. Vicuna 13B. Chatbot de código abierto entrenado
mediante el ajuste de LLaMA en conversaciones compartidas
por usuarios recopiladas de ShareGPT, puedes probarlo en
Hugging Face
13. Alpaca 7B. Modelo perfeccionado a partir del modelo
LLaMA 7B en demostraciones de seguimiento de
instrucciones de 52K.
14. Stable Beluga. Stable Beluga 1 y su sucesor Stable Beluga
2 son potentes modelos de lenguaje grande (LLM) de acceso
abierto. Ambos modelos demuestran una capacidad de
razonamiento excepcional en diversos puntos de referencia.
446
15. Zephyr 7B. Zephyr-7B es una versión mejorada de
mistralai/Mistral-7B-v0.1 que se entrenó en una combinación
de conjuntos de datos sintéticos disponibles públicamente
mediante la optimización de preferencias directas (DPO).
16. Qwen 1.5. Qwen 1.5 es una serie de grandes modelos de
lenguaje de Alibaba Cloud que abarcan desde 0,5 mil millones
hasta 72 mil millones de parámetros.
17. Gemma. Una familia de modelos abiertos, ligeros y de
vanguardia, construidos a partir de la misma investigación y
tecnología utilizada para crear los modelos Gemini.
18. Smaug 72B. Abacus AI lanzó un modelo llamado “Smaug-
72B”, una versión perfeccionada de “Qwen-72B”, que ayuda a
resolver distintos problemas en el ámbito de la IA y el
aprendizaje automático.
19. Character.ai. IA que simula a un humano y puede
interactuar con el usuario. Usa el modelo de lenguaje GPT-3
de OpenAI.
20. Jurassic-2. AI21 Studio proporciona acceso API a los
modelos de lenguaje Jurassic-2 y Task-Specific, modelos que
potencian las funciones de generación y comprensión de texto
en miles de aplicaciones en vivo.
21. Pi.ai. Pi o "Personal Intelligence", fue desarrollado por la
empresa Inflection AI. A abril de 2024, se usa la versión
Inflection-2.5. Se puede agregar a WhatsApp.
22. LuzIA. IA que usa el modelo de lenguaje GPT-3 de OpenAI.
Se puede agregar a WhatsApp.
447
23. Cami.AI. Asistente de IA que puede proporcionar
respuestas útiles, generar imágenes y transcribir audio. Se
puede agregar a WhatsApp.
24. PDF.ai. Plataforma de inteligencia artificial (IA) que
permite a los usuarios interactuar con sus documentos PDF
de forma natural.
25. ChatPDF. Plataforma de inteligencia artificial (IA) que
permite a los usuarios interactuar con sus documentos PDF.
26. TLDRthis. Herramienta de resumen de artículos en línea,
no solo condensa artículos extensos en contenido más breve y
digerible, sino que también extrae automáticamente
metadatos esenciales.
27. ZenoChat. IA de TextCortex que usa modelos lingüísticos
avanzados como GPT-4 y Sophos 2.
28. ChatDOC. Asistente de lectura de archivos basado en
ChatGPT que puede extraer, localizar y resumir rápidamente
información de documentos: .pdf, .doc, .docx, .md, .epub, .txt,
sitio web y archivo escaneado.
29. AskYourPDF. ¿Alguna vez deseaste que tus documentos
pudieran hablar? ¡Con AskYourPDF, pueden! Impulsado por
ChatGPT, damos vida a tus documentos, haciéndolos
interactivos y atractivos.
30. OpenRead. OpenRead aprovecha la tecnología de
inteligencia artificial para analizar documentos PDF y
convertirlos en documentos interactivos. Puede aprender del
artículo resumido de IA de Paper Espresso, hacer preguntas
en papel de Paper Q&A y tomar notas en papel digitalizado y
convertirlas en su biblioteca de aprendizaje personal.
448
31. SciSpace. Haz horas de lectura en minutos. Descubre los
últimos artículos de prueba publicados hasta octubre de
2023.
32. Rytr. Revolucionaria inteligencia artificial diseñada
específicamente para el campo de la redacción, lanzada en
marzo de 2021.
33. Notion. Notion utiliza el modelo de lenguaje BERT
(Bidirectional Encoder Representations from Transformers).
34. Writesonic. Plataforma que usa modelos GPT, permite
que su IA proporcione resultados en tiempo real basados en
información en tiempo real proporcionada por Google.
35. Perplexity. El modelo de lenguaje predeterminado
utilizado por Perplexity AI es GPT-3; sin embargo, también
ofrece un modo Copilot alimentado por GPT-4.
36. h2oGPT. Conjunto de repositorios de código fuente
abierto para la creación y el uso de modelos de lenguaje
grandes (LLM) basados en transformers generativos
preentrenados (GPT).
37. h2oGPT. Conjunto de repositorios de código fuente
abierto para la creación y el uso de modelos de lenguaje
grandes (LLM) basados en transformers generativos
preentrenados (GPT).
38. Poe. Repositorio que permite conversar con chatbots
como Assistant, Claude 3, GPT 4, Gemini, entre otros, además
de IAs generativas de imagen.
39. Forefront. Repositorio de chatbots de código abierto, que
incluye Mistral, Phi 2 y Mixtral 8x7B.
449
40. together.ai. Plataforma en la nube para crear y ejecutar IA
generativa. Incluye LLaMA 2, Alpaca 7B, Vicuna, Qwen 1,5 y
Mistral.
IAs generativas de imagen
41. DALL-E 2 y 3. IA creada por OpenAI, usa una arquitectura
de red neuronal generativa (GAN). DALL·E 3 se lanzó en
octubre de 2023.
42. AI Gallery. IA generadora de arte, que utiliza algoritmos y
técnicas de aprendizaje automático.
43. Artbreeder. IA que usa las redes generativas adversarias.
Artbreeder utiliza modelos BigGAN y StyleGAN.
450
44. Artflow. Artflow AI usa tecnologías como el aprendizaje
profundo y la visión por computadora, la plataforma también
utiliza una red neuronal generativa (GAN) para crear
imágenes y videos a partir de descripciones textuales.
45. Vispunk. IA generadora de imágenes y videos. No se
encuentra información sobre le modelo y tecnologías usadas.
46. Tome. Plataforma IA con diversas herramienta, como la
generación de imágenes y presentaciones.
47. BlueWillow. BlueWillow convierte un prompt en
logotipos, gráficos o imágenes fotorrealistas.
48. Stable Diffusion on line. Modelo de difusión latente de
texto a imagen capaz de generar imágenes fotorrealistas con
cualquier entrada de texto.
49. ArtHub. Permite explorar una amplia colección de arte,
diseños e imágenes de colaboración colectiva generadas por
los mejores artistas y diseñadores de la comunidad.
50. Dream por Wombo. Permite crear imágenes y pagos a
través de una wallet.
51. NightCafe. Usa modelos Stable Diffusion. Permite crear y
entrenar nuevos modelos.
52. PicFinder. Generación infinita de imágenes. El modelo
predeterminado que se usa es AbsoluteReality, que favorece
un estilo realista o fotográfico.
53. Genmo. Permite generar imágenes, videos, animaciones y
editar imágenes existentes.
451
54. Adobe Firefly 1 y 2. Producto de Adobe Creative Cloud,
es un modelo generativo de aprendizaje automático que se
utiliza en el campo del diseño, entrenada con datos de Adobe
Stock, obras de licencia libre y contenidos de dominio público.
55. Leonardo Ai. Alternativa gratuita a midjourney, tiene gran
variedad de modelos, entre ellos Leonardo Diffusion. Permite
crear nuestro modelo.
56. Lexica.art. Usa los modelos Stable Diffusion 1.5 y Lexica
aperture 3.5.
57. Fusion Brain AI. Una nueva IA de generación de arte, que
puede crear y editar imágenes desde un texto.
58. Ideogram. Presenta 18 estilos y la posibilidad de incluir
textos en la imagen.
59. Recraft AI. Utiliza un modelo de aprendizaje automático
para generar imágenes de alta calidad.
60. Midjourney. Midjourney lanza periódicamente nuevas
versiones de modelos para mejorar la eficiencia, la coherencia
y la calidad. El último modelo Midjourney tiene más
conocimiento sobre criaturas, lugares, objetos y más.
61. Craiyon. Craiyon, anteriormente conocido como DALL·E
mini, es el nuevo chico del bloque tecnológico y el mejor
generador de arte con IA (¡en palabras de nuestra
comunidad!).
62. Playground AI. Herramienta en línea gratuita de creación
de imágenes de inteligencia artificial diseñada para crear arte,
publicaciones en redes sociales, presentaciones, carteles,
videos, logotipos y más.
452
63. Clipdrop. Clipdrop es una colección de vanguardia de
herramientas impulsadas por inteligencia artificial diseñadas
para diversas tareas de edición de imágenes.
64. CGDream. CGDream es una herramienta gratuita de
generación de imágenes con IA que le permite crear
contenido para diversos casos de uso, como arte, redes
sociales, publicidad y muchos más.
65. mage.space. Difusión estable gratuita, rápida e ilimitada.
Genera todo lo que puedas imaginar.
66. DreamStudio. Interfaz fácil de usar para crear imágenes
utilizando la última versión del modelo de generación de
imágenes Stable Diffusion.
67. neural.love. "Crea una obra maestra impresionante
lanzando 2 o 3 palabras a la IA. Ya no es ciencia ficción.
Nuestra nueva herramienta puede hacerlo de forma gratuita."
68. you.imagine. Generador de imágenes AI de You.com.
69. Magic Studio. Crea imágenes a partir de texto mediante
IA en cuestión de segundos, prueba múltiples variaciones al
instante, 20 imágenes gratis.
70. Hotpot. Hotpot te ayuda a crear imágenes, gráficos y
escritura increíbles con IA.
71. Imagine. Crea impresionantes obras maestras sin
esfuerzo y explora las infinitas posibilidades del arte generado
por IA.
72. OpenArt. Crea fácilmente obras de arte generadas por IA
en menos de 15 segundos con AI Art Generator - AI OpenArt.
453
73. lumenor. Iluminando tu imaginación con imágenes de
belleza incomparable generadas por IA.
74. Shakker. Herramienta avanzada de generación de IA de
imagen a imagen que permite a los usuarios transformar
imágenes existentes en nuevas creaciones visuales.
75. Scenario. Scenario permite a los estudios construir
modelos de IA ilimitados que se alinean con la dirección visual
de sus juegos.
IAs generativas de audio y video
454
76. Gen-2. Un sistema de IA multimodal que puede generar
vídeos novedosos con texto, imágenes o videoclips. Se ejecuta
en la plataforma Runway.
77. Pika AI. Una poderosa plataforma de texto a video que
puede dar rienda suelta a tu creatividad simplemente
escribiendo.
78. Chromox. IA que transforma texto en videos. Chromox
utiliza la última tecnología de inteligencia artificial para
producir videos de alta calidad en varios estilos, como ciencia
ficción y pintura al óleo.
79. Neural frames. IA que genera videos a partir de un texto.
80. Haiper. Herramienta para generar vídeos con inteligencia
artificial en HD de forma gratuita.
81. Stable Video. Stable Video Diffusion está diseñado para
servir a una amplia gama de aplicaciones de vídeo en campos
como medios, entretenimiento, educación y marketing.
82. VideoGen. VideoGen es un creador de videos con
inteligencia artificial que hace que la creación de contenido
sea más rápida y sencilla.
83. LensGo. Plataforma basada en web que se especializa en
la generación de imágenes y videos impulsados por
inteligencia artificial (IA).
84. Magic Hour. Plataforma de creación de videos con IA todo
en uno que agiliza la producción de contenido desde la idea
hasta la producción.
455
85. Neiro AI. IA que permite generar audio a partir de un
texto y, además, lo hace usando una variedad de avatares.
86. Eleven Labs. Diseña voces sintéticas completamente
nuevas desde cero. Clona tu propia voz o una voz para la
que tengas permiso y derechos.
87. Free text to speech. Este motor utiliza redes neuronales
profundas para hacer que las voces de las computadoras
sean casi indistinguibles de las grabaciones de las personas.
88. TTSMaker. TTSMaker puede generar las voces de varios
personajes, que a menudo se utilizan en el doblaje de vídeos
de Youtube y TikTok.
89. Beatoven.ai. Crea música libre de derechos, Beatoven.ai
usa técnicas avanzadas de generación de música mediante
IA para componer música única basada en el estado de
ánimo que se adapte a cada parte de su vídeo o podcast.
90. Stable Audio. IA de audio que se basa exclusivamente en
música proporcionada por AudioSparx, una biblioteca de
música con más de un millón pistas.
91. Boomy. Libera tu creatividad, haz música con Boomy AI,
crea canciones originales en segundos, incluso si nunca
antes has hecho música.
92. Musicfy. Cambia tu voz con IA. Usa IA para crear música
con tu voz u otras voces y haz música como nunca antes.
93. Musicfy. Cambia tu voz con IA. Usa IA para crear música
con tu voz u otras voces y haz música como nunca antes.
94. Suno. Suno está construyendo un futuro en el que
cualquiera puede hacer buena música. Ya seas un cantante
de ducha o un artista de listas, rompemos barreras entre tú
y la canción que sueñas hacer. No se necesita ningún
instrumento, sólo imaginación. De tu mente a la música.
456
IAs generativas de presentaciones
95. Colossyan Creator. Creador de videos impulsado por IA
que cuenta con actores reales y ofrece un proceso de
producción de videos inteligente.
96. Virbo AI. Wondershare Virbo es un generador de videos.
Simplemente ingrese texto y elija un avatar de IA y podrá
generar contenido de video profesional.
97. Canva - Magic Studio. Usa la inteligencia artificial para
generar videos, animaciones, borrado de fondos en imágenes,
generación de imágenes a partir de textos, generación de
presentaciones y otras herramientas.
457
98. Fliki AI. Permite crear un video a partir de un guion, el cual
Fliki divide en varias escenas, a las que le agrega imágenes o
clips de video.
99. InVideo AI. IA que genera el guion, crea escenas y agrega
voces en varios idiomas.
100. Slidesgo AI. Creador de presentaciones con IA.
101. Prezo AI. Creador de presentaciones con IA. Diseñado
para lucir excelente en la web y en dispositivos móviles.
102. Gamma AI. Creador de presentaciones con IA.
Posibilidad de generar las presentaciones directamente en
español.
103. Design AI. Ofrece herramientas como texto a imagen,
carruseles de diapositivas, generador de memes, miniaturas
para videos y presentaciones.
104. lumen5. Lumen5 es una plataforma de creación de
videos diseñada para que las marcas y las empresas
produzcan contenido social para generar la participación de la
audiencia en línea.
105. Tome. Más atractivo que las diapositivas tradicionales.
También es más rápido y fácil de construir.
106. Bith AI. BithAI es un editor de vídeo gratuito todo en uno
para llevar tu contenido al siguiente nivel.
107. decktopus. Inspira a Deckto con un título. Intenta
escribir el tema de su presentación como: "Historia de Roma".
108. Katalist. Crea historias visuales con personajes y
escenas consistentes utilizando IA generativa.
458
109. presentations AI. "Nuestra plataforma impulsada por IA
transforma sus ideas en cautivadoras diapositivas de
PowerPoint en segundos".
110. WEPIK. Las presentaciones ya no tienen por qué ser una
tarea pesada, con esta tecnología, podrás crear diapositivas
impresionantes con un par de clics.
111. AI Carousel Generator. Transforme su contenido en
carruseles, atraiga a su audiencia con diseños de
desplazamiento que muestran todo lo que tiene para ofrecer
utilizando nuestra tecnología.
Aplicaciones especiales con IA
459
112. Cody. Asistente empresarial con tecnología de
inteligencia artificial.
113. My AskAI. Deje que su equipo dedique menos tiempo a
la atención al cliente y más tiempo al éxito del cliente, con un
chatbot de IA capacitado en todos los documentos de ayuda
de su empresa.
114. My AskAI. Deje que su equipo dedique menos tiempo a
la atención al cliente y más tiempo al éxito del cliente, con un
chatbot de IA capacitado en todos los documentos de ayuda
de su empresa.
115. GPTBots. GPTBots es una poderosa plataforma sin
código para crear aplicaciones de negocios impulsadas por IA.
116. HuggingChat. El objetivo de esta aplicación es mostrar
que ahora es posible crear una alternativa de código abierto a
ChatGPT.
117. botpress. Crea agentes de IA que realmente funcionen.
Crea tu propio bot LLM impulsado por ChatGPT.
118. AI Comic Factory. Crea cómics impresionantes sin
necesidad de habilidades de dibujo con nuestro generador de
cómics AI Comic Factory . Haz realidad tus sueños de cómics
con la creatividad de la IA.
119. SeaArt. Generador de arte AI gratuito y herramientas AI
rápidas.
120. AKOOL. Experimente imágenes con calidad de estudio
utilizando las herramientas visuales de IA de Akool. Mejore su
contenido para lograr el máximo impacto.
460
121. PIXLR. La suite para todas sus necesidades creativas de
edición de fotografías y diseños directamente en su
navegador web, en su teléfono inteligente o en su escritorio,
todo gratis. ¡El único límite es tu imaginación!
122. jenni. El editor de texto con tecnología de inteligencia
artificial de Jenni te ayuda a escribir, editar y citar con
confianza. Ahorre horas en su próximo trabajo.
123. Easy-Peasy AI. Tu solución integral para la creación de
contenido, elaboración de imágenes, generación de audio y
transcripción de IA.
124. storynest.ai. Libera la magia de los cuentos de IA! Crea
historias, involucra personajes e inspira la imaginación.
125. AI Story Generator. Creador de historias en línea
gratuito. Utilizando IA de vanguardia, específicamente
modelos de lenguaje de gran tamaño, busca redefinir la forma
en que se crean las historias hoy en día brindándole acceso a
tecnología de IA generativa.
126. StoryBird.ai. Plataforma líder de escritura con IA. Le
ayudamos a escribir, ilustrar, editar y publicar historias
impulsadas por IA generativa.
127. Once Upon a Bot. Crea cuentos infantiles con IA.
Cuéntale a OnceUponABot la idea de tu historia y el robot
escribirá una historia desde cero utilizando IA.
128. Copy AI. Es una de las herramientas más populares para
la escritura que utiliza modelos AI. El software de redacción
AI es ahora lo suficientemente inteligente como para saber la
diferencia entre eslóganes, publicidad copy, y titulares
pegadizos.
461
129. novelist AI. Aprovecha el poder de la inteligencia
artificial para crear novelas distintivas, no ficción reveladora y
libros interactivos inmersivos. Selecciona entre una variedad
de géneros y estilos para crear su propia experiencia de
lectura personalizada.
130. Books by AI. Proporciona una descripción del libro que
desea leer y la IA lo escribirá por ti. Elige el idioma que desees
y escribe la descripción del libro en ese idioma. Cuanto más
descriptivo seas, mejor será el resultado. Disfruta tu lectura.
131. SDXL Turbo. Ingresa tu mensaje y espera un segundo,
deja que SDXL Turbo te sorprenda.
132. SDXL Turbo. Ingresa tu mensaje y espera un segundo,
deja que SDXL Turbo te sorprenda.
133. KREA. Creación, mejora y arte 3D de imágenes en
tiempo real con IA. ¡Sin esfuerzo y gratis!
134. FREEPIK Pikaso. Pikaso es una herramienta de
generación de imágenes basado en inteligencia artificial en
tiempo real que permite a los usuarios crear imágenes
combinando bocetos simples a partir de descripciones.
135. CapCut. Aplicación avanzada de edición de video
construida sobre una base de inteligencia artificial.
Desarrollado por ByteDance.
136. PixAI.Art. Desbloquea la creatividad con el generador de
arte AI de PixAI. Genera arte de IA de anime de alta calidad
sin esfuerzo. Explora herramientas de IA, plantillas de
personajes y más.
462
Bibliografía
[1] Jeongki Lim. (18 de julio de 2023). Inteligencia artificial generativa:
qué es, qué no es y qué puede significar para Naciones Unidas.
Naciones Unidas.
[2] Turing, A.M. (1950). Computing Machinery and Intelligence.
Mind, New Series, 9(236): 433-460, consultado en JStor.
[3] Chandramauli, Dave (2022). AI and Machine Learning In Our Every
Day Life. Space-O Canada.
[4] Maini, V.; Sabri, S. (2017). Machine Learning for Humans. Every
thing computer science.
[5] Bandi, A.; Pydi Venkata, S.; Yudu, E. (2023). The Power of
Generative AI: A Review of Requirements, Models, Input–
Output Formats, Evaluation Metrics, and Challenges. Future
Internet, 15(8): 260, doi: 10.3390/fi15080260.
[6] Tong, X.; Liu, X.; Tan, X; et al. (2021). Generative Models for De
Novo Drug Design. Journal of Medicinal Chemistry, 64(19):
14011-14027, doi: 10.1021/acs.jmedchem.1c00927.
[7] Goodfellow, I.; Pouget-Abadie, J.; Mirza, M.; et al. (2020).
Generative adversarial networks. Communications of the ACM,
63(11): 139–144, doi: 10.1145/3422622.
[8] Pan, Z.; Yu, W.; Yi, X.; et al. (2019). Recent progress on generative
adversarial networks (GANs): A survey. IEEE Access 2019, 7:
36322–36333, doi: 10.1109/ACCESS.2019.2905015.
[9] Zhang, C.; Zhang, C.; Zheng, S.; et al. (2023). A Survey on Audio
Diffusion Models: Text To Speech Synthesis and Enhancement in
Generative AI. arXiv 2023, arXiv:2303.13336.
463
[10] Zhang, C.; Zhang, C.; Zhang, M.; Kweon, I.S. (2023). Text-to-
image Diffusion Models in Generative AI: A Survey. arXiv 2023,
arXiv:2303.07909.
[11] Zhang, M.; Qamar, M.; Kang, T.; et al. (2020). A survey on graph
diffusion models: Generative ai in science for molecule, protein
and material. arXiv 2023, arXiv:2304.01565.
[12] Jiang, Z.; Xu, F.F; Araki, J.; Neubig, G. (2020). How Can We Know
What Language Models Know?. Transactions of the Association for
Computational Linguistics 2020, 8: 423–438, doi:
10.1162/tacl_a_00324 .
[13] Zhao, W.X.; Zhou, K.; Li, J.; et al. (2023). A survey of large
language models. arXiv 2023, arXiv:2303.18223.
[14] Vaswani, A.; Shazeer, N.; Parmar, N.; et al. (2017). Attention Is
All You Need. Disponible en https://proceedings.neurips.cc/.
[15] Porcelli, Adriana (2020). La inteligencia artificial y la robótica:
sus dilemas sociales, éticos y jurídicos. Derecho Global. Estudios
sobre Derecho y Justicia, Vol. 6, núm. 16, pp. 49–105.
[16] Chignoli, Matthew; Kim, Donghyun; Stanger-Jones, Elijah; Kim,
Sangbae (2021). The MIT Humanoid Robot: Design, Motion
Planning, and Control For Acrobatic Behaviors. IEEE-RAS 20th
International Conference on Humanoid Robots (Humanoids), pp. 1-
8, doi: 10.1109/HUMANOIDS47582.2021.9555782.
[17] AtiGA (2017). Oportunidades Industria 4.0 en Galicia. Documento
del estado del arte de la automatización y la robótica, Xunta de
Galicia (AtiGA).
464
[18] Comisión de Industria, Investigación y Energía (2006).
Oportunidades Industria 4.0 en Galicia. Informe sobre
nanociencias y nanotecnologías: un plan de acción para Europa
2005-2009 (Parlamento Europeo).
[19] Portales, Elena (2017). Nanorobots en terapia dirigida. Trabajo de
investigación, Universidad Complutense de Madrid, España.
[20] Radford, A.; Narasimhan, K.; Salimans, T.; Sutskever, I. (2018).
Improving Language Understanding by Generative Pre-Training.
OpenAI.
[21] Xu, Shicheng; Pang, liang; Yu, Mo; et al. (2024). Unsupervised
Information Refinement Training of Large Language Models for
Retrieval-Augmented Generation. arXiv, disponible en
arXiv:2402.18150.
[22] Rivera, Juan Guillermo (2019). Elementos de una Gobernanza del
Riesgo. Fondo Editorial Pascual Bravo.
[23] Arthur Team. (2023). Hallucination Experiment. Arthur.
[24] Erard, Gabriel. (2023). Meta anuncia LLaMA 2, su nueva IA de
código abierto, y se lanza a la yugular de GPT-4. Hipertextual.
[25] Erard, Gabriel. (2023). Meta anuncia LLaMA 2, su nueva IA de
código abierto, y se lanza a la yugular de GPT-4. Hipertextual.
[26] Jiang, A.Q.; Sablayrolles, A.; Roux, A. (2024). Mixtral of Experts.
arXiv,doi: 10.48550/arXiv.2401.04088.
[27] Li, Chunyuan; Gan, Zhe; Yang, Zhengyuan; et al. (2023).
Multimodal Foundation Models: From Specialists to General-
Purpose Assistants. Computer Science, arXiv:2309.10020,
disponible en https://arxiv.org/abs/2309.10020.
465
[28] Liu, Haotian; Li, Chunyuan; Li, Yugen; Lee, Yong. (2023).
mproved Baselines with Visual Instruction Tuning. Computer
Science, arXiv:310.03744, disponible en
https://arxiv.org/abs/2310.03744.
[29] Domínguez, Francisca. (2023). Meta lanza Llama 2, la siguiente
generación de su modelo de IA de código abierto.
COMPUTERWORLD.
[30] Borrás, Héctor. (2023). Project Magi de Google: ¿qué es este nuevo
competidor de ChatGPT?. Cyberclick.
[31] Zhihan, Lv. (2023). Generative artificial intelligence in the
metaverse era. Cognitive Robotics, 3, 208-2017,
https://doi.org/10.1016/j.cogr.2023.06.001.
[32] Feuerriege, S.; Hartmann, J.; Janiesch, C. et al. (2023).
Generative AI. ResearchGate, disponible en researchgate.net.
[33] Portakal, Ertugrul. (2023). Las mejores herramientas de AI para
chatear con tus PDF y documentos. text.cortex, disponible en
https://textcortex.com/.
[34] HAI. (2023). Generative AI: Perspectives from Stanford HAI.
Human Centered Artificial Intelligence (Stanford University),
disponible en Stanford University.
[35] Fierro, Gioele. (2023). Así es como Perplexity AI está
revolucionando los motores de búsqueda. Digixem 360,
disponible en Innovación Digital 360.
[36] Brisco, Ross; Hay, Laura; Dhami, Sam. (2023). Exploring the role
of Text-to-Image AI in concept generation. International
Conference on Engineering Design (ICED23), Bordeaux, France, 24-
28 July 2023, https://doi.org/10.1017/pds.2023.184.
466
[37] Zhang, Chenshuang; Zhang, Chaoning ; Zhang, Mengchun;
Kweon, In So . (2023). Text-to-image Diffusion Models in
Generative AI: A Survey. Journal of LaT eX , 14(8),
https://doi.org/10.48550/arXiv.2303.07909.
[38] de la Torre, Jordi. (2023). Autocodificadores Variacionales (VAE)
- Fundamentos teóricos y aplicaciones. arXiv, disponible en
https://arxiv.org/.
[39] Dobilas, Saúl. (2023). VAE: codificadores automáticos
variacionales: cómo emplear redes neuronales para generar
nuevas imágenes. Towards Data Science, disponible en
https://towardsdatascience.com/.
[40] Rashad, Fathy. (2020). Generative Modeling with Variational
Auto Encoder (VAE). ViTrox-Publication, disponible en
https://medium.com/.
[41] Anwar, Aqeel. (2021). Difference between AutoEncoder (AE)
and Variational AutoEncoder (VAE). Towards Data Science,
disponible en https://towardsdatascience.com/.
[42] Saharia, Chitwan; Chan, William; Saxena, Saurabh; et. al. (2022).
Photorealistic Text-to-Image Diffusion Models with Deep
Language Understanding. arXiv:2205.11487,
https://doi.org/10.48550/arXiv.2205.11487.
[43] Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diedirik; et. al.
(2022). Score-Based generative modeling throough stochastic
differential equations. arXiv:2011.13456,
https://arxiv.org/pdf/2011.13456.pdf.
467
[44] Daiqing, Li; Kamko, Aleks; Akhgari, Ehsan; et. al. (2024).
Playground v2.5: Three Insights towards Enhancing Aesthetic
Quality in Text-to-Image Generation. arXiv:2402.17245,
https://arxiv.org/abs/2402.17245.
[45] Liwanag, Angélica. (2023). Cómo usar Meta-AI Make-A-Video:
generar video con texto. ANYMP4, disponible en ANYMP4.
[46] Elias, BJibu; Raja, Anjali. (2023). Impact, Opportunity and
Challenges of Generative AI. The National AI Portal of India
(INDIAai), disponible en INDIAai.
[47] Blattmann, Andreas; Dockhorn, Tim; Kulal, Sumith; etr al.
(2023). Stable Video Diffusion: Scaling Latent Video Diffusion
Models to Large Datasets. arXiv:2311.15127,
https://arxiv.org/abs/2311.15127.
[48] Cervera, Alfonso. (2023). Guía completa para usar Colossyan
Video Creator. wondershare. , disponible en wondershare.
[49] Paredes, Luis Miguel. (2023). Crea presentaciones usando la IA
con estas 3 herramientas. digitaltrends. , disponible en
https://es.digitaltrends.com/.
[50] Gómez, Natalia. (2023). Gamma: la IA que promete crear
presentaciones impactantes. Periódico El Tiempo. , disponible en
https://www.eltiempo.com/.
[51] Wang, Qixun; Bai, Xu; Wang, Haofan; et. al. (2024). InstantID :
Zero-shot Identity-Preserving Generation in Seconds.
arXiv:2401.07519, https://arxiv.org/abs/2401.07519.
468
[52] Li, Zhen; Cao, Mingdeng; Wang, Xintao; et. al. (2023).
PhotoMaker: Customizing Realistic Human Photos via Stacked
ID Embedding. arXiv:2312.04461, https://huggingface.co/.
[53] Sauer, Axel; Lorenz, Dominik; Blattmann, Andreas; Rombach,
Robin. (2023). Adversarial Diffusion Distillation.
arXiv:2311.17042, https://arxiv.org/abs/2311.17042.
469