Linares Rosas Sebastian
Linares Rosas Sebastian
AUTOR
ASESOR:
Resumen
El presente trabajo de investigación tiene como objetivo analizar y contrastar las actuales
armando un marco teórico que consolide los conceptos fundamentales de pronósticos, machine
learning y diagnóstico de procesos. Con esta base, se presentarán los puntos principales de
Supply Chain, incluyendo métodos y resultados obtenidos. Entre estos, destacan las
Tabla de Contenido
Resumen ................................................................................................................................................ i
Índice de Tablas ....................................................................................................................................iii
Índice de Figuras ...................................................................................................................................iii
Marco Teórico ....................................................................................................................................... 1
Pronósticos ........................................................................................................................................ 1
Fundamentos de Machine Learning .................................................................................................. 4
Diagnóstico de Procesos.................................................................................................................... 7
Contenido de la investigación ............................................................................................................. 10
1. A systematic review of the research trends of machine learning in supply chain management . 10
2. A neural network solution for forecasting labor demand of drop-in peer tutoring centers with
long planning horizons .................................................................................................................... 11
3. Prediction of air travel demand using a hybrid artificial neural network (ANN) with Bat and
Firefly algorithms: a case study ....................................................................................................... 14
4. Urban cold-chain logistics demand predicting model based on improved neural network model
........................................................................................................................................................ 15
5. Supply–Demand Prediction for Agile Manufacturing with Deep Neural Network....................... 16
6. Supply Chain Demand Forecasting; A Comparison of Machine Learning Techniques and
Traditional Methods ........................................................................................................................ 18
7. An Improved Demand Forecasting Model Using Deep Learning Approach and Proposed Decision
Integration Strategy for Supply Chain ............................................................................................. 19
8. Forecasting of sales by using fusion of Machine Learning techniques ........................................ 21
9. Analysis on Machine Learning Algorithms and Neural Networks for Demand Forecasting of Anti-
Aircraft Missile Spare Parts ............................................................................................................. 22
10. Analysis of book sales prediction at Amazon marketplace in India: a machine learning approach
........................................................................................................................................................ 23
Discusión............................................................................................................................................. 25
Conclusiones ....................................................................................................................................... 28
Bibliografía .......................................................................................................................................... 30
iii
Índice de Tablas
Índice de Figuras
Marco Teórico
industrial” (Skilton y Hovsepian, 2018, p. 9-15). Como lo describe el fundador del Foro
Económico Mundial, esta transformación se está llevando a cabo de forma disruptiva en todo
consumidores como al sector empresarial (Schwab, 2016). Uno de los campos de investigación
que ha sido favorecido con lo anterior mencionado es la inteligencia artificial. Este tema ha
sido tratado desde hace más de tres décadas, con John Hopfield como uno de los pioneros,
quien en 1982 publicó un artículo sobre las propiedades de las redes neuronales artificiales y
su capacidad para generalizar patrones (Hopfield, 1982). Sin embargo, la creciente oferta de
de recursos computacionales, son los factores que han permitido que esta tecnología se vuelva
relevante y brinde herramientas efectivas para cumplir con tareas que involucren predicción en
base a datos (Gupta, et al., 2017, p. 1). En la presente investigación se analizarán los casos de
predictivos
Pronósticos
ingresos. Por lo tanto, un incorrecto método de pronóstico podría perjudicar las operaciones de
diversas áreas de la empresa, por lo que, de ser así, deberá identificarse el problema a tiempo
Por otro lado, Chase (2018) comenta que existen diferentes enfoques a tomar en cuenta
dependiendo del tipo de la finalidad del pronóstico que se requiere utilizar. Este autor define
dos categorías de pronósticos: estratégicos y tácticos. Los primeros son de ayuda para
determinar la demanda agregada a lo largo del año y para realizar estimaciones a largo plazo,
que se usan en actividades del día a día, como la gestión de inventarios, la compra de
suministros y la planeación de producción; para todas estas se necesitan valores a corto plazo
(2018, p. 445). Por lo tanto, se debe establecer claramente los objetivos del pronóstico que se
Asimismo, dependiendo del tipo de productos que maneje la empresa a analizar, se observarán
distintos patrones de demanda en los resultados históricos. Krajewski et al. (2018) incluye los
demasiado y fluctúa en torno a la media. Para este comportamiento, se pueden utilizar métodos
como el promedio móvil simple, que toma el promedio de la demanda de los últimos n periodos,
o, si es que se le quiere dar más peso a ciertos periodos, se puede utilizar el periodo móvil
cual se caracteriza por presentar un claro comportamiento creciente o decreciente a lo largo del
tiempo. Por lo tanto, un método de regresión lineal se podría adecuar bien para estimar la
estacional, lo cual implica que existe un patrón que se repite a lo largo de distintos periodos de
tiempo; en el ejemplo, se manifiesta a lo largo de los años. Para este caso, se puede usar el
método estacional multiplicativo, que toma valores históricos que capturen el comportamiento
4
estacional y lo reflejan por medio de factores que serán aplicados a cada estación según
Ahora se explicarán los conceptos que serán útiles para entender la aplicación de estos
libro Deep Learning de Ian Goodfellow, Yoshua Bengio y Aaron Courville (2016). El objetivo
de los algoritmos de Machine Learning es encontrar una función que tome como entrada un
grupo de variables y proporcione el valor que se desee estimar. Esta función puede ser de varios
tipos; para el caso de pronósticos, se trata de una regresión, ya que el resultado (la demanda)
será un número real, a diferencia de una tarea de clasificación, donde se trata de asignar los
datos a una categoría representada por un número entero. Para determinar la función que realice
la tarea planteada, el modelo se basará en observaciones antiguas, en las cuales el dato que se
requiere estimar es conocido. Por ejemplo, si se tienen los datos de la demanda de los últimos
3 años, estos servirán para entrenar al modelo y conseguir la función que logre predicciones
Entre los modelos existentes, las redes neuronales han ganado popularidad por su efectividad
y capacidad de personalización. Como explica Nielsen (2015) en su libro Neural Networks and
Deep Learning, la estructura básica sobre la cual funcionan las redes neuronales es el
Como se aprecia en la Figura 2, el perceptrón toma tres valores de entrada y devuelve uno de
salida. A cada variable de entrada se le asigna un peso w, los cuales serán utilizados para
calcular el output mediante la siguiente fórmula: x 1w1 + x2w2 + x3w3. Para obtener un modelo
más complejo, se repetirá esta estructura a lo largo de la red, calculando los outputs de la forma
Cada arreglo vertical conforma una capa de la red, donde las capas entre los inputs y los outputs
se llaman capas ocultas. El número de capas ocultas, así como la cantidad de neuronas dentro
de cada una constituye la arquitectura de la red y deberá ser establecida por medio de
evaluación. Sin embargo, como explica Goodfellow et al. (2016), una estructura basada
únicamente en modelos lineales, como el del ejemplo, implica una limitación significativa, por
6
lo cual será necesario introducir funciones no lineares para representar adecuadamente las
interacciones entre capas. A estas funciones se les llama funciones de activación y serán
aplicadas a las salidas de las capas ocultas, y, en algunos casos, en el output final también. La
función de activación más utilizada es ReLU (Rectified Linear Unit) y tiene la siguiente forma:
Una vez definida la arquitectura, se entrenará la red de forma que se obtengan los pesos w
óptimos y se minimice el error entre las estimaciones y los valores reales. En la actualidad se
pueden llegar a utilizar miles de capas en los modelos de redes neuronales, a lo cual se le llama
Deep Learning, o aprendizaje profundo, debido a la gran cantidad de capas ocultas y parámetros
disponibles para modificar. Ahora que se han explicado los métodos disponibles para el cálculo
problema de pronósticos.
7
Diagnóstico de Procesos
Con respecto a los métodos cualitativos, Kaoru Ishikawa (1976) presenta una opción en su
Guía para el Control de Calidad: el diagrama causa-efecto, también conocido como espina de
Ishikawa. Originalmente, esta herramienta fue concebida para apoyar a determinar los factores
que generan dispersión en la calidad de procesos de manufactura; sin embargo, también puede
ser aplicada al diagnóstico de procesos de forma más general. Se empieza por elegir cuál es la
coloca al lado derecho del diagrama, acompañada de la rama principal, llamada así pues será
en torno a este problema que se realizará el análisis. Ahora se deben establecer los factores que,
a nivel general, estén vinculados al inconveniente en cuestión, y estos se colocan en ramas que
añadiendo elementos causales a las ramas de forma iterativa y llegando hasta el nivel de detalle
que sea necesario, hasta que se reflejen por completo las causas vinculadas al problema
principal. La siguiente figura muestra un ejemplo del resultado final del ejercicio descrito:
El método demanda que la elaboración del diagrama se realice con todos los miembros del
equipo involucrado en el proceso, por medio de una lluvia de ideas, de forma que el resultado
sea completo. Del mismo modo, una vez obtenido el esquema, se procederá a analizarlo y a
decidir cuáles son las causas más probables al problema que se quiera solucionar, y se elaborará
un plan de acción orientado a lidiar con los factores identificados (Ishikawa, 1976).
Cuando tanto las causas elegidas como el problema en estudio tienen carácter cuantitativo, una
alternativa es aplicar un análisis de regresión para comprobar la relación lineal entre ambos
factores. Por lo tanto, se parte desde el resultado del diagnóstico cualitativo y se define al factor
ejemplo:
El gráfico de la izquierda muestra una correlación lineal más fuerte que el de la derecha, donde
los puntos son más dispersos, asimismo, esta correlación es positiva al presentar un
Donde:
● n = número de muestras
El valor del coeficiente puede variar entre -1 y 1, donde los valores negativos indican que la
concluir que no hay correlación lineal entre ambas variables; no obstante, podría existir otro
tipo de relación entre estas. De todas formas, este indicador servirá de apoyo junto a los
Contenido de la investigación
En este artículo se aborda una investigación en la cual se revisan diversos trabajos académicos
investigación en mención, los autores buscaron en múltiples bases de datos (Emerald Insight,
IEEE Xplore, Scopus, Science Direct y Springer) por publicaciones con “machine learning” y
“supply chain management” como palabras clave, para finalmente obtener una muestra de 123
comparación con los métodos tradicionales, como por ejemplo la posibilidad de capturar
predictivo; sin embargo, se especifica que tan solo el 15% de empresas utiliza ML para tratar
De las 123 publicaciones revisadas en el artículo en cuestión, más del 40% se concentra en
China y Estados Unidos, lo cual está relacionado con el alto nivel de industrialización de estos
países; en contraste, solo una de estas corresponde a un país latinoamericano (Chile). Por otro
lado, se utilizan diversos métodos para obtener la data necesaria para entrenar los modelos de
popular, presente en el 50% de los artículos, y seguida por el uso de datos históricos, con el
33%. Como se puede observar en la Figura 7, los algoritmos más empleados fueron las redes
11
neuronales (54%) y las support vector machines (21%), donde las primeras destacan por su
flexibilidad y adaptabilidad a los datos; mientras que las segundas se caracterizan por una gran
2. A neural network solution for forecasting labor demand of drop-in peer tutoring
centers with long planning horizons, Rick Brattin, Randall S. Sexton, Wenqiang Yin y
En este artículo se presenta una solución de redes neuronales para pronosticar la demanda en
éxito de este tipo de servicios depende de que se cuente con la suficiente cantidad de tutores
para orientar a los estudiantes interesados, mientras que un exceso de oferta resultaría en un
gasto excesivo. Asimismo, se especifica que la planificación debe realizarse a largo plazo dado
que, por el nivel de especialización requerido para el personal, hallar un reemplazo en un corto
plazo es inviable. Con respecto a la base de datos disponible para el entrenamiento, se utilizó
información histórica extraída del sistema de reserva del centro de tutoría de una universidad
con 24,000 estudiantes, tomando datos desde el 2010 hasta el 2018. Con esto, se obtuvieron
más de 72,000 registros con información como curso, fecha, hora de entrada y hora de salida.
medios cuadráticos. Se plantearon dos modelos lineares para tomar como base, un promedio
móvil tomando datos de cada 5 semanas para el último año, y una regresión lineal. Por otro
lado, se elaboraron cuatro redes neuronales con distintos variables de input para cada una. La
primera red toma únicamente las variables base, las mismas utilizadas para la regresión lineal;
en la segunda se añade el promedio móvil como una variable adicional; la tercera red incorpora
los resultados de la regresión lineal como otro input y; la cuarta red introduce los resultados
utilizó el algoritmo de backpropagation para hallar los parámetros que definirían a la red, sino
que se empleó un enfoque de algoritmos genéticos, que se conoce como Neural network
parámetros como los pesos de la red, sino que también encuentra la cantidad óptima de nodos
por capa, basándose en procesos de evolución y selección natural, por medio de múltiples
que se determina el valor óptimo una vez que el nodo añadido ya no mejore el desempeño de
esta. Por otro lado, para los pesos se generan soluciones aleatorias de forma iterativa y se
generaciones estas estén presentes. Estas soluciones son la base de cada generación pues estas
son creadas por medio de la combinación de las soluciones anteriores, por lo cual en cada
iteración estas presentarán pesos cuyo error sea menor. En la Figura 8 se muestra el flujo que
Finalmente, los resultados indicaron que los cuatro modelos que utilizaron redes neuronales
tuvieron menor porcentaje de error que los modelos base, reduciéndolo desde 1% hasta 10%,
logrando así un mejor ajuste a la demanda y una mayor capacidad predictiva. De estos, la red
14
neuronal con mejores resultados fue la segunda, que combina las variables base con los
3. Prediction of air travel demand using a hybrid artificial neural network (ANN) with
Bat and Firefly algorithms: a case study, Ali Mostafaeipour, Alireza Goli y Mojtaba
Qolipour (2018)
El uso de algoritmos inspirados en la naturaleza no es algo poco común, por lo que también se
aerolínea iraní. En este artículo se presentan dos algoritmos meta heurísticos: Firefly y Bat, y
se compara la efectividad de ambos al ser aplicados para determinar los mejores pesos dentro
de una red neuronal. Ambos tienen como fundamento la búsqueda aleatoria y buscan aumentar
estimación; los métodos tradicionales suelen “atorarse” en puntos de silla que significan
mínimos locales, por lo cual su desempeño puede no ser óptimo. Al comparar los resultados de
una regresión lineal, una red neuronal estándar, una híbrida con el algoritmo Bat y una híbrida
Tabla 1
Resumen de resultados al comparar ANNs y regresión
Nota. Tomado de Prediction of air travel demand using a hybrid artificial neural network (ANN) with
Bat and Firefly algorithms: a case study, Ali Mostafaeipour, Alireza Goli y Mojtaba Qolipour (2018)
para los modelos que utilizaron los algoritmos mencionados; mientras que el error, determinado
por los indicadores MSE y MAE, es mucho menor. Además, se obtiene que el algoritmo Firefly
15
obtiene los mejores resultados de los cuatro modelos mostrados, lo cual corrobora su
importante pues este tipo de alimento es perecible y se puede incurrir en pérdidas si es que se
planifican inadecuadamente los recursos necesarios para manejar una cold chain. El artículo se
varianza, tomando como variables finales aquellas que presenten mayor contribución. En el
caso estudiado solo se utilizan la mitad de las variables originales, que aportan más del 98% de
la varianza de los datos disponibles. Los resultados obtenidos son los siguientes:
Las Figura 9 muestran que las predicciones realizadas por el modelo que utilizó PCA fueron
más cercanas a la demanda real en todos los años evaluados. Asimismo, en la Figura 10 se
puede apreciar que el tiempo de ejecución del modelo regular es mayor, donde este último
tardó más del doble que la red con PCA. Estas mejoras se deben a que, al utilizar un menor
número de variables, se disminuyen los cálculos requeridos y se aumenta la eficiencia; por otro
lado, dado que no se están incluyendo las variables menos significativas, se reducen efectos
5. Supply–Demand Prediction for Agile Manufacturing with Deep Neural Network, Rong
basado en una red neuronal simple, pero que utiliza múltiples tipos de dato para lograr reducir
2019). Por ejemplo, información como el código de almacén y la fecha son combinados para
17
crear una variable espacio temporal, que exprese relaciones de cercanía en ambos aspectos.
Asimismo, se habilita un bloque de posibles factores externos que podrían afectar la predicción
deseada, acá se podrá incluir información climática, datos del mercado y eventos recientes.
Finalmente, los resultados indican una mejoría con respecto a los modelos basados en series de
predicciones más precisas que un algoritmo de redes neuronales más complicado, como LSTM
(Long Short Term Memory Network), concluyendo la efectividad del procesamiento de datos
Figura 11. Diagrama de flujo de la arquitectura de una red neuronal que utiliza Feature Engineering
Tomado de Supply–Demand Prediction for Agile Manufacturing with Deep Neural Network, 2019.
18
carros iraní, se obtuvieron resultados positivos al utilizar redes neuronales. En este caso, el
patrón del caso en estudio es de tipo estacional con tendencia, por lo cual se requerirá una
solución que capture tendencias no lineales. En el estudio se presentan dos soluciones basadas
en machine learning: Support Vector Machine y una red neuronal. En la primera propuesta, se
debe elegir una función de kernel, que está basada en productos de vectores, que se adecúe
mejor para el caso, entre las cuales está la función linear, logarítmica, radial, sigmoidal, etc.
Este paso es fundamental para obtener resultados fiables y que el modelo pueda adoptar el
patrón necesario. En el caso de la red neuronal, se optó por una solución que contaba con
únicamente una capa oculta; sin embargo, a pesar de su simplicidad, esta solución es capaz de
recoger los patrones no lineales sin la necesidad de establecer explícitamente una función,
Para comparar los modelos, se empleó el MAPE, que representa el error porcentual medio entre
cada propuesta:
Tabla 2
Resumen de resultados al comparar SVM, ANN y diversos modelos clásicos
Nota. Tomado de Supply Chain Demand Forecasting; A Comparison of Machine Learning Techniques
and Traditional Methods, 2009.
19
learning tienen los mejores resultados; no obstante, al evaluar con información nueva (testing
data set), la SVM pasa a tener el mayor error, lo cual indica que se falló al generalizar para data
nueva. Cabe resaltar que los resultados obtenidos en el testing data set son más relevantes para
decidir si un algoritmo es mejor que otro, ya que estos reflejan cómo se comportaría el modelo
con datos nuevos para este, lo cual es la situación a la que se debe enfrentar un modelo al
ponerlo en producción. Finalmente, para ambos data sets, el mejor modelo fue la red neuronal.
Proposed Decision Integration Strategy for Supply Chain, Zeynep Hilal Kilimci; A Okay
En una publicación reciente, se propone una alternativa novedosa para combinar los resultados
y hay muchas formas de determinar el resultado final de la predicción. Uno es hallar los errores
de cada modelo en un periodo determinado y, para calcular la predicción del periodo siguiente,
se utiliza únicamente el valor de aquel modelo con el mejor error, por lo que se irán alternando
los algoritmos utilizados conforme avance la serie de tiempo. La metodología que se presenta
en el artículo implica la ponderación de las predicciones arrojadas por cada algoritmo, de forma
que se realice de forma “democrática”. Para hallar los pesos correspondientes, se aplica un
periodo, pero, en vez de tomar el valor del mejor modelo directamente, se determinan pesos en
Para el caso en cuestión se eligieron once estimadores base sobre los cuales se implementaría
el ensamble, entre los cuales se encuentran nueve modelos de series de tiempo (promedio
modelo de Deep Learning (red neuronal). Por otro lado, debido al alto volumen de datos de la
base disponible (875 millones de registros y 155 variables), resulta poco eficiente el
entrenamiento del modelo de redes neuronales, por lo cual es necesario aplicar reducción de
dimensiones (PCA) para disminuir el número de variables y clustering para agrupar los
productos en categorías, con el objetivo de no entrenar un modelo por cada producto, sino que
Figura 12. Diagrama de flujo de una arquitectura que combina Deep Learning, SVM y series de
tiempo
Tomado de An Improved Demand Forecasting Model Using Deep Learning Approach and Proposed
Decision Integration Strategy for Supply Chain, 2019.
21
Finalmente, se plantearon los escenarios S1, S2 y SD para comparar sus respectivos resultados,
escenarios, tanto S2 como SD presentan menor error que S1, corroborando la efectividad de la
estrategia de ensamble propuesta; asimismo, SD tiene mejor desempeño que S2, con lo que se
verifica la capacidad predictiva de las redes neuronales para capturar patrones irregulares como
los de demanda.
Yogesh Korkey, Prachi Shahz, Sandeep Udmalex, Vijay Sambhe y Sunil Bhirudk (2017)
En este artículo también se utiliza la combinación de diversos modelos para lograr mejores
alternativas, entre las cuales se encuentran modelos individuales como ARIMA, redes
un patrón lineal y un patrón no lineal (el residuo); y una descomposición aplicando STL, un
y el residuo. Tanto el enfoque híbrido como la descomposición con STL combinan diversos
modelos y los integran por medio de la suma de estos. Para lograr esto, se prueban diversos
modelos para cada componente; en el caso del híbrido, se toma ARIMA como el algoritmo
principal para determinar el patrón lineal, y se prueba con distintos modelos para hallar la
diferencia entre la predicción de ARIMA y los valores reales. En cuanto a STL, SNaive
presenta menor error al predecir el componente estacional de las ventas, ARIMA obtuvo los
22
mejores resultados para el componente de tendencia y XGBoost fue el mejor modelo para
Tabla 3
Resumen de resultados al comparar combinaciones de ARIMA, ARNN, XGBoost y SVM
Nota. Tomado de Forecasting of sales by using fusion of Machine Learning techniques, 2017.
Se observa que, de los modelos individuales, la red neuronal obtiene los mejores resultados
debido a su capacidad para determinar patrones complejos; sin embargo, al combinar los
modelos se obtiene mejor desempeño. En todos los casos, el enfoque híbrido reduce el error de
Aun así, la mejor integración de modelos viene dada por la descomposición STL, en donde se
Forecasting of Anti-Aircraft Missile Spare Parts, Nikita Pawar y Bhavana Tiple (2019)
misiles antiaéreos. Para este caso se cuenta con registros de 10,000 misiles correspondientes a
de diversos modelos para comparar su capacidad predictiva, pero también se aplica Feature
Engineering, donde se generan nuevas variables que mejoren el desempeño de dichos modelos.
Uno de los modelos elegidos es XGBoost, que es de por sí un tipo de ensamble homogéneo,
logran muy buenos resultados. A diferencia de la propuesta del artículo anterior, este tipo de
ensamble solo considera modelos del mismo tipo. En la Tabla 4 se presenta el resumen obtenido
Tabla 4
Resumen de resultados al comparar XGBoost, MLP y diversos modelos de machine learning
Nota. Tomado de Analysis on Machine Learning Algorithms and Neural Networks for Demand
Forecasting of Anti-Aircraft Missile Spare Parts, 2019.
Se puede observar que, al añadir nuevas variables significativas, el rendimiento de todos los
algoritmos aumenta. Asimismo, si es que se utiliza la base sin aplicar Feature Engineering, la
red neuronal (MLP o Multi Layer Perceptron) supera al resto de modelos; sin embargo, con las
10. Analysis of book sales prediction at Amazon marketplace in India: a machine learning
El uso de algoritmos de Machine Learning puede ayudar a encontrar las variables más
influyentes para la demanda. Una publicación se enfoca en esto, al aplicar modelos de regresión
24
significancia de una variable en los diversos modelos se relaciona con la importancia de esta
para propósitos del negocio y las ventas. El nivel de importancia de una variable para el modelo
se puede determinar de muchas formas; para una regresión lineal, por ejemplo, aportarán más
al modelo aquellos factores que cuenten con un coeficiente mayor. Del mismo modo, en un
modelo de árbol de decisión, las variables más significativas son las que aparecen en más ramas
de decisión del árbol definido. Identificar estas variables es valioso para tomar decisiones
incluyeron resultados de sentiment analysis de los comentarios de la página web. Entre las
Tasa de Descuento se vuelve aún más importante, lo cual indica una interacción positiva entre
estas. Esto puede ayudar a determinar que es efectivo aplicar descuentos a artículos con alto
predictiva de estos algoritmos, estos pueden brindar intuiciones derivadas directamente de los
Discusión
propuesto, cada uno exponiendo diversos enfoques que se le podía dar a una solución que
Para empezar, la investigación 1 no presenta una solución como tal, sino que es una revisión
de literatura realizada por el autor, lo cual brinda una idea general de cómo se ha ido abordando
este tema en el ámbito académico. Asimismo, en esta se indica que el nivel de investigación de
este ámbito en Latinoamérica es muy bajo en comparación a otros países. Al realizar este
Continuando con la discusión, los artículos 2 y 3 presentan una similitud en cuanto a la forma
en la que se optimiza la red neuronal utilizada. En el 2 se presenta una optimización por medio
de algoritmos genéticos, mientras que la 3 contrasta el uso del algoritmo Firefly y el algoritmo
Bat. Estos tres métodos se caracterizan por tomar como referencia procesos de la naturaleza
para resolver un problema que suele ocurrir en Deep Learning, que es encontrar los parámetros
óptimos de la red. Estos enfoques son distintos al método tradicional, que es el algoritmo de
estos. Sin embargo, una desventaja es que la mayoría de librerías y frameworks de Deep
positivos pueden ser generalizables para un rango más amplio de problemas, a diferencia del
evaluarse si es significativa la mejora obtenida con los algoritmos no tradicionales como para
En cuanto a la publicación 4, en esta el tema central evaluado fue la utilización de PCA para
artículo 7, en el cual, debido a la gran magnitud del dataset, no era factible trabajar con las 155
variables originales. Según lo explicado en el artículo 4, aplicar PCA puede generar beneficios
en diversos aspectos, como es la reducción del tiempo computacional necesario para correr los
probar diversos modelos y compararlos entre sí, lo que implica que se evalúen y ejecuten los
modelos numerosas veces. Además, estos modelos incluían redes neuronales, que requiere
mayor tiempo y recursos que otros algoritmos. Finalmente, gracias a que PCA obtiene
predictivo al utilizarlo. Por lo tanto, es recomendable hacer uso de PCA en los casos descritos
Por otro lado, en 5 y 9 también se plantean técnicas para manipular variables, pero no con el
transforman con el fin de mejorar los resultados del modelo. En el artículo 5 se plantea una
un modelo sencillo de redes neuronales que obtuvo mejores resultados que enfoques de series
de tiempo como ARIMA y redes recursivas complejas como LSTM. De forma similar, en 9 se
prueban diversos modelos antes y después de añadir nuevas variables y, en todos los casos, el
performance del modelo aumentó. Asimismo, con las nuevas variables el modelo XGBoost
tuvo menor error que la red neuronal, a pesar de que esta última es más compleja. Por lo tanto,
en algunos casos puede resultar más conveniente dedicarle mayor tiempo en la etapa de
preprocesamiento y Feature Engineering antes que utilizar un modelo complejo. Esto puede
contradecir el enfoque del resto de investigaciones, donde se prioriza el modelo como tal y no
la creación de variables que podrían tener un efecto mayor que la optimización del algoritmo.
las estimaciones; sin embargo, ambos enfoques son distintos. En 7 el ensamble se realiza
asignando pesos a las predicciones de cada ensamble, y estos pesos son proporcionales a la
utiliza el ensamble utilizando las estimaciones de uno de los algoritmos como variable
predictora para otro más robusto. En 8, en cambio, la opción que consigue los mejores
Para cada componente, se le aplica un modelo distinto y se combinan para obtener la predicción
final. En este caso, debido a que cada modelo corresponde a un elemento de la demanda, se
el ensamble puede resultar en una caja negra. Sin embargo, sería conveniente probar ambos
modelos para determinar cual se acopla mejor y evaluar si es conveniente aplicar un ensamble.
28
Conclusiones
Tras revisar las publicaciones presentadas en este documento, se pueden desarrollar las
learning, como las redes neuronales, SVM y XGBoost, suelen presentar un menor error
de predicción que los métodos tradicionales. Esto se debe a que dichos algoritmos
novedosos como Firefly, Bat y el enfoque genético resulta en una optimización del
parte de la arquitectura de este. Para esto existen diversos enfoques, como el ensamble
4. El tratamiento de datos es una técnica con la cual los modelos predictivos descritos
ha sido reducido hasta la fecha, pues se cuenta con pocas publicaciones académicas al
respecto en estos países. Esto no implica que sea poco factible aplicar los métodos
6. Si bien los modelos presentados suelen obtener resultados más precisos que los métodos
tradicionales, esto está condicionado a contar con la suficiente información que permita
en altos costos para las empresas que decidan optar por esta opción. Por lo tanto, evaluar
Bibliografía
Brattin, R., Sexton, R. S., Yin, W., Wheatley, B. (2019). A neural network solution for
forecasting labor demand of drop-in peer tutoring centers with long planning horizons.
https://doi.org/10.1007/s10639-019-09967-3
Chase, R., Jacobs, F. (2018) Operations and Supply Chain Management (15. Ed.). New York,
Chen, Y., Wu, Q., Shao, L. (2020). Urban cold-chain logistics demand predicting model based
Goodfellow, I., Bengio, Y., Courville, A. (2016) Deep learning. Cambridge, Estados Unidos:
Gupta, S., Keen, M., Shah, A., Verdier, G. (2017) Digital Revolutions in Public Finance.
http://dx.doi.org/10.5089/9781484315224.071
Gurnani, M., Korke, Y., Shah, P., Udmale, S., Sambhe, V., Bhirud, S. (2017). Forecasting of
Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective
Ishikawa, K. (1976). Guide to Quality Control. Hong Kong: Asian Productivity Organization.
31
Krajewski, L., Malhorta, M., Ritzman, L. (2018) Operations Management (11. Ed.). Pearson
Education.
Kilimci, Z. H., Akyuz, A. O., Uysal, M., Akyokus, S., Uysal, M. O., Atak Bulbul, B., Ekmis,
and proposed decision integration strategy for supply chain. Complexity. doi:
https://doi.org/10.1155/2019/9067367
Mostafaeipour, A., Goli, A., Qolipour, M. (2018). Prediction of air travel demand using a
hybrid artificial neural network (ANN) with Bat and Firefly algorithms: a case study.
https://doi.org/10.1007/s11227-018-2452-0
Ni, D., Xiao, Z., Lim, M. (2019). A systematic review of the research trends of machine
Nielsen, M. (2015). Neural networks and deep learning (Vol. 2018). San Francisco, Estados
Pawar, N., Tiple, B. (2019). Analysis on Machine Learning Algorithms and Neural Networks
doi: 10.1109/ICCES45898.2019.9002411
Schwab, K. (2016) The Fourth Industrial Revolution: what it means, how to respond.
Recuperado de https://www.weforum.org/agenda/2016/01/the-fourth-industrial-
revolution-what-it-means-and-how-to-respond/
Shahrabi, J., Mousavi, S. S., Heydar, M. (2009). Supply chain demand forecasting: A
Sharma, S., Chakraborti, S., Jha, T. (2019). Analysis of book sales prediction at Amazon
00438-3
Skilton, M., Hovsepian, F. (2018) The 4th Industrial Revolution. Cham, Suiza: Springer
Wen, R., Yan, W. (2019). Supply–Demand Prediction for Agile Manufacturing with Deep
Neural Network. Smart and Sustainable Manufacturing Systems, 3(2), 95-105. doi:
https://doi.org/10.1520/SSMS20190025