Digital repository


 

Maestria en Ciencias de Datos

Permanent URI for this collection

Browse

Latest publications

Now showing 1 - 13 of 13
  • ItemOpen Access
    Modelo de clasificación para la identificación de software malicioso ofuscado en sistemas operativos windows
    (Quevedo:UTEQ, 2024) Ponce Velez , Iván Darío; Zhuma Mera, Emilio Rodrigo
    La ofuscación es una técnica en la informática que dificulta la comprensión del código fuente para proteger la propiedad intelectual y evitar la ingeniería inversa; en el ámbito del presente estudio, se utiliza para complicar la detección de malware. Sin embargo, para abordar este problema se construyó un modelo basado en técnicas de aprendizaje automático para identificar amenazas que utilizan técnicas de ofuscación. Por lo consiguiente, en el desarrollo del presente estudio se utilizó la metodología “Descubrimiento de conocimiento en bases de datos” (KDD, del inglés Knowledge Discovery in Databases), que inició con la preparación del conjunto de datos, donde se aplicó la selección de atributos con base en la correlación. Mediante una revisión de la literatura, se seleccionaron y aplicaron técnicas supervisadas en la fase de minería de datos. Los algoritmos Random Forest, Decision Tree, SVM, KNN y Gradient Boosting se utilizaron para identificar correctamente los grupos principales de software malicioso, demostrando así el rendimiento del modelo en la identificación de malware. Por último, el principal aporte de esta investigación es un modelo basado en el algoritmo Random Forest que presentó una precisión del 99% en la clasificación de malware ofuscado, mejorando las capacidades de identificar amenazas cibernéticas en este ámbito.
  • ItemOpen Access
    Inteligencia de negocios aplicada a la gestión de ventas en una empresa de consumo masivo como herramienta de ayuda para la toma de decisiones
    (Quevedo:UTEQ, 2024) Ortiz Terán , Ingrid Lisbeth; Díaz Macías , Efraín Evaristo
    Esta investigación se centra en la optimización de la gestión de ventas mediante la aplicación de modelos de análisis de datos en el contexto empresarial. Una buena gestión de ventas es esencial en el ámbito empresarial, ya que abarca la planificación, coordinación y supervisión de las actividades de venta. Sin embargo, la capacidad para cumplir con las expectativas de los clientes enfrenta varios desafíos. Entre estos se encuentran la dificultad para anticipar las necesidades futuras de los clientes, la identificación de oportunidades para mejorar las ventas y la segmentación adecuada de clientes para detectar aquellos que podrían estar en riesgo de deserción. La investigación aborda estos problemas a través de varios enfoques. En primer lugar, se emplean modelos de series temporales para prever la demanda de productos. En segundo lugar, se utilizan algoritmos de asociación para identificar oportunidades de ventas cruzadas. Finalmente, se realiza una segmentación de clientes para detectar aquellos en riesgo de deserción, facilitando la implementación de medidas preventivas. Para el pronóstico de la demanda de productos, se aplicaron diversos modelos de series temporales: Prophet, Suavizado Exponencial, SARIMA, Random Forest y XGBoost. Se utilizó la métrica MAPE para evaluar la precisión de las predicciones. Aunque XGBoost mostró la mejor precisión promedio, Random Forest resultó ser el modelo más consistente y frecuentemente seleccionado como el mejor ajuste para la mayoría de los productos. Además, el análisis de reglas de asociación mediante el algoritmo FP-Growth demostró ser más eficiente que Apriori, destacando su capacidad para generar recomendaciones personalizadas y aumentar los ingresos por cliente. La segmentación de clientes utilizando técnicas de agrupación jerárquica reveló patrones significativos que facilitan la identificación de clientes en riesgo de abandono y la implementación de estrategias de retención más efectivas. Así, este trabajo contribuye con conocimiento al sector empresarial en Ecuador, al ofrecer herramientas y estrategias que pueden proporcionar una ventaja competitiva en un entorno dinámico y competitivo.
  • ItemOpen Access
    Aprendizaje profundo para la detección de armas de fuego en sistemas de videovigilancia
    (Quevedo: UTEQ, 2024) Briones Montalvo , Cristhian Danilo; Zambrano Vega , Cristian Gabriel
    Ecuador enfrenta un desafío creciente de inseguridad, potenciado por el narcotráfico y la proliferación de armas de fuego, lo que exige soluciones inteligentes que combinen estrategias de seguridad pública y tecnológica. En este contexto, los sistemas de videovigilancia basados en circuitos cerrados de televisión (CCTV) se han convertido en herramientas cruciales para el monitoreo y registro de eventos en tiempo real. Sin embargo, para combatir eficazmente la amenaza de las armas de fuego, se requieren sistemas precisos de detección en tiempo real. Este proyecto aborda una necesidad urgente al explorar técnicas de aprendizaje profundo y visión por computadora para desarrollar un sistema de reconocimiento de armas en sistemas de CCTV, con el objetivo de proponer una herramienta informática que pueda contribuir a la lucha contra la proliferación de armas de fuego y la violencia en la sociedad ecuatoriana. Se analizaron diversas herramientas para la construcción de modelos de visión artificial: YOLOv8, Teacheable Machine (EfficientNet) y la metodología Haar-Cascade. Se evaluaron los rendimientos de los modelos de detección generados empleando varias métricas de precisión. Entre los modelos evaluados, se encontró que el modelo basado en YOLOv8 demostró ser el más eficaz en términos de precisión y rendimiento.
  • ItemOpen Access
    Optimización de inventario en la gestión de la cadena de suministro en empresas de consumo masivo
    (Quevedo: UTEQ, 2024) Álvarez Carpio , Gilberto Germán; Díaz Macías , Efraín Evaristo
    En el contexto de la economía global, la gestión de inventarios y la cadena de suministro son esenciales para la competitividad y rentabilidad de las empresas, especialmente en el sector de productos de consumo masivo. Este trabajo se enfoca en la optimización del inventario mediante el uso de algoritmos de aprendizaje automático, buscando equilibrar los niveles de stock con la demanda y minimizar los costos de almacenamiento. El objetivo principal de la investigación es determinar los niveles óptimos de inventario aplicando algoritmos predictivos para minimizar los costos asociados al almacenamiento y asegurar la disponibilidad adecuada de productos. Los objetivos específicos incluyen realizar un análisis de segmentación para identificar los productos más significativos, diseñar un modelo predictivo para la demanda de productos y estimar los niveles mínimos y máximos de inventario. Los resultados obtenidos a través de métodos como K-means y Agglomerative Clustering revelaron una segmentación robusta de los productos en cuatro clusters, lo que facilitó una gestión de inventario más precisa. Además, el análisis de Pareto ayudó a identificar los productos que generan la mayor parte de las ventas y, por ende, requieren una gestión más cuidadosa. En el análisis predictivo, se aplicaron modelos ARIMA, Prophet, Exponential Smoothing y Random Forest. Aunque ARIMA mostró un buen desempeño en uno de los productos, el modelo Exponential Smoothing se destacó como el más eficaz en general, proporcionando las predicciones más precisas para la mayoría de los productos analizados. Finalmente, la predicción precisa de los niveles mínimos y máximos de inventario mediante Random Forest demostró ser la más efectiva, mejorando la eficiencia operativa y contribuyendo a la rentabilidad de la empresa. Esta investigación no solo aporta al conocimiento teórico en la gestión de inventarios, sino que también proporciona herramientas prácticas para que las empresas de consumo masivo optimicen sus operaciones en un mercado dinámico y competitivo
  • ItemOpen Access
    Análisis del comportamiento de los residuos sólidos no peligrosos en los cantones de la provincia de Los Ríos: Un enfoque de Ciencia de Datos
    (Quevedo: UTEQ, 2024) Alarcón Bermúdez, María Mercedes; Erazo Moreta, Orlando
    La gestión eficiente de los residuos sólidos es un desafío global que afecta la calidad de vida de las comunidades y del medio ambiente. El manejo inadecuado de los residuos sólidos ha generado preocupaciones debido al constante crecimiento de la población y la provincia de Los Ríos no se encuentra exenta de esta problemática. La Ciencia de Datos se ha hecho presente en diferentes áreas de trabajo, incluyendo la ambiental. Por ello, este proyecto tiene como objetivo principal analizar el comportamiento de los residuos, aplicando técnicas de Ciencia de Datos. Para identificar las principales variables influyentes en la generación y manejo de residuos, se realizaron análisis de Chi-Cuadrado y ANOVA, asegurando la independencia de las variables seleccionadas. Posteriormente, para agrupar los cantones según características similares, se aplicaron técnicas de clustering como K-means, DBSCAN y clustering jerárquico, donde se utilizó el Análisis de Componentes Principales (PCA) para reducir la dimensionalidad de los datos. En los resultados se identificaron 16 variables influyentes relacionadas con la generación y forma de eliminación de los residuos sólidos no peligrosos en los hogares. Al aplicar las técnicas de clustering, se identificaron cuatro grupos con características similares en eliminación y manejo de residuos. Las estrategias identificadas en cada cluster revelaron que ciertos cantones participan en voluntariado ambiental y que, en su mayoría, los residuos son depositados con los demás residuos del hogar. Estos resultados demuestran cómo la Ciencia de Datos puede contribuir en el beneficio ambiental.
  • ItemOpen Access
    Pronóstico del rendimiento de cultivo de maíz forrajero basado en variables agronómicas en la ciudad de Quevedo
    (Quevedo: UTEQ, 2024) Villarroel Molina, Ricardo Rafael; Zambrano Vega, Cristian
    Este proyecto de investigación se centró en la construcción de modelos predictivos para el rendimiento del maíz forrajero en Quevedo utilizando técnicas de aprendizaje automático supervisado. Se analizaron variables agronómicas como altura de la planta, diámetro del tallo, inserción de mazorca, variedad de semilla y distancia de siembra, destacando que mayores distancias entre plantas favorecen un aumento en el diámetro del tallo, correlacionándose positivamente con las variables de rendimiento estudiadas (peso total, peso de hojas, peso de tallo y peso de mazorcas). Se entrenaron y optimizaron modelos independientes para cada variable de rendimiento mediante el ajuste de hiperparámetros para minimizar el RMSE con los algoritmos de Linear Regression (LR), Random Forest (RF), Support Vector Machine (SVM), Multi-layer Perceptron (MLP), Deep Neural Network (DNN), Gradient Boosting Tree (GBT) y XGBoost (XGB). Se evaluó el desempeño de los modelos mediante las pruebas estadísticas de significancia de Friedman y la prueba post-hoc de Nemenyi, centradas en las métricas de RMSE y R². Los modelos construidos por el algoritmo de RF obtuvieron los mejores valores de RMSE y de R².
  • ItemOpen Access
    Modelo predictivo de riesgos laborales en el gobierno autónomo descentralizado de Pichincha
    (Quevedo:UTEQ, 2024) Giraldo Muñoz, Jocelyne Natasha; Samaniego Mena, Eduardo Amable
    La seguridad laboral se rige como una preocupación en el Gobierno Autónomo Descentralizado de Pichincha por los riesgos laborales debido al impacto negativo, por la falta de cultura de seguridad y salud en el trabajo. La Ciencia de Datos puede ser útil para abordar este problema, ya que brinda a los investigadores herramientas avanzadas y técnicas analíticas para estudiar conjuntos de datos pequeños como grandes. A pesar de esta preocupación por los accidentes, hasta ahora se han realizado pocos análisis para identificar tendencias o patrones específicos. Por lo tanto, este proyecto se enfoca en analizar una base de datos que contiene información sobre accidentes ocurridos en el GAD de Pichincha durante el período 2015-2023 con el objetivo principal de analizar los accidentes. Para lograr esto, se emplearon algoritmos de aprendizaje automático y técnicas de Ciencia de Datos para identificar patrones y tendencias en los accidentes laborales. Se llevó a cabo una categorización detallada de los datos con el fin de comprender mejor el comportamiento variable. Además, se desarrolló un modelo predictivo utilizando un enfoque basado en regresión lineal que muestra una disminución progresiva en la cantidad total de accidentes registrados. Asimismo, tras realizar un análisis predictivo para el año 2023, se observa una alta concordancia entre los resultados predichos y reales, lo cual respalda la precisión del modelo utilizado.
  • ItemOpen Access
    Clasificación automática de coberturas del suelo con imágenes para el control del uso de área terrestre en agricultura
    (Quevedo:UTEQ, 2024) Muñoz Pisco, Jeanny Xavier; Tubay Vergara , José Luis
    La agricultura desempeña un papel fundamental en la seguridad alimentaria global, pero su gestión sostenible se enfrenta a desafíos cada vez mayores debido al crecimiento demográfico y al cambio climático. La clasificación automática de coberturas del suelo a partir de imágenes satelitales y aéreas se ha convertido en una herramienta esencial para el control del uso de la tierra en la agricultura. Este proyecto de investigación se centra en entrenar un modelo de clasificación de coberturas del suelo a partir de imágenes. Estas imágenes muestran diferentes tipos de coberturas, como plantaciones de cacao, caco y otras. El modelo se entrenó utilizando Redes Neuronales Convolucionales (CNN). Finalmente, se diseñó una interfaz web donde se pueden cargar imágenes para que el modelo las clasifique automáticamente. El conjunto original consistió de imágenes TIFF capturadas por drones, las cuales fueron procesadas para crear un conjunto de imágenes de entrenamiento en formato PNG, cada una representando un área de 2500 metros cuadrados. En total, se utilizaron 5,809 imágenes de entrenamiento distribuidas en las siguientes clases: 1,254 imágenes de banano, 1,535 imágenes de cacao, 1,321 imágenes de pastizal, 589 imágenes de vegetación secundaria y 1,110 imágenes de vías de acceso. Estas imágenes fueron utilizadas para entrenar un modelo de clasificación utilizando una CNN. El conjunto de datos fue dividido en un 80% para entrenamiento y un 20% para validación utilizando la técnica de división aleatoria. El modelo entrenado fue capaz de identificar la cobertura de suelo en una imagen con una precisión del 96.56%.
  • ItemOpen Access
    Inteligencia de negocios aplicada al uso de recursos en la producción de acero
    (Quevedo:UTEQ, 2024) Tigselema Egre, Suanny Gabriela; Zhuma Mera, Emilio Rodrigo
    La industria siderúrgica en Ecuador se enfrenta a desafíos significativos respecto al consumo de recursos e interrupciones de producción no planificadas. El consumo incontrolado de recursos aumenta los costos operativos y el desgaste de equipos, lo que puede resultar en interrupciones de producción y pérdidas económicas. Por ello, el presente estudio se centra en una de empresa siderúrgica ecuatoriana. La empresa busca mejorar la sostenibilidad y reducir su impacto ambiental, lo que requiere una gestión eficiente de recursos. Para gestionar los recursos de manera eficiente es necesaria la toma de decisiones informadas. En el presente proyecto se utilizaron soluciones de inteligencia de negocios que combinadas con el análisis de datos permitieron identificar las causas más comunes de las interrupciones en la producción, las tendencias relacionadas al consumo de recursos y a la emisión de dióxido de carbono (CO2). El proyecto aporta conocimiento sobre las técnicas de análisis de datos aplicables a la industria siderúrgica, especialmente en términos de gestión de recursos. En particular, proporciona a la empresa siderúrgica información clave para la toma de decisiones estratégicas, que permitan la creación de planes para la mitigación de interrupciones en la producción. Este conocimiento también puede ser valioso para otras empresas del sector que busquen optimizar sus procesos y recursos.
  • ItemOpen Access
    Detección de patrones académicos en curso de nivelación con deserción en la Universidad Técnica Estatal de Quevedo basado en los factores socioeconómicos
    (Quevedo: UTEQ, 2024) Almeida Murillo, Jean Carlos; Samaniego Mena, Eduardo
    Actualmente las universidades de Ecuador enfrentan grandes desafíos debido a la deserción estudiantil, por lo cual es apremiante tomar medidas para identificar los factores que inciden en este problema. Para lograr los objetivos, se realizó un análisis descriptivo y exploratorio de un conjunto de datos obtenido del departamento de Sistema de Gestión Académico de la Universidad Técnica Estatal de Quevedo. A través este proyecto, se propone abordar el problema mediante la implementación de algoritmos de Minería de Datos con el objetivo de descubrir patrones que ocasionan la deserción estudiantil. Se utilizó la metodología de descubrimiento de conocimiento en base de datos (KDD), la cual consiste en fases de selección, preprocesamiento, transformación, Minería de Datos y evaluación de los datos. Para la preparación y depuración del conjunto de datos se usó RStudio y Weka para aplicar los algoritmos de J48, DecisiónStump, RandomTree, RandomForest, HoeffdingTree, LMT y RepTree. Para elegir el algoritmo óptimo para el estudio se evaluaron cuantitativamente cada uno de ellos mediante la precisión. En los resultados obtenidos, se destacó que el algoritmo de Random Tree tuvo mejor resultado en los análisis, seguido del del Random Forest, este algoritmo permitió identificar los patrones asociados directamente con la deserción estudiantil.
  • ItemOpen Access
    Modelo predictivo de las tendencias de delitos en el Ecuador
    (Quevedo: UTEQ, 2024) Vera Alarcón , María José; Erazo Moreta, Orlando
    Durante años, en Ecuador se han observado variaciones significativas en las tasas de delincuencia, las cuales han tenido un impacto en el progreso económico y social del país. Estos actos delictivos ponen en peligro la seguridad y la serenidad de todos los habitantes. La Ciencia de Datos puede ser una herramienta valiosa para abordar esta problemática, al proporcionar a los investigadores metodologías analíticas para el análisis de grandes conjuntos de datos. A pesar de que la preocupación por la criminalidad es generalizada en Ecuador, hasta el momento ha habido escasos análisis destinados a identificar tendencias o patrones relacionados con este tema. Por ello, este proyecto analiza una base de datos del portal de datos abiertos del Ecuador, que contiene información sobre las denuncias realizadas en Ecuador, con los delitos que las motivaron durante el período 2016-2023. Se emplearon algoritmos de aprendizaje automático y técnicas de Ciencia de Datos para detectar pautas y tendencias delictivas. Previamente, se llevó a cabo un análisis exploratorio de los datos con el fin de comprender el comportamiento de las variables. Se desarrolló un modelo predictivo utilizando random forest. Los resultados revelaron una disminución en la incidencia delictiva reportada oficialmente desde 2017 hasta 2024. Al comparar los delitos ocurridos en 2023 con la predicción para ese mismo año, se observa una coincidencia que sugiere que el modelo es preciso. Así, se espera que este estudio constituya un aporte en el análisis y entendimientos de las tendencias delictivas, que coadyuven a los responsables a tomar las decisiones que sean pertinentes.
  • ItemOpen Access
    Modelo de predicción de siniestros de tránsito terrestre en el Ecuador
    (Quevedo:UTEQ, 2024) Bowen Calero , Génesis Katherine; Samaniego Mena , Eduardo Amable
    Ante el alarmante aumento de siniestros viales a nivel mundial, la seguridad vial se ha convertido en un tema de gran importancia. En Ecuador, la situación no es la excepción; todos los días, surgen acontecimientos en las vías que ponen en peligro la vida de las personas llegando incluso a causar muertes. Estos siniestros generan altos costos para la salud pública, sin considerar los daños materiales y las pérdidas económicas. Este trabajo de investigación se enfoca en estimar las tendencias de los siniestros de tránsito terrestre en Ecuador con el fin de analizar sus causas y descubrir patrones ocultos. Se aplica técnicas de minería de datos y análisis estadísticos, para examinar los factores comunes que inciden en estos acontecimientos. A través de un enfoque geoespacial, el estudio segmenta y clasifica las zonas de mayor riesgo, empleando algoritmos de agrupamiento basándose en la incidencia de varios tipos de siniestros terrestres. Para el modelo de predicción se aplicó varios algoritmos, entre los cuales Forest Random que se destaca por su bajo error cuadrático. Los resultados indican una alta concentración de siniestros en ciertas provincias, especialmente durante los fines de semanas. Las motocicletas y los automóviles emergen como los más afectados debido a la falta de medidas de seguridad al conducir. Esta herramienta es un recurso valioso para las entidades encargadas, orientándolas hacia acciones enfocadas a la prevención y mitigación de siniestros con el fin de salvaguardar la seguridad vial de la población.
  • ItemOpen Access
    Patrones en incidentes de emergencia en Ecuador a través del Sistema ECU 911
    (Quevedo:UTEQ, 2024) Vergara Loor, Joselyn Aylin; Zambrano, Cristian
    Este proyecto de investigación se centra en analizar patrones de incidentes de emergencia registrados en el Sistema ECU 911 en Ecuador mediante la aplicación de reglas de asociación. Al disponer de un conjunto de datos relacionados con situaciones críticas de reporte de emergencias, como llamadas de auxilio médico, gestión de siniestros, tránsito, movilidad, seguridad ciudadana, entre otros, se ofrece una oportunidad para comprender la distribución geográfica y temporal de estos incidentes La metodología utilizada en este proyecto sigue un enfoque deductivo, que combina la exploración de los datos, seguida de la aplicación de reglas de asociación para la detección de patrones. Estos últimos han permitido identificar patrones temporales en los datos, la distribución de los incidentes se presenta a través de visualizaciones interactivas realizadas en Tableau. Los hallazgos de este estudio tienen el potencial de proporcionar información estratégica para mejorar la gestión de emergencias en Ecuador. Además, este proyecto podría contribuir al avance del campo de la ciencia de datos aplicada a la seguridad y el bienestar de la sociedad, ofreciendo un enfoque práctico y efectivo para el análisis de incidentes de emergencia en Ecuador.