Digital repository
Maestría en Ciencias de Datos
Permanent URI for this community
Browse
Browsing Maestría en Ciencias de Datos by Subject "Aprendizaje automático"
Now showing 1 - 4 of 4
Results Per Page
Sort Options
Item Open Access Modelo de clasificación para la identificación de software malicioso ofuscado en sistemas operativos windows(Quevedo: UTEQ, 2024) Ponce Velez, Iván Darío; Zhuma Mera , Emilio RodrigoLa ofuscación es una técnica en la informática que dificulta la comprensión del código fuente para proteger la propiedad intelectual y evitar la ingeniería inversa; en el ámbito del presente estudio, se utiliza para complicar la detección de malware. Sin embargo, para abordar este problema se construyó un modelo basado en técnicas de aprendizaje automático para identificar amenazas que utilizan técnicas de ofuscación. Por lo consiguiente, en el desarrollo del presente estudio se utilizó la metodología “Descubrimiento de conocimiento en bases de datos” (KDD, del inglés Knowledge Discovery in Databases), que inició con la preparación del conjunto de datos, donde se aplicó la selección de atributos con base en la correlación. Mediante una revisión de la literatura, se seleccionaron y aplicaron técnicas supervisadas en la fase de minería de datos. Los algoritmos Random Forest, Decision Tree, SVM, KNN y Gradient Boosting se utilizaron para identificar correctamente los grupos principales de software malicioso, demostrando así el rendimiento del modelo en la identificación de malware. Por último, el principal aporte de esta investigación es un modelo basado en el algoritmo Random Forest que presentó una precisión del 99% en la clasificación de malware ofuscado, mejorando las capacidades de identificar amenazas cibernéticas en este ámbito.Item Open Access Modelo predictivo de ciberataques en entornos de internet de las cosas(Quevedo:UTEQ, 2024) Arias Chevez , German Nelson; Zhuma Mera , Emilio RodrigoLa Ciencia de Datos permite, en entornos de Internet de las Cosas, detectar y prevenir ciberataques utilizando el poder de las técnicas de aprendizaje automático para encontrar de forma autónoma las mejores soluciones para resolver los problemas que afrontan los dispositivos frente a los ciberataques y vulnerabilidades que poseen. El conjunto de datos CICIOT2023 contiene registros de los distintos tipos de ciberataques dirigidos a dispositivos de Internet de las Cosas. El objetivo de la presente investigación es generar un modelo predictivo aplicando técnicas de aprendizaje automático para detectar ciberataques en entornos de Internet de las Cosas utilizando el conjunto de datos de CICIOT2023, en este trabajo se destaca la importancia que tienen los modelos de predicción para proteger los entornos de Internet de las Cosas y reducir vulnerabilidades mediante el uso de técnicas de aprendizaje automático y minería de datos. Se aplican algoritmos de clasificación, regresión de aprendizaje automático y técnicas de minería de datos con conjuntos de datos de entrenamiento y pruebas, para llevar a cabo el modelado predictivo de una variedad de ciberataques. Estos ataques se categorizan en siete familias: Distributed Denial of Service (DDoS), Denial-of-Service (DoS), Reconocimiento, ataques basados en la web, Fuerza Bruta, Spoofing y Mirai. Además, se pretenda utilizar algoritmos de visualización de datos para identificar patrones que influyan en la seguridad de los protocolos frente a los ciberataques. Los resultados de la investigación muestran la importancia de un modelo predictivo para mantener la seguridad de los dispositivos de IoT frente a las actividades de los ciberdelincuentes, y de esta manera proteger y reducir vulnerabilidades en entornos de Internet de las Cosas. El proyecto de investigación desarrollado puede resultar de gran utilidad para aquellas empresas especializadas en ciberseguridad.Item Open Access Modelo predictivo de desnutrición infantil en el ecuador: distrito zona 5(Quevedo:UTEQ, 2024) Carrión González, Angélica Neomí; Erazo Moreta, Orlando RamiroEn Ecuador, la desnutrición infantil se ha convertido en un desafío en el área de salud pública, marcando el desarrollo de los niños. Esta incidencia no solo afecta en lo físico sino también en lo cognitivo, emocional y social, siendo una desventaja para el ciclo de su vida. La implementación de programas sociales y el disponer de herramientas para combatir el aumento, la evaluación de factores y la predicción de la desnutrición infantil han sido un reto para las autoridades del país. Ante esta situación, este trabajo persigue disponer de un modelo que ayude en la predicción de la desnutrición infantil, centrándose en una zona concreta de Ecuador, la zona 5 (Santa Elena, Guayas, Los Ríos, Galápagos). Para ello, se empleó una base de datos otorgada por el Ministerio de Salud Pública que incluye registros de pacientes infantiles de 2021 y 2022. La recolección, unificación de datos, limpieza, tratamiento de valores perdidos y normalización de variables están entre las técnicas utilizadas en el estudio. Para disponer del modelo se utilizaron algoritmos de Aprendizaje Automático como regresión logística, Random Forest, K-Nearest Neighbors, Árbol de clasificación y XGBoost. Los resultados indican que XGBoost tiene la mayor precisión en la predicción de la desnutrición infantil. Los indicadores clave como edad, peso, talla e índice de masa corporal fueron identificados a través del análisis de los datos; estos son esenciales para evaluar el estado nutricional de los niños. El modelo obtenido ha demostrado ser una herramienta útil para identificar la desnutrición temprana, lo que ayudaría en la implementación de intervenciones preventivas y terapéuticas más efectivas.Item Open Access Pronóstico del rendimiento de cultivo de maíz forrajero basado en variables agronómicas en la ciudad de Quevedo(Quevedo: UTEQ, 2024) Villarroel Molina, Ricardo Rafael; Zambrano Vega, CristianEste proyecto de investigación se centró en la construcción de modelos predictivos para el rendimiento del maíz forrajero en Quevedo utilizando técnicas de aprendizaje automático supervisado. Se analizaron variables agronómicas como altura de la planta, diámetro del tallo, inserción de mazorca, variedad de semilla y distancia de siembra, destacando que mayores distancias entre plantas favorecen un aumento en el diámetro del tallo, correlacionándose positivamente con las variables de rendimiento estudiadas (peso total, peso de hojas, peso de tallo y peso de mazorcas). Se entrenaron y optimizaron modelos independientes para cada variable de rendimiento mediante el ajuste de hiperparámetros para minimizar el RMSE con los algoritmos de Linear Regression (LR), Random Forest (RF), Support Vector Machine (SVM), Multi-layer Perceptron (MLP), Deep Neural Network (DNN), Gradient Boosting Tree (GBT) y XGBoost (XGB). Se evaluó el desempeño de los modelos mediante las pruebas estadísticas de significancia de Friedman y la prueba post-hoc de Nemenyi, centradas en las métricas de RMSE y R². Los modelos construidos por el algoritmo de RF obtuvieron los mejores valores de RMSE y de R².