Modelo de clasificación para la identificación de software malicioso ofuscado en sistemas operativos windows
Authors
Loading...
Date
2024
Directors
Journal Title
Journal ISSN
Volume Title
Publisher
Quevedo:UTEQ
Abstract
La ofuscación es una técnica en la informática que dificulta la comprensión del código fuente para proteger la propiedad intelectual y evitar la ingeniería inversa; en el ámbito del presente estudio, se utiliza para complicar la detección de malware. Sin embargo, para abordar este problema se construyó un modelo basado en técnicas de aprendizaje automático para identificar amenazas que utilizan técnicas de ofuscación. Por lo consiguiente, en el desarrollo del presente estudio se utilizó la metodología “Descubrimiento de conocimiento en bases de datos” (KDD, del inglés Knowledge Discovery in Databases), que inició con la preparación del conjunto de datos, donde se aplicó la selección de atributos con base en la correlación. Mediante una revisión de la literatura, se seleccionaron y aplicaron técnicas supervisadas en la fase de minería de datos. Los algoritmos Random Forest, Decision Tree, SVM, KNN y Gradient Boosting se utilizaron para identificar correctamente los grupos principales de software malicioso, demostrando así el rendimiento del modelo en la identificación de malware. Por último, el principal aporte de esta investigación es un modelo basado en el algoritmo Random Forest que presentó una precisión del 99% en la clasificación de malware ofuscado, mejorando las capacidades de identificar amenazas cibernéticas en este ámbito.
Description
Obfuscation is a technique in computer science that makes it difficult to understand source code in order to protect intellectual property and prevent reverse engineering; in the scope of this study, it is used to complicate malware detection. However, to address this problem, a model based on machine learning techniques was built to identify threats that use obfuscation techniques. Therefore, in the development of this study, the “Knowledge Discovery in Databases” (KDD) methodology was used, which began with the preparation of the data set, where attribute selection based on correlation was applied. Through a literature review, supervised techniques were selected and applied in the data mining phase. The Random Forest, Decision Tree, SVM, KNN and Gradient Boosting algorithms were used to correctly identify the main groups of malicious software, thus demonstrating the performance of the model in identifying malware. Finally, the main contribution of this research is a model based on the Random Forest algorithm that presented a 99% accuracy in the classification of obfuscated malware, improving the capabilities of identifying cyber threats in this area
Keywords
Malware ofuscado, Aprendizaje automático, Ciberseguridad, Técnicas supervisadas
Citation
Ponce Velez,Iván Darío(2024).Modelo de clasificación para la identificación de software malicioso ofuscado en sistemas operativos windows.Quevedo.UTEQ.113 paginas