Análisis de conversaciones con contexto Grooming utilizando técnicas de Machine Learning
Authors
Loading...
Date
2022
Directors
Journal Title
Journal ISSN
Volume Title
Publisher
Quevedo-Ecuador
Abstract
El presente proyecto de investigación se basa en implementar una solución informática para detectar mensajes de texto con intenciones pedófilas a través de aplicaciones de mensajería móvil. Se analiza un corpus de este tipo de conversaciones para seleccionar las características más relevantes utilizando técnicas del procesamiento del lenguaje natural y lograr un mejor desempeño en el modelo predictivo con algoritmos de clasificación supervisada de Machine Learning. Se adoptó el algoritmo de Máquinas de Vectores de Soporte como modelo de clasificación del texto, con las pruebas realizadas a este modelo se obtuvieron resultados muy prometedores con una precisión del 80% en la clasificación de estos mensajes, algunos de estos presentaban mucho ruido y errores gramaticales por lo que se veía afectada la capacidad de aprendizaje del modelo, por lo que luego de realizar un etapa de procesamiento del conjunto de datos y los ajustes necesarios se logró optimizar un poco más el modelo y llegar hasta un 84% en cuanto a precisión y exactitud, además del puntaje F1 que indica un desempeño del 86% para el modelo de clasificación construido. Finalmente, el modelo se implementa en un Bot que se agrega a un grupo de Telegram conectando con su API para el análisis de conversaciones de prueba con el fin de analizar el desempeño de la clasificación automática de los mensajes en el grupo.
Description
This research project is based on implementing a software solution to detect text messages with pedophilic intentions through mobile messaging applications. A corpus of this type of conversations is analyzed to select the most relevant features using natural language processing techniques and achieve a better performance in the predictive model with supervised Machine Learning classification algorithms. The Support Vector Machine algorithm was adopted as the text classification model, with the tests performed on this model very promising results were obtained with an accuracy of 80% in the classification of these messages, some of these had a lot of noise and grammatical errors so that the learning capacity of the model was affected, Therefore, after a processing stage of the data set and the necessary adjustments, it was possible to optimize the model a little more and reach 84% in terms of precision and accuracy, in addition to the F1 score that indicates a performance of 86% for the classification model built. Finally, the model is implemented in a Bot that is added to a Telegram group by connecting to its API for test conversation analysis in order to analyze the performance of automatic message classification in the group.
Keywords
Aprendizaje automático, Acoso sexual en línea, Mensajería móvil, Clasificación automática de texto
Citation
Romero Alvarado, Paúl André. (2022). Análisis de conversaciones con contexto Grooming utilizando técnicas de Machine Learning. Quevedo. UTEQ. 82 p.