Proyecto Interfacultad

Participación en proyecto interfacultad


EITUNCO0004317
- Modelo de un Analizador de Mensajes en Redes sociales para la detección de usuarios con actitudes peligrosas o violentas a través de
análisis de sentimientos con algoritmos de aprendizajes.

Programa: Electrónica, Informática y Comunicaciones.

Organismo evaluador: UTN.

Tipo: PID UTN sin incentivos.

Unidad Ejecutora:

FR Córdoba – Secretaría de Ciencia y Tecnología – FRC

FR San Francisco - Grupo Gabinete de Redes LAN (GARLAN)

Integrantes:

(Director) Calloni, Juan Carlos.

(Co Director) Cuevas, Juan Carlos

Scarello, Andrés; Páez, Eduardo; Mulassano, Sergio; Micaela, Banchio.

Fecha Inicio: 01/03/2016 -Fecha Finalización: 31/03/2018

Palabras Claves: Seguridad pública, Modelo, algoritmos de aprendizaje, GraphML, Nosql

Resumen Técnico:
Este proyecto incorpora un analizador para redes sociales como Twitter, en donde el ingreso a los mensajes y las lecturas son públicas. Uno de los problemas que resuelve es la seguridad; en específico actitudes sospechosas o de violencia, como violencia de género o bullying. En la temática violencia de género la idea es trabajar con algún organismo de seguridad para definir y cotejar las actitudes en mensajes que se
definan como peligrosas. En cuanto al bullying, el campo de aplicación también puede ser el Ministerio de Educación. En definitiva este
proyecto trata de brindar una herramienta que haga un análisis, extrayendo información estática en primera instancia como prototipo,
para demostrar, con métodos de aprendizaje, tanto supervisados como no supervisados y con métodos de análisis de sentimientos y minería de opiniones definiendo a través de lógica difusa qué mensaje o grupo de mensajes se aproximan a ser peligrosos. Como por ejemplo, SVM (Support Vector Machines), pertenece a un conjunto de algoritmos de aprendizaje supervisado que están propiamente relacionados con problemas de clasificación y regresión a partir de un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra.

Por otro lado, K-means, es un método de agrupamiento y pertenece a un conjunto de algoritmos de aprendizaje no supervisado que tiene como objetivo la partición de un conjunto de 'n' observaciones en 'k' grupos en el que cada observación pertenece al grupo más cercano a la media. Las redes neuronales artificiales (RNA) son una familia de modelos de aprendizaje estadísticos inspirados en las redes neuronales biológicas (el sistema nervioso central de los animales, en particular, el cerebro) y pueden ser utilizadas como algoritmos de aprendizaje supervisados y no supervisados. Con la ayuda de un experto en el dominio, se obtendrá un dataset, con el cual entrenaríamos algoritmos de aprendizaje. Entonces con una herramienta de análisis de Minería de datos, como Weka, analizaríamos qué métodos nos dan mayor certeza. Una vez realizado lo anterior, podemos sacar conclusiones, sobre qué algoritmo de aprendizaje trabajaremos; supervisado, no supervisado o varios de ellos. Él o los métodos seleccionados serán los candidatos a implementar para realizar el modelo.

Los siguientes pasos describen el proceso a realizar, para la extracción de la información, para su posterior análisis: Se utilizarán las API's de las redes sociales para obtener información, y poder realizar estudios con información real. En específico, en este trabajo se obtendrán mensajes de la red social Twitter, y dejando a futuros proyectos la implementación con otras API's de redes sociales. La información obtenida será ingresada a una base de datos NoSQL (orientada a grafos para las relaciones entre los usuarios y documentales para otra información como los mensajes de los usuarios) para analizarlo de forma local. Se utilizará este tipo de base de datos ya que el prototipo deberá funcionar en la nube. Al final para validar el modelo se construirá un aplicativo orientado a Servicio o SaaS como prototipo
utilizando una metodología científica experimental de ensayo y error para probar el prototipo y validar el modelo propuesto. Se planea
inicialmente trabajar con modelos no supervisados, y en la medida que el estado de avance del proyecto nos lo permita, se aspira a construir un nuevo modelo basado en técnicas de aprendizaje supervisado, lo cual requeriría una extensa tarea de etiquetado y validación pero que, en contrapartida, puede traer aparejados mejores resultados para el modelo. En el caso de los modelos no supervisados, trabajaremos con el algoritmo de k-means. Y en caso de contar con un adecuado material de entrenamiento, aplicaremos sobre los mismos los clasificadores basados en Regresión Logística y Redes Neuronales Artificiales. Se trabajará con modelos de la teoría de grafos para el modelado del problema y se aplicarán técnicas de recorridos, búsquedas y visualización del contenido de los mismos. De esta manera, se pretende crear una red mediante nodos y aristas que permita modelar las diferentes relaciones entre conceptos y persistirlas en un formato estandarizado, tal como el GraphML [1]. En el proyecto también se planea construir una herramienta que permita graficar dicha red para poder visualizar más fácilmente las conexiones y para que el usuario final pueda explorar la red de acuerdo a su conveniencia. En cuanto al tratamiento de la información, se evaluará y se elegirá el medio de almacenamiento más conveniente de la base de datos de Wikileaks (o subconjuntos de la misma), los cuales podrían ser persistidos mediante una base de datos relacional u otro modelo como Nosql. Por último vale aclarar que la elección de este tema, análisis de cables de Wikileaks, también se fundamenta debido a que el equipo de trabajo tiene experiencia en el área de seguridad de la información. El Idioma elegido es el inglés utilizando algoritmos de aprendizaje enfocados para determinar el modelo que mejor resuelve la clasificación. Los pasos de la investigación en principio serían: 1. Generación del dataset supervisado. 2. Implementación del algoritmo acá iteraríamos tantas veces como algoritmos queramos investigar hasta encontrar el que mejor se adapte. 3. Análisis de los resultados. Estos pasos hacen a la investigación. La creación de un prototipo que nos permita alternar entre las distintas estrategias (cada uno de los algoritmos que vamos a probar en la investigación). El proyecto busca corroborar nuestra hipótesis: Es posible determinar mediante algoritmos de aprendizaje si el contenido de un cable es de interés público para los organismos de defensa de la República Argentina. Referencias: [1] http://graphml.graphdrawing.org/.