La inteligencia artificial y el machine learning en seguridad informática

La inteligencia artificial y el machine learning en seguridad informática

machine learning inteligencia artificial

Aunque en los últimos dos o tres años se ha hablado mucho de estos dos conceptos, en realidad la investigación y el uso de la inteligencia artificial (AI por sus siglas en inglés) y el machine learning (ML) es anterior al mismo Internet. Estas tecnologías han tenido varios picos de interés e inversión. El primero se produjo a finales de los años 50. Pero, también produjeron un gran interés a finales de los 80, los últimos años de los 90 y, sobre todo, después de 2007.

La inteligencia artificial es un concepto muy amplio, que incluye cualquier forma de inteligencia que no sea humana y que esté relacionada con las máquinas. Durante años, la AI se ha organizado en varios campos de trabajo: pensamiento, conocimiento, aprendizaje, planificación, reconocimiento del lenguaje, percepción, interacción y la posibilidad de llevar a cabo acciones. El aprendizaje automático (ML) es solo un campo de la inteligencia artificial, que se refiere a la posibilidad de las máquinas de desarrollar algoritmos, clasificar y extraer inteligencia de grandes bases de datos, sin ser programadas previamente y específicamente para unos resultados concretos.

La inteligencia artificial y el aprendizaje automático se han usado para conseguir progresos importantes en varios ámbitos. Últimamente, debido a la gran cantidad de información que estamos generando, con tecnologías cada vez más potentes, el IoT e Internet, se ha incrementado drásticamente el uso de la AI y ML para trabajar en el big data, extraer inteligencia y emprender acciones en función de estas conclusiones.

El uso de la inteligencia artificial y el machine learning en seguridad

Con la avalancha de los ciberataques y el tsunami del malware (más de 500.000 nuevas variantes aparecen cada día), el hecho de usar la inteligencia artificial para hacer frente a estos fenómenos era una evolución natural. La automatización del malware fue probablemente el factor decisivo que forzó el empleo del aprendizaje automático en la clasificación, prevención y detección del malware, y las acciones para solucionarlo. Y la industria de la seguridad informática no ha tardado en investigar, emplear y promocionar el uso del machine learning como respuesta a los retos actuales (y posiblemente futuros).

Pero, aunque es verdad que todos los coches tienen cuatro ruedas, no se puede decir que todos son iguales. Hay mucho ruido en el mercado de la seguridad acerca del machine learning (y casi todas las marcas importantes tienen un proyecto y una solución basada en ello), pero la diversidad es grande. Esto hace que la toma de decisiones sea más difícil para los potenciales clientes. Nuestra intención es aportar un poco más de luz en este proceso: explicaremos cómo funcionan estas tecnologías, qué se puede esperar de ellas y cuáles serían los posibles criterios de diferenciación.

Para aprender, cualquier módulo de machine learning necesita dos cosas fundamentales:

Bases grandes de datos (cuanto más grandes, mayor precisión).

Tiempo para aprender y entrenarse. Esto se traduce en ciclos de investigación y desarrollo de algoritmos, tanto de representación como de interpretación de los datos.

La inteligencia artificial ha intentado imitar el modo de pensamiento humano, pero se ha encontrado con retos importantes. Por un lado, la simplificación (los humanos simplificamos la representación de los conceptos para poder extraer conclusiones aplicables), lo que conlleva el riesgo de pasar por encima de algunos aspectos importantes. Y, por otro lado, los “atajos” que usamos debido a nuestra intuición (estos atajos, con más o menos precisión, nos ayudan a ser rápidos en la toma de decisiones, sin hacer el análisis de todos los datos disponibles), con el riesgo de tomar decisiones equivocadas.

Cuando aplicamos el aprendizaje automático al mundo de la seguridad informática, estos retos toman mucha relevancia: si simplificamos se nos pueden escapar eventos de seguridad importantes o los mismos virus, y si “tomamos atajos” podemos llegar a muchas conclusiones equivocadas, como los falsos positivos.

Por esto son importantes tanto el tamaño de las bases de datos, como la “experiencia” adquirida por el ML en hacer (mejor o peor) las siguientes tareas:

– colección y normalización de los datos;

– análisis y extracción de las características comunes y de las diferencias relevantes;

– aprendizaje y auto-perfeccionamiento de los propios algoritmos;

– clasificación de los elementos analizados (ficheros, procesos, técnicas de ataque, código) en benignos y malignos.

En la actualidad, varios fabricantes (Bitdefender incluido) están proponiendo tecnologías de nueva generación bastante avanzadas y “entrenadas”. En Bitdefender nos enorgullecemos de haber anticipado esa necesidad hace más de 8 años, llegando a desarrollar una arquitectura innovadora que aprende de más de 12 mil millones de eventos al año. En este momento, usamos el machine learning a nivel del threat intelligence global (el cerebro en el cloud, que potencia nuestras soluciones) y a nivel local (aprendiendo tanto de los procesos y comportamientos legítimos de uso, como de las anomalías y excepciones).

Además, hemos implementado varios mecanismos de ajuste y corrección: a través de modelos estadísticos y probabilísticos, la predicción de tendencias y la validación de los resultados contra la misma base de datos en varios niveles de aprendizaje (lo que incrementa la precisión y reduce el nivel de falsos positivos). Algunas voces de la industria llaman este tipo de tecnología “Deep Learning” y la consideran el futuro. En el caso de Bitdefender, este proceso se sustenta en varias patentes registradas, y es algo muy similar al comportamiento humano: aprendemos de las interacciones, de los errores y de las experiencias positivas.

Los resultados conseguidos en los últimos años nos han dado muchos motivos para creer que estamos en el buen camino: WannaCry, NotPetya, BadRabbit y todo el ransomware moderno no han constituido una amenaza real para nuestros clientes; nuestro machine learning ha sido capaz de detenerlos en la fase de pre-ejecución.

Pero, a pesar del uso de la inteligencia artificial en seguridad informática, sigue habiendo vida para los “malos”. Podemos anticipar (porque, de hecho, ya se han empezado a usar) un crecimiento de técnicas de evasión especialmente diseñadas contra estas tecnologías. Hablamos de un incremento de la ofuscación del código maligno; de cambios en los packers; de un aumento de la fragmentación de los ataques; y de la intención de usar herramientas populares entre los usuarios, que tengan posibilidad de ser whitelisted (lo hemos visto ya con Bad Rabbit). También se usa más la técnica de esconder el código detrás de objetos web (en sitios populares) o de extensiones de navegador.

Somos conscientes de que el uso de las tecnologías de AI y ML no es la respuesta definitiva a los problemas. Nosotros nos hemos diferenciado por el uso de una arquitectura adaptativa y multi-nivel (o multi-capa), que pone frente a los ciberdelincuentes varios tipos de barreras, obstáculos y “señuelos” durante el ciclo de vida de un ataque, tanto en la fase de pre-ejecución (con las tecnologías predictivas y de detección correlativa y la inteligencia colectiva en la nube) como en la fase de post-ejecución (con nuestro EDR, la inspección de procesos y las tecnologías de solución). Y, aunque sabemos que contamos con una propuesta compleja y completa, que cubre todo tipo de endpoints y data centers, somos conscientes de que el éxito pasa por mantener la vigilancia y estar siempre un paso por delante de los atacantes.

En conclusión, podemos decir que la inteligencia artificial ayuda mucho, pero no es la respuesta definitiva. Tenemos que entender los fallos y preparar controles compensatorios para mitigar los riesgos.

Horatiu Bandoiu,

ISO 27001 LA

Channel Marketing Manager de Bitdefender

Logo Bitdefender

 

Comments

Comentarios desactivados