La revolución de la IA ya es un hecho y las redes pueden dar cuenta de ello

15 de agosto de 2023

Artículo de Rami Rahim, CEO de Juniper Networks


Recuerdo el momento exacto en que me di cuenta de que la IA iba a transformarlo todo.

Cinco años atrás, cuando los fundadores de Mist Systems ―que, en ese entonces, era uno de nuestros socios de tecnología― vinieron a vernos para analizar oportunidades de negocios, nos presentaron una idea revolucionaria: una plataforma de red basada en la IA que era capaz de resolver los problemas de red de manera autónoma antes de que los usuarios los percibieran.

La idea parecía fantástica, pero, como hacía décadas que se hablaba de la IA sin que se produjeran grandes cambios, dudé un poco del potencial de Mist… hasta que lo vi en acción, claro. De hecho, nuestro propio equipo de TI ya había sido testigo de las ventajas de Mist en una implementación de prueba que habíamos llevado a cabo. Gracias a su precisión y velocidad sin precedentes, la plataforma podía diagnosticar y resolver problemas en tiempo real.

En ese momento, caí en la cuenta de la revolución que supondría la IA tanto para Juniper como para el resto del mundo.

Como muchos saben, nuestra plataforma de AIOps se convirtió a partir de entonces en uno de los pilares de la estrategia de Juniper. Mientras el resto de la industria solo se dedica a hablar, nosotros ya vamos por la séptima generación de tecnologías de IA líderes que han revolucionado la red y optimizado la experiencia de los usuarios. A modo de ejemplo, gracias a nuestras soluciones, una empresa de software internacional redujo las incidencias en un 90 %, una tienda minorista multinacional consiguió bajar en un 85 % la cantidad de clientes presenciales que recibía y un operador de red móvil logró realizar la implementación de redes para sucursales más rápida de la historia.

Sin duda, la plataforma de Mist basada en la IA ha sido un antes y un después para miles de empresas.

Pero ese es solo el comienzo.

Luego de observar las ventajas de Mist, sabíamos que solo sería cuestión de tiempo que las aplicaciones con IA se expandieran por todos lados y, con ellas, la escala de los centros de datos y modelos de IA.

Allí es donde las cosas se vuelven aún más interesantes para Juniper.

El centro de datos de IA busca consolidar esta nueva revolución Hace un tiempo, las empresas desarrolladoras de chips de silicio descubrieron que las unidades de procesamiento gráfico, o GPU, que producían para el sector de los videojuegos se ajustaban a la perfección a los procesos de aprendizaje y deducción que ejecuta la IA.

Sin embargo, una GPU sola tiene una capacidad de procesamiento de IA limitada. Los grupos de IA y AA modernos contienen cientos o incluso miles de GPU que ofrecen la enorme potencia de cómputo en paralelo que se requiere para entrenar los modelos de IA actuales.

Y, por supuesto, es la red la que vincula todas estas GPU y les permite operar como un único sistema de procesamiento de IA sumamente potente.

Las revoluciones tecnológicas anteriores, como la nube, los dispositivos móviles o los servicios de transmisión, han llevado las redes a un nuevo nivel, pero el tráfico en los centros de datos que se genera a partir de las cargas de trabajo distribuidas de aprendizaje automático es mucho más importante que el de la mayoría de las otras aplicaciones. Los requisitos de la IA para relacionar grandes conjuntos de datos y brindar soluciones para miles de millones ­―o incluso billones― de parámetros de modelo suponen una tensión sin precedentes para la red.

Para ponerlo en perspectiva, el tráfico de red que, segundo a segundo, atraviesa el grupo de GPU típico que nuestros clientes quieren implementar con máximo rendimiento equivale a todo el tráfico de internet de Estados Unidos. A su vez, para comprender el aspecto económico de los centros de datos de IA, es importante tener en cuenta que cada servidor de GPU puede costar hasta USD 400 000. Por ende, uno de los factores más importantes a la hora de diseñar un centro de datos de este tipo es la maximización del uso de las GPU y la minimización de su tiempo de inactividad.

Distribuir las cargas de trabajo entre las GPU y, luego, sincronizarlas para entrenar el modelo de IA requiere un nuevo tipo de red que pueda agilizar el plazo de finalización de trabajos, o JCT, y reducir el tiempo que espera el sistema hasta que la última GPU finaliza sus cálculos ("latencia de cola").

Por lo tanto, las redes de centros de datos optimizadas para la IA y el AA deben contar con funciones especiales en lo que concierne al control de congestiones, el equilibrio de carga, la latencia y, por encima de todo, la minimización del JCT. Estos son atributos del sistema en los que Juniper ha demostrado grandes resultados durante años. Y, dado que los tamaños del modelo y los conjuntos de datos siguen creciendo, los profesionales del AA deben incluir más GPU en sus grupos. En ese sentido, la estructura de red debe ofrecer una escalabilidad sencilla sin afectar el rendimiento ni introducir cuellos de botella en términos de comunicación.

Como ingeniero de oficio que comenzó a trabajar en Juniper desarrollando ASIC altamente especializados que impulsaron el crecimiento de internet en la década de 1990, en todos estos años he sido testigo de diferentes ciclos de innovación que han permitido que nuestro sector optimizara la escalabilidad, el rendimiento y la velocidad.

Las redes de IA representan un punto de inflexión único y nos enfrentarán durante muchos años a retos técnicos muy complejos, pero estoy convencido de que Juniper tiene la capacidad para resolverlos. Para ello, deberemos apegarnos a lo que yo denomino los tres mandamientos de las redes de centros de datos de IA:

1.  Alto rendimiento
La maximización del uso de GPU, el factor económico dominante en el entrenamiento de modelos de IA, requiere una red que optimice el JCT y minimice la latencia de cola. Para agilizar el entrenamiento de los modelos, no solo es necesario acelerar la obtención de resultados, sino también contar con un centro de datos menos costoso y con recursos de cómputo optimizados.

Juniper nunca ha dependido de ningún chip de silicio en particular, y ese compromiso les brinda a los clientes distintas opciones de interconectores de centro de datos y de nodos leaf y spine, lo que, a su vez, optimiza aspectos como la eficiencia energética y la escalabilidad. Ofrecemos una amplia cartera de sistemas basados en chips de silicio propios y externos que dan vida a las redes más grandes del mundo y, al mismo tiempo, les brindamos a los clientes la flexibilidad necesaria para que satisfagan sus necesidades y aborden sus propias limitaciones, independientemente de la etapa en la que se encuentren con respecto a la adopción de la IA.

2.  Infraestructura abierta
Si bien el rendimiento es importante y se invierte mucho en ese sentido, la rentabilidad tiene mayor peso. La rentabilidad está impulsada por la competencia y, por su parte, la competencia depende del nivel de apertura. No es la primera vez que esto sucede en nuestro sector y, si tuviera que apostar por una solución, diría que la Ethernet será nuevamente la gran vencedora. Las plataformas abiertas maximizan la innovación. Si bien las tecnologías propietarias son importantes, que un solo proveedor de tecnología supere en innovación al resto del mercado es muy inusual, y podría decirse que es prácticamente imposible que esto suceda en entornos en los que hay tanto en riesgo. Juniper apoya firmemente el estándar de Ethernet y su potente ecosistema de proveedores, incluido el nuevo Consorcio Ultra Ethernet, que reduce los costos, fomenta la innovación y, en última instancia, supera a los enfoques propietarios, como InfiniBand.

Junto con el resto del amplio ecosistema de Ethernet, Juniper sigue aportando innovación a las tecnologías de redes que agilizan la transferencia de datos, ofrecen transmisiones sin pérdida y mejoran el control de las congestiones, todos aspectos fundamentales para potenciar la revolución de la IA.

3.  Operaciones centradas en la experiencia
Las redes de centros de datos se están volviendo cada vez más complejas, y se deben agregar nuevos protocolos a la estructura para cubrir las demandas de rendimiento de las cargas de trabajo de IA. Si bien la complejidad no dará tregua, los operadores de red pueden hacerle frente con la automatización basada en la intención. Con respecto al centro de datos, Juniper adopta un enfoque multiproveedor centrado en las operaciones. Además, agregaremos extensiones para grupos de IA a Junos y a nuestra solución de automatización y gestión de estructuras de centros de datos, Apstra, que de hecho es la única plataforma multiproveedor de su clase en toda la industria. Después de todo, ¿de qué sirve la apertura si, desde el punto de vista operativo, se depende de un solo proveedor luego de la primera compra?

No cabe duda de que la IA ha llegado para quedarse.

Juniper ya ha demostrado el impacto que tiene la IA en la simplificación de la gestión de redes inalámbricas, por cable y de área amplia para mejorar drásticamente la experiencia de los usuarios finales y facilitar el trabajo de los operadores de red. Sin embargo, la presión que han impuesto en las redes los modelos de lenguaje grandes y de aprendizaje automático exigirá que sigamos innovando y resolviendo nuevos desafíos.

Y, sí, estos desafíos serán extremadamente difíciles, pero resolver los problemas más complicados del mundo siempre ha sido el motor de todas las iniciativas de Juniper. Nos mueve el objetivo de potenciar las conexiones y los cambios, independientemente de cómo se presenten, y para ello tenemos un enorme legado de alto rendimiento y una gran obsesión con las operaciones centradas en la experiencia.

Estoy convencido de que el enfoque que ha adoptado Juniper con respecto a las redes de centros de datos dará lugar a una nueva y próspera era de la IA.