Magister CTO
Infraestructura

RoCE revoluciona la red en centros de datos de IA

Ethernet y RoCE: Claves para la Escalabilidad de Redes en Centros de Datos de IA

En la carrera por liderar el desarrollo de inteligencia artificial, no todo se reduce a las GPUs, los grandes modelos o los centros de datos de enormes dimensiones. Un elemento cada vez más crucial —pero menos visible— es la red que conecta miles de aceleradores para coordinarlos como una supermáquina. En este escenario, Ethernet está experimentando un renacimiento gracias a RoCE (RDMA over Converged Ethernet), situándose en el centro de la infraestructura moderna para IA.

El auge de RoCE en la era de la inteligencia artificial

Tradicionalmente, Ethernet ha sido la opción preferida en los centros de datos por su fiabilidad, bajo coste y omnipresencia. Sin embargo, sus limitaciones —aceptación de pérdidas y latencias variables— no encajaban con las exigencias de los clusters de IA, donde el intercambio de datos entre GPUs debe realizarse en microsegundos y con una previsibilidad casi absoluta. RoCE cambia este paradigma al permitir acceso directo a memoria remota (RDMA) sobre redes Ethernet estándar, reduciendo drásticamente la intervención de la CPU y mejorando el rendimiento de las comunicaciones internas entre aceleradores.

Empresas líderes como Google Cloud han implementado RoCE en sus máquinas de última generación (A3 Ultra y A4), alcanzando velocidades de hasta 3,2 Tbps en tráfico inter-nodo según su documentación oficial. Por su parte, Meta emplea RoCEv2 como backbone en algunas de sus mayores instalaciones de entrenamiento, gestionando clústeres de más de 24.000 GPUs con enlaces de 400 Gbps por nodo.

Comparativa: Ethernet, RoCE, InfiniBand y Ultra Ethernet

Tecnología Enfoque Ventajas principales Retos principales
Ethernet tradicional Red best-effort para tráfico general Bajo coste, interoperabilidad, amplia base instalada Latencia variable, pérdidas aceptadas, recuperación mediante TCP
RoCEv2 sobre Ethernet RDMA sobre Ethernet para baja latencia Menor sobrecarga de CPU, alto rendimiento, integración con estándares Ethernet Requiere tuning avanzado: PFC, ECN, buffers y control de congestión
InfiniBand Red especializada en HPC Latencia muy baja, soporte RDMA maduro, alta integración Menor flexibilidad y dependencia de proveedor
Ultra Ethernet Evolución específica para IA/HPC Mejor escalabilidad, multipath, transporte extremo Todavía en evolución frente a RoCE

La necesidad de redes casi sin pérdidas: El papel de PFC y ECN

El verdadero desafío técnico reside en garantizar una red prácticamente sin pérdidas para los flujos críticos de IA. Las arquitecturas convencionales de Ethernet, basadas en la retransmisión de paquetes tras pérdidas, son insuficientes cuando la coordinación de miles de GPUs depende de que los datos fluyan con interrupciones mínimas.

  • PFC (Priority Flow Control): Pausa selectivamente clases de tráfico cuando detecta congestión en una cola, evitando descartes prematuros.
  • ECN (Explicit Congestion Notification): Marca los paquetes ante congestión inminente, permitiendo al emisor reducir el ritmo antes de que se produzca una pérdida.

Implementar este procesamiento avanzado requiere un ajuste fino de switches, buffers, umbrales y una observabilidad cercana al tiempo real. Los ingenieros de red deben ir más allá de la configuración tradicional y comprender el funcionamiento interno de las librerías de comunicación de IA, las GPUs, las tarjetas de red, los drivers y los patrones de tráfico.

Ethernet frente a InfiniBand: ¿Batalla por el futuro de la IA?

InfiniBand continúa siendo una referencia en HPC (High Performance Computing) y entrenamientos de IA de máximo rendimiento, con latencias extremadamente bajas y una integración muy desarrollada en RDMA. Sin embargo, Ethernet gana terreno gracias a su presencia masiva, ecosistema multivendor y mayor flexibilidad operativa —aspectos decisivos para las grandes infraestructuras cloud y proveedores hiperescalares.

La apuesta de NVIDIA con Spectrum-X —que suma SuperNICs, telemetría avanzada y gestión dedicada del tráfico RoCE— y los desarrollos de Broadcom con Tomahawk 6 para interconexiones de hasta un millón de GPUs, ejemplifican el crecimiento acelerado de Ethernet en este ámbito.

Criterio Ethernet con RoCE InfiniBand
Ecosistema Muy amplio, multivendor, estándar de facto Especializado, integración vertical
Operación Familiar, pero requiere tuning especializado Diseñado para HPC y RDMA nativos
Coste y disponibilidad Economías de escala y mejor disponibilidad Dependencia de proveedor, disponibilidad limitada
Rendimiento Alto, si la arquitectura está bien diseñada Óptimo y latencia mínima
Encaje en IA En rápido crecimiento en cloud y hiperescala Relevante en IA/HPC extremo

Implicaciones para el diseño de centros de datos de IA

La adopción de RoCE sobre Ethernet implica reformas profundas en la arquitectura de los centros de datos de IA. Hay que repensar topologías, segmentación del tráfico, cableado de alta densidad, ópticas avanzadas (400G/800G), gestión energética, refrigeración y sistemas de telemetría capaces de detectar congestiones y anomalías al instante.

El equipo de operaciones también debe evolucionar: la red deja de ser una capa secundaria para convertirse en un componente esencial, directamente ligado al rendimiento de entrenamiento, el coste por token y la eficiencia de utilización de los recursos de GPU. Un ajuste inadecuado puede traducirse en costosas ineficiencias y cuellos de botella invisibles.

La iniciativa Ultra Ethernet subraya hasta qué punto el mercado está buscando evolucionar los límites actuales de RoCE, presionando para mejorar la escalabilidad y la capacidad de transporte extremo en los nuevos centros de datos de inteligencia artificial.


La red como infraestructura estratégica de la IA

Aunque la atención mediática suele centrarse en grandes actores como NVIDIA, OpenAI o Google, la transformación de la infraestructura está ocurriendo a un nivel más profundo: memoria, cómputo y almacenamiento están alineándose en arquitecturas de red mucho más sofisticadas.

Ethernet, con su madurez, escala y flexibilidad, se posiciona como la base de la próxima generación de fábricas de IA. Sin embargo, la transición requiere un nivel de ingeniería muy superior al de una red empresarial convencional: se necesita laboratorio, pruebas de estrés reales, telemetría avanzada y una coordinación estrecha entre equipos de sistemas y red.

Para las empresas que busquen construir infraestructura propia de IA, la red será una decisión estratégica esencial. La eficiencia en el entrenamiento y la inferencia de modelos dependerá tanto de la calidad de los aceleradores como del comportamiento de la fabric que los conecta.


Preguntas frecuentes

¿Qué es RoCE en la inteligencia artificial?
RoCE (RDMA over Converged Ethernet) es una tecnología que permite el acceso directo a memoria remota sobre Ethernet, reduciendo la intervención de la CPU y agilizando el intercambio de datos entre servidores, especialmente útil en clusters con múltiples GPUs.

¿Por qué

Related Articles

HighPoint acelera la IA con conexión directa GPU-almacenamiento

Javier Torres

Netgear amplía la integración de SASE en sus soluciones de red

Javier Torres

La construcción de nuevos data centers se ralentiza pese a la demanda

Javier Torres