En la carrera por liderar el desarrollo de inteligencia artificial, no todo se reduce a las GPUs, los grandes modelos o los centros de datos de enormes dimensiones. Un elemento cada vez más crucial —pero menos visible— es la red que conecta miles de aceleradores para coordinarlos como una supermáquina. En este escenario, Ethernet está experimentando un renacimiento gracias a RoCE (RDMA over Converged Ethernet), situándose en el centro de la infraestructura moderna para IA.
El auge de RoCE en la era de la inteligencia artificial
Tradicionalmente, Ethernet ha sido la opción preferida en los centros de datos por su fiabilidad, bajo coste y omnipresencia. Sin embargo, sus limitaciones —aceptación de pérdidas y latencias variables— no encajaban con las exigencias de los clusters de IA, donde el intercambio de datos entre GPUs debe realizarse en microsegundos y con una previsibilidad casi absoluta. RoCE cambia este paradigma al permitir acceso directo a memoria remota (RDMA) sobre redes Ethernet estándar, reduciendo drásticamente la intervención de la CPU y mejorando el rendimiento de las comunicaciones internas entre aceleradores.
Empresas líderes como Google Cloud han implementado RoCE en sus máquinas de última generación (A3 Ultra y A4), alcanzando velocidades de hasta 3,2 Tbps en tráfico inter-nodo según su documentación oficial. Por su parte, Meta emplea RoCEv2 como backbone en algunas de sus mayores instalaciones de entrenamiento, gestionando clústeres de más de 24.000 GPUs con enlaces de 400 Gbps por nodo.
Comparativa: Ethernet, RoCE, InfiniBand y Ultra Ethernet
| Tecnología | Enfoque | Ventajas principales | Retos principales |
|---|---|---|---|
| Ethernet tradicional | Red best-effort para tráfico general | Bajo coste, interoperabilidad, amplia base instalada | Latencia variable, pérdidas aceptadas, recuperación mediante TCP |
| RoCEv2 sobre Ethernet | RDMA sobre Ethernet para baja latencia | Menor sobrecarga de CPU, alto rendimiento, integración con estándares Ethernet | Requiere tuning avanzado: PFC, ECN, buffers y control de congestión |
| InfiniBand | Red especializada en HPC | Latencia muy baja, soporte RDMA maduro, alta integración | Menor flexibilidad y dependencia de proveedor |
| Ultra Ethernet | Evolución específica para IA/HPC | Mejor escalabilidad, multipath, transporte extremo | Todavía en evolución frente a RoCE |
La necesidad de redes casi sin pérdidas: El papel de PFC y ECN
El verdadero desafío técnico reside en garantizar una red prácticamente sin pérdidas para los flujos críticos de IA. Las arquitecturas convencionales de Ethernet, basadas en la retransmisión de paquetes tras pérdidas, son insuficientes cuando la coordinación de miles de GPUs depende de que los datos fluyan con interrupciones mínimas.
- PFC (Priority Flow Control): Pausa selectivamente clases de tráfico cuando detecta congestión en una cola, evitando descartes prematuros.
- ECN (Explicit Congestion Notification): Marca los paquetes ante congestión inminente, permitiendo al emisor reducir el ritmo antes de que se produzca una pérdida.
Implementar este procesamiento avanzado requiere un ajuste fino de switches, buffers, umbrales y una observabilidad cercana al tiempo real. Los ingenieros de red deben ir más allá de la configuración tradicional y comprender el funcionamiento interno de las librerías de comunicación de IA, las GPUs, las tarjetas de red, los drivers y los patrones de tráfico.
Ethernet frente a InfiniBand: ¿Batalla por el futuro de la IA?
InfiniBand continúa siendo una referencia en HPC (High Performance Computing) y entrenamientos de IA de máximo rendimiento, con latencias extremadamente bajas y una integración muy desarrollada en RDMA. Sin embargo, Ethernet gana terreno gracias a su presencia masiva, ecosistema multivendor y mayor flexibilidad operativa —aspectos decisivos para las grandes infraestructuras cloud y proveedores hiperescalares.
La apuesta de NVIDIA con Spectrum-X —que suma SuperNICs, telemetría avanzada y gestión dedicada del tráfico RoCE— y los desarrollos de Broadcom con Tomahawk 6 para interconexiones de hasta un millón de GPUs, ejemplifican el crecimiento acelerado de Ethernet en este ámbito.
| Criterio | Ethernet con RoCE | InfiniBand |
|---|---|---|
| Ecosistema | Muy amplio, multivendor, estándar de facto | Especializado, integración vertical |
| Operación | Familiar, pero requiere tuning especializado | Diseñado para HPC y RDMA nativos |
| Coste y disponibilidad | Economías de escala y mejor disponibilidad | Dependencia de proveedor, disponibilidad limitada |
| Rendimiento | Alto, si la arquitectura está bien diseñada | Óptimo y latencia mínima |
| Encaje en IA | En rápido crecimiento en cloud y hiperescala | Relevante en IA/HPC extremo |
Implicaciones para el diseño de centros de datos de IA
La adopción de RoCE sobre Ethernet implica reformas profundas en la arquitectura de los centros de datos de IA. Hay que repensar topologías, segmentación del tráfico, cableado de alta densidad, ópticas avanzadas (400G/800G), gestión energética, refrigeración y sistemas de telemetría capaces de detectar congestiones y anomalías al instante.
El equipo de operaciones también debe evolucionar: la red deja de ser una capa secundaria para convertirse en un componente esencial, directamente ligado al rendimiento de entrenamiento, el coste por token y la eficiencia de utilización de los recursos de GPU. Un ajuste inadecuado puede traducirse en costosas ineficiencias y cuellos de botella invisibles.
La iniciativa Ultra Ethernet subraya hasta qué punto el mercado está buscando evolucionar los límites actuales de RoCE, presionando para mejorar la escalabilidad y la capacidad de transporte extremo en los nuevos centros de datos de inteligencia artificial.
La red como infraestructura estratégica de la IA
Aunque la atención mediática suele centrarse en grandes actores como NVIDIA, OpenAI o Google, la transformación de la infraestructura está ocurriendo a un nivel más profundo: memoria, cómputo y almacenamiento están alineándose en arquitecturas de red mucho más sofisticadas.
Ethernet, con su madurez, escala y flexibilidad, se posiciona como la base de la próxima generación de fábricas de IA. Sin embargo, la transición requiere un nivel de ingeniería muy superior al de una red empresarial convencional: se necesita laboratorio, pruebas de estrés reales, telemetría avanzada y una coordinación estrecha entre equipos de sistemas y red.
Para las empresas que busquen construir infraestructura propia de IA, la red será una decisión estratégica esencial. La eficiencia en el entrenamiento y la inferencia de modelos dependerá tanto de la calidad de los aceleradores como del comportamiento de la fabric que los conecta.
Preguntas frecuentes
¿Qué es RoCE en la inteligencia artificial?
RoCE (RDMA over Converged Ethernet) es una tecnología que permite el acceso directo a memoria remota sobre Ethernet, reduciendo la intervención de la CPU y agilizando el intercambio de datos entre servidores, especialmente útil en clusters con múltiples GPUs.
¿Por qué

