Apple Silicon M5 Max demuestra músculo al ejecutar en local un modelo de 122.000 millones de parámetros
La capacidad de ejecutar modelos de Inteligencia Artificial de gran tamaño en equipos personales sin necesidad de recurrir a la nube da un nuevo paso adelante con Apple Silicon. Un desarrollador ha presentado en Reddit y GitHub una prueba en la que un Mac equipado con chip M5 Max y 128 GB de memoria unificada es capaz de mover el modelo Qwen 3.5 de 122.000 millones de parámetros completamente en local, a través del framework MLX desarrollado y optimizado por Apple para sus propios procesadores. La velocidad alcanzada, 65 tokens por segundo de forma sostenida, marca un nuevo listón en el empleo de IA generativa offline.
Este avance sugiere que ya es factible realizar tareas de generación de código con modelos avanzados sin depender de la computación en la nube o de APIs de terceros, lo que puede resultar decisivo en entornos donde la privacidad, el control sobre los datos y la reducción de costes son prioritarios.
Un proyecto que pone el foco en la IA local para desarrollo
El repositorio de GitHub claude-code-local es la base de este hito: se trata de un servidor minimalista en Python —unas 200 líneas de código— que imita el comportamiento de la Anthropic Messages API, convenciendo a Claude Code de que se conecta a un backend nativo cuando realmente ejecuta un modelo local utilizando MLX y aceleración Metal. El enfoque elimina capas intermedias y reduce significativamente la latencia, mejorando el rendimiento real en usos como desarrollo de software completamente offline.
Comparativa de rendimiento
- Ollama + proxy: hasta 30 tokens/segundo
- llama.cpp + TurboQuant + proxy: 41 tokens/segundo
- MLX nativo: 65 tokens/segundo
El tiempo en tareas reales de Claude Code cae de 133 segundos a 17,6 segundos en la última configuración. Los resultados, aunque no validados por terceros independientes, son coherentes con pruebas similares publicadas en la comunidad.
Memoria unificada: la clave detrás del avance de Apple Silicon en IA local
Apple viene promocionando desde hace años la ventaja de la memoria unificada en su arquitectura Silicon: CPU y GPU comparten el mismo espacio de memoria, lo que facilita la manipulación de modelos de gran tamaño sin los cuellos de botella típicos de sistemas con VRAM y RAM separadas.
En el caso de la prueba, el modelo Qwen3.5-122B-A10B —en formato cuantizado a 4 bits— ocupa cerca de 50 GB, y el uso total de memoria, incluyendo la caché, ronda los 55 GB. Esto permite que Macs con abundante memoria RAM sean competitivos en inferencia local, donde máquinas tradicionales requerirían GPUs dedicadas con grandes cantidades de VRAM y configuraciones complejas.
Más detalles sobre la arquitectura y funcionamiento de MLX pueden consultarse en la web oficial de Apple Machine Learning.
¿Más rápido que la nube? Contextualizando los resultados
El desarrollador responsable de claude-code-local asegura que, en sus pruebas, el rendimiento local supera al de servicios cloud como Claude Opus (40 tok/s) y se aproxima a Claude Sonnet (80 tok/s). Sin embargo, estas cifras deben interpretarse con cautela: se trata de situaciones muy controladas y no de benchmarks realizados bajo condiciones estándar. Los servicios en la nube pueden variar en función de la red, la carga y el modelo concreto, mientras que la ejecución local depende de la configuración y del tamaño del modelo.
Las pruebas comunitarias coinciden en que MLX puede ser sustancialmente más rápido que alternativas como GGUF u Ollama, especialmente en Macs recientes, aunque el rendimiento efectivo sigue dependiendo del contexto de uso y del tipo de tarea.
Implicaciones y limitaciones: un punto de inflexión para la IA generativa local
La demostración, aunque no representa una solución definitiva universal, sí marca un antes y un después en el desarrollo de IA local. Desarrolladores e investigadores pueden plantearse ahora el uso de modelos avanzados en sus propios equipos, sin depender de infraestructuras cloud ni de licencias por token, ganando en privacidad y control presupuestario.
El avance de Apple Silicon se explica por la integración estrecha entre hardware (memoria unificada, aceleración Metal) y software (MLX), lo que le permite acercarse a perfiles profesionales interesados en la inferencia de gran escala sin hardware externo. Para quienes buscan trabajar completamente offline, especialmente en ámbitos donde la protección de la propiedad intelectual y la eficiencia energética son clave, los Mac de gama alta se consolidan como una opción realista.
Preguntas frecuentes
¿Qué modelo ejecuta el M5 Max en la demostración?
Se ha utilizado el modelo Qwen3.5-122B-A10B en versión cuantizada MLX 4-bit, con un tamaño de khoảng 50 GB y uso total estimado de 55 GB.
¿La cifra de 65 tokens por segundo está verificada por Apple?
No. Estos datos proceden del desarrollador original y de pruebas comunitarias independientes, no de benchmarks oficiales de Apple ni de validación en laboratorio externo.
¿Qué aporta MLX frente a otros frameworks?
MLX está optimizado específicamente para el ecosistema Apple Silicon y su arquitectura de memoria unificada, permitiendo un flujo de datos eficiente entre CPU y GPU y reduciendo latencias frente a soluciones de inferencia tradicionales.
¿Puede un Mac sustituir a una GPU dedicada en inferencia de LLMs grandes?
Dependerá del uso concreto. Para inferencia local de modelos cuantizados, los Macs de alta gama aportan competitividad, aunque en entrenamientos o cargas muy exigentes las GPUs discretas siguen siendo superiores en muchos casos.
Más información y detalles técnicos en el repositorio claude-code-local en GitHub y la noticia original.

