Cómo Taalas ha ‘impreso’ un modelo LLM sobre un chip y multiplicado por diez la eficiencia de la inferencia

El límite de las GPU ha llegado
Los grandes modelos de lenguaje (LLMs) como Llama 3.1 necesitan mover terabytes de pesos entre memoria y procesador en cada token generado. En un chip GPU tradicional, este flujo constante entre VRAM y núcleos de cómputo genera latencia, consumo energético y costes operativos desorbitados. Este cuello de botella —conocido como la ‘pared de memoria’— es el punto débil de la infraestructura actual.
El salto de Taalas: eliminar la memoria del proceso
Taalas, una startup de apenas dos años y medio, ha diseñado un ASIC de función fija capaz de ejecutar el modelo Llama 3.1 8B directamente en silicio, sin necesidad de acceder a memoria externa. Su chip genera 17 000 tokens por segundo, diez veces más rápido y con un coste de propiedad diez veces menor que los sistemas basados en GPU.
El secreto: han “grabado” las 32 capas del modelo como transistores físicos. Cada peso del modelo se convierte en parte del hardware, eliminando el trasiego de datos entre procesador y memoria. El flujo del cálculo se convierte así en una corriente eléctrica que atraviesa secuencialmente las capas del modelo.
Qué hace único a este ASIC
Taalas afirma haber desarrollado una arquitectura de multiplicación que permite representar y operar datos de 4 bits con un único transistor: su llamado magic multiplier. Además, utilizan una pequeña cantidad de SRAM integrada para gestionar la memoria temporal (KV Cache) y adaptadores LoRA para ajustes finos del modelo. No necesitan VRAM, ni HBM, ni DRAM, reduciendo drásticamente tanto el consumo energético como la latencia.
Fabricación personalizada, pero optimizada
Aunque cada chip sea específico para un modelo concreto, Taalas ha diseñado una malla base genérica de transistores y puertas lógicas que puede reconfigurarse modificando solo las dos capas superiores. Esto permite fabricar una versión dedicada de su chip en apenas dos meses, un tiempo ultrarrápido en el mundo del silicio personalizado.
Por qué esto importa para tu empresa
Para CTOs y fundadores, esto marca un cambio estratégico: la inferencia de IA a gran escala puede dejar de depender de GPUs. Los ASICs especializados eliminan el cuello de botella energético y de coste, haciendo viable ejecutar modelos avanzados con menor huella física y económica. En entornos con alta demanda de tokenización —como chatbots corporativos o asistentes internos—, el ahorro combinado de hardware y energía puede ser disruptivo.
Mirando hacia el futuro
Aún falta para que este tipo de chips se produzcan a escala industrial, pero el concepto sienta las bases de una nueva generación de hardware IA ultradenso y eficiente. Tal vez pronto veamos modelos “impresos” directamente sobre silicio personalizados para tareas concretas.
En Nelux AI vigilamos de cerca este tipo de innovaciones de hardware. Si tu empresa explora cómo integrar inferencia optimizada o hardware especializado en su estrategia de IA, podemos ayudarte a trazar ese camino con precisión técnica y visión de negocio.