Summary & Insights
What if the hardest problem in artificial intelligence isn’t training smarter models, but simply keeping them running? This central question frames a deep dive into the unseen world of AI inference—the act of running trained models—which has quietly become one of computing’s most complex challenges. The conversation with VLLM creators Simon Mo and Wusa Kwan reveals that large language models shattered the old rules of computing, where workloads were predictable. Every prompt is unique, outputs are variable, and thousands of users can make incompatible demands on hardware simultaneously, forcing a complete rethinking of systems design.
This challenge is what spurred the creation of VLLM, an open-source inference engine that began as a side project to optimize a slow demo for Meta’s OPT model. The founders recount how they quickly realized autoregressive transformers presented a fundamentally new problem: unlike static image models, LLM inputs are wildly dynamic, making efficient scheduling and memory management paramount. Their solution, centered on innovations like “paged attention” for managing the KV cache, evolved from a PhD prototype into a massively popular open-source project with over 2,000 contributors and a sprawling community that includes model labs, hardware vendors, and major tech companies.
The discussion outlines three forces making inference increasingly difficult over time: sheer model scale, exploding diversity in model architectures and hardware, and the rise of agentic workflows. Agents introduce profound uncertainty, as an AI might pause for seconds or hours to use a tool, disrupting traditional cache management and scheduling. This complexity underscores the founders’ belief in open source as the only viable path forward; no single vertical stack can optimize for the world’s countless use cases, chips, and specialized models. Their company, Infraact, was formed explicitly to steward and accelerate the VLLM project, aiming to build a “universal inference layer” that abstracts this complexity for the entire ecosystem.
Surprising Insights
- Inference is a Growing Headache: The founders initially thought optimizing inference would be a straightforward engineering task, but they now see it as a problem growing in difficulty faster than it’s being solved, due to scale, diversity, and agents.
- Massive, Early Adoption by Giants: Major consumer-facing products like Amazon’s Rufus assistant and Character AI were among the first to deploy VLLM at massive scale, often implementing bleeding-edge features before they were even formally merged into the main project.
- The Grant Fund That Became an Investment: A portion of the very first grant funding awarded to the VLLM project was reportedly invested in NVIDIA stock, humorously highlighting the early, prescient link between the project’s success and the GPU market.
- A Million-Dollar-A-Year Open-Source Project: Maintaining VLLM requires over a million dollars annually just for continuous integration testing, underscoring the immense cost and responsibility of supporting infrastructure that runs on hundreds of thousands of production GPUs.
Practical Takeaways
- For Engineers: When building LLM applications, treat the dynamism of prompts and outputs as a first-class design constraint. Efficient serving requires systems that handle variable input/output lengths and non-deterministic completion times, not just raw compute power.
- For Open-Source Contributors: A successful project blends clear top-down roadmaps with an open-door policy for community contributions. Regular in-person meetups remain a surprisingly high-bandwidth way to build cohesion and momentum within a distributed technical community.
- For Companies Building with AI: Leverage open-source inference engines like VLLM to avoid the trap of building and maintaining an internal fork that can’t keep pace with rapid innovation across models, hardware, and novel workloads like agents.
- For System Designers: Think of the AI inference layer as analogous to an operating system or database—a critical abstraction that manages new physical resources (GPUs/TPUs) for a new class of applications. The future lies in horizontal platforms, not vertically integrated silos.
¿Y si el problema más difícil de la inteligencia artificial no fuera entrenar modelos más inteligentes, sino simplemente mantenerlos en funcionamiento? Esta pregunta central enmarca una exploración profunda del mundo invisible de la inferencia de IA —el acto de ejecutar modelos entrenados—, que silenciosamente se ha convertido en uno de los desafíos más complejos de la computación. La conversación con los creadores de VLLM, Simon Mo y Wusa Kwan, revela que los modelos de lenguaje de gran tamaño hicieron añicos las viejas reglas de la computación, en las que las cargas de trabajo eran predecibles. Cada prompt es único, las salidas son variables y miles de usuarios pueden imponer simultáneamente demandas incompatibles al hardware, lo que obliga a replantear por completo el diseño de sistemas.
Este desafío fue lo que impulsó la creación de VLLM, un motor de inferencia de código abierto que comenzó como un proyecto paralelo para optimizar una demo lenta del modelo OPT de Meta. Los fundadores cuentan cómo rápidamente se dieron cuenta de que los transformadores autorregresivos planteaban un problema fundamentalmente nuevo: a diferencia de los modelos de imagen estáticos, las entradas de los LLM son enormemente dinámicas, lo que hace que la planificación eficiente y la gestión de memoria sean primordiales. Su solución, centrada en innovaciones como la “atención paginada” para gestionar la caché KV, evolucionó de un prototipo de doctorado a un proyecto de código abierto enormemente popular con más de 2.000 colaboradores y una amplia comunidad que incluye laboratorios de modelos, proveedores de hardware y grandes empresas tecnológicas.
La discusión describe tres fuerzas que hacen que la inferencia sea cada vez más difícil con el tiempo: la enorme escala de los modelos, la explosiva diversidad en arquitecturas de modelos y hardware, y el auge de los flujos de trabajo agentivos. Los agentes introducen una incertidumbre profunda, ya que una IA puede pausar durante segundos o horas para usar una herramienta, alterando la gestión tradicional de caché y la planificación. Esta complejidad refuerza la convicción de los fundadores de que el código abierto es el único camino viable; ninguna pila vertical única puede optimizar para los innumerables casos de uso, chips y modelos especializados del mundo. Su empresa, Infraact, se creó explícitamente para guiar y acelerar el proyecto VLLM, con el objetivo de construir una “capa universal de inferencia” que abstraiga esta complejidad para todo el ecosistema.
Ideas sorprendentes
- La inferencia es un dolor de cabeza cada vez mayor: Los fundadores inicialmente pensaron que optimizar la inferencia sería una tarea de ingeniería relativamente sencilla, pero ahora la ven como un problema cuya dificultad crece más rápido de lo que se está resolviendo, debido a la escala, la diversidad y los agentes.
- Adopción masiva y temprana por parte de gigantes: Grandes productos orientados al consumidor, como el asistente Rufus de Amazon y Character AI, estuvieron entre los primeros en implementar VLLM a escala masiva, a menudo incorporando funciones de vanguardia incluso antes de que se integraran formalmente en el proyecto principal.
- El fondo de subvención que se convirtió en inversión: Según se informa, una parte de la primera subvención otorgada al proyecto VLLM se invirtió en acciones de NVIDIA, lo que destaca con humor la conexión temprana y visionaria entre el éxito del proyecto y el mercado de las GPU.
- Un proyecto de código abierto que cuesta un millón de dólares al año: Mantener VLLM requiere más de un millón de dólares anuales solo para pruebas de integración continua, lo que subraya el enorme costo y la responsabilidad de dar soporte a una infraestructura que funciona sobre cientos de miles de GPU en producción.
Conclusiones prácticas
- Para ingenieros: Al construir aplicaciones con LLM, traten el dinamismo de los prompts y las salidas como una restricción de diseño de primer orden. Un servicio eficiente requiere sistemas que manejen longitudes variables de entrada/salida y tiempos de finalización no deterministas, no solo potencia de cómputo bruta.
- Para colaboradores de código abierto: Un proyecto exitoso combina hojas de ruta claras definidas desde arriba con una política de puertas abiertas para las contribuciones de la comunidad. Las reuniones presenciales periódicas siguen siendo una forma sorprendentemente eficaz y de alta intensidad para construir cohesión y mantener el impulso dentro de una comunidad técnica distribuida.
- Para empresas que construyen con IA: Aprovechen motores de inferencia de código abierto como VLLM para evitar la trampa de desarrollar y mantener una bifurcación interna que no pueda seguir el ritmo de la rápida innovación en modelos, hardware y nuevas cargas de trabajo como los agentes.
- Para diseñadores de sistemas: Piensen en la capa de inferencia de IA como algo análogo a un sistema operativo o una base de datos: una abstracción crítica que gestiona nuevos recursos físicos (GPU/TPU) para una nueva clase de aplicaciones. El futuro está en las plataformas horizontales, no en silos integrados verticalmente.
E se o problema mais difícil da inteligência artificial não for treinar modelos mais inteligentes, mas simplesmente mantê-los em funcionamento? Essa pergunta central estrutura uma análise profunda do mundo invisível da inferência em IA — o ato de executar modelos treinados — que silenciosamente se tornou um dos desafios mais complexos da computação. A conversa com os criadores do VLLM, Simon Mo e Wusa Kwan, revela que os grandes modelos de linguagem destruíram as antigas regras da computação, em que as cargas de trabalho eram previsíveis. Cada prompt é único, as saídas são variáveis, e milhares de usuários podem impor simultaneamente demandas incompatíveis ao hardware, forçando uma reformulação completa do design de sistemas.
Esse desafio foi o que motivou a criação do VLLM, um mecanismo de inferência open source que começou como um projeto paralelo para otimizar uma demonstração lenta do modelo OPT da Meta. Os fundadores contam como rapidamente perceberam que transformers autorregressivos apresentavam um problema fundamentalmente novo: ao contrário de modelos estáticos de imagem, as entradas de LLMs são extremamente dinâmicas, tornando a escalonagem eficiente e o gerenciamento de memória aspectos cruciais. A solução deles, centrada em inovações como a “atenção paginada” para gerenciar o cache KV, evoluiu de um protótipo de doutorado para um projeto open source extremamente popular, com mais de 2.000 colaboradores e uma comunidade ampla que inclui laboratórios de modelos, fornecedores de hardware e grandes empresas de tecnologia.
A discussão descreve três forças que tornam a inferência cada vez mais difícil ao longo do tempo: a pura escala dos modelos, a explosão na diversidade de arquiteturas de modelos e hardware, e a ascensão dos fluxos de trabalho agênticos. Agentes introduzem uma incerteza profunda, já que uma IA pode pausar por segundos ou horas para usar uma ferramenta, interrompendo o gerenciamento tradicional de cache e a escalonagem. Essa complexidade reforça a crença dos fundadores de que o open source é o único caminho viável adiante; nenhuma stack vertical única consegue otimizar os incontáveis casos de uso, chips e modelos especializados do mundo. A empresa deles, Infraact, foi criada explicitamente para orientar e acelerar o projeto VLLM, com o objetivo de construir uma “camada universal de inferência” que abstraia essa complexidade para todo o ecossistema.
Insights Surpreendentes
- A inferência é uma dor de cabeça crescente: Os fundadores inicialmente pensaram que otimizar a inferência seria uma tarefa direta de engenharia, mas agora a veem como um problema cuja dificuldade cresce mais rápido do que sua solução, devido à escala, à diversidade e aos agentes.
- Adoção massiva e precoce por gigantes: Grandes produtos voltados ao consumidor, como o assistente Rufus da Amazon e o Character AI, estiveram entre os primeiros a implantar o VLLM em escala massiva, frequentemente implementando recursos de ponta antes mesmo de serem formalmente integrados ao projeto principal.
- O fundo de subsídios que virou investimento: Uma parte do primeiro financiamento por subsídio concedido ao projeto VLLM teria sido investida em ações da NVIDIA, destacando de forma bem-humorada a ligação precoce e visionária entre o sucesso do projeto e o mercado de GPUs.
- Um projeto open source de um milhão de dólares por ano: Manter o VLLM exige mais de um milhão de dólares anuais apenas para testes de integração contínua, o que evidencia o imenso custo e a responsabilidade de sustentar uma infraestrutura que roda em centenas de milhares de GPUs em produção.
Lições Práticas
- Para engenheiros: Ao construir aplicações com LLMs, trate o dinamismo dos prompts e das saídas como uma restrição de design de primeira ordem. Um serving eficiente exige sistemas que lidem com comprimentos variáveis de entrada/saída e tempos de conclusão não determinísticos, e não apenas poder bruto de computação.
- Para contribuidores de open source: Um projeto bem-sucedido combina roadmaps claros definidos de cima para baixo com uma política aberta a contribuições da comunidade. Encontros presenciais regulares continuam sendo uma forma surpreendentemente eficiente de criar coesão e impulso dentro de uma comunidade técnica distribuída.
- Para empresas que constroem com IA: Aproveitem mecanismos de inferência open source como o VLLM para evitar a armadilha de criar e manter um fork interno que não consegue acompanhar o ritmo da inovação acelerada em modelos, hardware e novas cargas de trabalho, como agentes.
- Para designers de sistemas: Pensem na camada de inferência em IA como algo análogo a um sistema operacional ou a um banco de dados — uma abstração crítica que gerencia novos recursos físicos (GPUs/TPUs) para uma nova classe de aplicações. O futuro está em plataformas horizontais, não em silos verticalmente integrados.
Inferact is a new AI infrastructure company founded by the creators and core maintainers of vLLM. Its mission is to build a universal, open-source inference layer that makes large AI models faster, cheaper, and more reliable to run across any hardware, model architecture, or deployment environment. Together, they broke down how modern AI models are actually run in production, why “inference” has quietly become one of the hardest problems in AI infrastructure, and how the open-source project vLLM emerged to solve it. The conversation also looked at why the vLLM team started Inferact and their vision for a universal inference layer that can run any model, on any chip, efficiently.
Follow Matt Bornstein on X: https://twitter.com/BornsteinMatt
Follow Simon Mo on X: https://twitter.com/simon_mo_
Follow Woosuk Kwon on X: https://twitter.com/woosuk_k
Follow vLLM on X: https://twitter.com/vllm_project
Stay Updated:
Find a16z on X
Find a16z on LinkedIn
Listen to the a16z Show on Spotify
Listen to the a16z Show on Apple Podcasts
Follow our host: https://twitter.com/eriktorenberg
Please note that the content here is for informational purposes only; should NOT be taken as legal, business, tax, or investment advice or be used to evaluate any investment or security; and is not directed at any investors or potential investors in any a16z fund. a16z and its affiliates may maintain investments in the companies discussed. For more details please see a16z.com/disclosures.
Hosted by Simplecast, an AdsWizz company. See pcm.adswizz.com for information about our collection and use of personal data for advertising.

Leave a Reply
You must be logged in to post a comment.