0
0
Summary & Insights

What if the hardest problem in artificial intelligence isn’t training smarter models, but simply keeping them running? This central question frames a deep dive into the unseen world of AI inference—the act of running trained models—which has quietly become one of computing’s most complex challenges. The conversation with VLLM creators Simon Mo and Wusa Kwan reveals that large language models shattered the old rules of computing, where workloads were predictable. Every prompt is unique, outputs are variable, and thousands of users can make incompatible demands on hardware simultaneously, forcing a complete rethinking of systems design.

This challenge is what spurred the creation of VLLM, an open-source inference engine that began as a side project to optimize a slow demo for Meta’s OPT model. The founders recount how they quickly realized autoregressive transformers presented a fundamentally new problem: unlike static image models, LLM inputs are wildly dynamic, making efficient scheduling and memory management paramount. Their solution, centered on innovations like “paged attention” for managing the KV cache, evolved from a PhD prototype into a massively popular open-source project with over 2,000 contributors and a sprawling community that includes model labs, hardware vendors, and major tech companies.

The discussion outlines three forces making inference increasingly difficult over time: sheer model scale, exploding diversity in model architectures and hardware, and the rise of agentic workflows. Agents introduce profound uncertainty, as an AI might pause for seconds or hours to use a tool, disrupting traditional cache management and scheduling. This complexity underscores the founders’ belief in open source as the only viable path forward; no single vertical stack can optimize for the world’s countless use cases, chips, and specialized models. Their company, Infraact, was formed explicitly to steward and accelerate the VLLM project, aiming to build a “universal inference layer” that abstracts this complexity for the entire ecosystem.

Surprising Insights

  • Inference is a Growing Headache: The founders initially thought optimizing inference would be a straightforward engineering task, but they now see it as a problem growing in difficulty faster than it’s being solved, due to scale, diversity, and agents.
  • Massive, Early Adoption by Giants: Major consumer-facing products like Amazon’s Rufus assistant and Character AI were among the first to deploy VLLM at massive scale, often implementing bleeding-edge features before they were even formally merged into the main project.
  • The Grant Fund That Became an Investment: A portion of the very first grant funding awarded to the VLLM project was reportedly invested in NVIDIA stock, humorously highlighting the early, prescient link between the project’s success and the GPU market.
  • A Million-Dollar-A-Year Open-Source Project: Maintaining VLLM requires over a million dollars annually just for continuous integration testing, underscoring the immense cost and responsibility of supporting infrastructure that runs on hundreds of thousands of production GPUs.

Practical Takeaways

  • For Engineers: When building LLM applications, treat the dynamism of prompts and outputs as a first-class design constraint. Efficient serving requires systems that handle variable input/output lengths and non-deterministic completion times, not just raw compute power.
  • For Open-Source Contributors: A successful project blends clear top-down roadmaps with an open-door policy for community contributions. Regular in-person meetups remain a surprisingly high-bandwidth way to build cohesion and momentum within a distributed technical community.
  • For Companies Building with AI: Leverage open-source inference engines like VLLM to avoid the trap of building and maintaining an internal fork that can’t keep pace with rapid innovation across models, hardware, and novel workloads like agents.
  • For System Designers: Think of the AI inference layer as analogous to an operating system or database—a critical abstraction that manages new physical resources (GPUs/TPUs) for a new class of applications. The future lies in horizontal platforms, not vertically integrated silos.

Giả sử thách thức lớn nhất trong trí tuệ nhân tạo không phải là đào tạo các mô hình thông minh hơn, mà đơn giản chỉ là duy trì hoạt động của chúng thì sao? Câu hỏi trung tâm này định hình một cuộc khám phá sâu vào thế giới vô hình của suy luận AI – hành động vận hành các mô hình đã được đào tạo – vốn đã âm thầm trở thành một trong những thách thức phức tạp nhất của ngành điện toán. Cuộc trò chuyện với những người sáng tạo VLLM, Simon Mo và Wusa Kwan, tiết lộ rằng các mô hình ngôn ngữ lớn đã phá vỡ các quy tắc cũ của điện toán, nơi khối lượng công việc có thể dự đoán được. Mỗi lời nhắc là duy nhất, đầu ra thì biến đổi, và hàng nghìn người dùng có thể đồng thời đưa ra các yêu cầu không tương thích lên phần cứng, buộc phải suy nghĩ lại hoàn toàn về thiết kế hệ thống.


Thách thức này chính là động lực thúc đẩy sự ra đời của VLLM, một công cụ suy luận mã nguồn mở bắt đầu như một dự án phụ để tối ưu hóa bản demo chậm chạp cho mô hình OPT của Meta. Những người sáng lập kể lại làm thế nào họ nhanh chóng nhận ra các bộ biến đổi tự hồi quy đặt ra một vấn đề hoàn toàn mới: không giống như các mô hình hình ảnh tĩnh, đầu vào của LLM cực kỳ năng động, khiến cho việc lập lịch hiệu quả và quản lý bộ nhớ trở nên tối quan trọng. Giải pháp của họ, tập trung vào các đổi mới như “paged attention” để quản lý bộ nhớ cache KV, đã phát triển từ một nguyên mẫu luận án tiến sĩ thành một dự án mã nguồn mở cực kỳ phổ biến với hơn 2.000 cộng tác viên và một cộng đồng rộng lớn bao gồm các phòng lab mô hình, nhà cung cấp phần cứng và các công ty công nghệ lớn.


Cuộc thảo luận phác thảo ba lực lượng khiến việc suy luận ngày càng khó khăn theo thời gian: quy mô mô hình thuần túy, sự bùng nổ đa dạng trong kiến trúc mô hình và phần cứng, và sự trỗi dậy của các quy trình làm việc dạng tác nhân. Các tác nhân này mang lại sự không chắc chắn sâu sắc, vì một AI có thể tạm dừng vài giây hoặc vài giờ để sử dụng một công cụ, làm gián đoạn việc quản lý và lập lịch cache truyền thống. Sự phức tạp này nhấn mạnh niềm tin của những người sáng lập vào mã nguồn mở như con đường khả thi duy nhất; không có một hệ thống tích hợp dọc nào có thể tối ưu hóa cho vô số trường hợp sử dụng, chip và mô hình chuyên biệt của thế giới. Công ty của họ, Infraact, được thành lập rõ ràng để quản lý và đẩy nhanh dự án VLLM, nhằm xây dựng một “lớp suy luận phổ quát” trừu tượng hóa sự phức tạp này cho toàn bộ hệ sinh thái.


Những Hiểu Biết Bất Ngờ



  • Suy luận là một Bài toán Đau đầu Ngày càng Tăng: Ban đầu, những người sáng lập nghĩ rằng tối ưu hóa suy luận sẽ là một nhiệm vụ kỹ thuật đơn giản, nhưng giờ họ thấy nó là một vấn đề ngày càng khó khăn hơn tốc độ giải quyết, do quy mô, sự đa dạng và các tác nhân.

  • Được các Gã Khổng Lồ Áp dụng Sớm và Rộng rãi: Các sản phẩm lớn hướng đến người tiêu dùng như trợ lý Rufus của Amazon và Character AI là một trong những sản phẩm đầu tiên triển khai VLLM trên quy mô lớn, thường triển khai các tính năng mới nhất ngay cả trước khi chúng được chính thức hợp nhất vào dự án chính.

  • Quỹ Tài trợ trở thành Khoản Đầu tư: Một phần trong số tiền tài trợ đầu tiên được cấp cho dự án VLLM được cho là đã được đầu tư vào cổ phiếu NVIDIA, một cách hài hước cho thấy mối liên hệ có tính tiên tri sớm giữa thành công của dự án và thị trường GPU.

  • Dự án Mã nguồn Mở Trị giá Hàng triệu Đô-la Một năm: Việc duy trì VLLM đòi hỏi hơn một triệu đô la hàng năm chỉ cho việc kiểm tra tích hợp liên tục, cho thấy chi phí và trách nhiệm khổng lồ của việc hỗ trợ cơ sở hạ tầng chạy trên hàng trăm nghìn GPU sản xuất.


Những Điều Thiết thực Rút ra



  • Đối với Kỹ sư: Khi xây dựng các ứng dụng LLM, hãy coi tính năng động của lời nhắc và đầu ra như một ràng buộc thiết kế ưu tiên hàng đầu. Việc phục vụ hiệu quả đòi hỏi các hệ thống xử lý được độ dài đầu vào/đầu ra biến đổi và thời gian hoàn thành không xác định, chứ không chỉ là sức mạnh tính toán thuần túy.

  • Đối với Người Đóng góp Mã nguồn Mở: Một dự án thành công kết hợp lộ trình rõ ràng từ trên xuống với chính sách cửa mở cho các đóng góp của cộng đồng. Các cuộc gặp mặt trực tiếp thường xuyên vẫn là một cách đáng ngạc nhiên có băng thông cao để xây dựng sự gắn kết và đà phát triển trong một cộng đồng kỹ thuật phân tán.

  • Đối với Các Công ty Xây dựng với AI: Hãy tận dụng các công cụ suy luận mã nguồn mở như VLLM để tránh cái bẫy xây dựng và duy trì một nhánh nội bộ không thể theo kịp tốc độ đổi mới nhanh chóng trên khắp các mô hình, phần cứng và khối lượng công việc mới như các tác nhân.

  • Đối với Nhà Thiết kế Hệ thống: Hãy nghĩ về lớp suy luận AI như tương tự một hệ điều hành hoặc cơ sở dữ liệu – một sự trừu tượng hóa quan trọng quản lý các tài nguyên vật lý mới (GPU/TPU) cho một lớp ứng dụng mới. Tương lai nằm ở các nền tảng ngang hàng, chứ không phải các silo tích hợp dọc.


若人工智慧領域最艱鉅的難題並非訓練更聰明的模型,而僅僅是維持其穩定運行呢?這個核心問題引領我們深入探討AI推論(即運行已訓練模型的行為)這個隱形世界——它已悄然成為運算領域最複雜的挑戰之一。與VLLM創建者Simon Mo和Wusa Kwan的對話揭示,大型語言模型徹底打破了過去運算負載可預測的舊規則。每個提示詞皆獨一無二,輸出結果千變萬化,成千上萬用戶可能同時對硬體提出相互衝突的需求,迫使系統設計必須徹底重新構思。


正是此挑戰催生了VLLM——這個開源推論引擎最初只是為優化Meta的OPT模型緩慢演示而啟動的副項目。創始人回憶道,他們迅速意識到自迴歸變換器帶來了根本性新難題:與靜態圖像模型不同,LLM的輸入極度動態化,使高效調度與記憶體管理成為關鍵。他們的解決方案以「分頁注意力」等創新技術為核心管理KV快取,從博士階段的原型演變為擁有超過2000名貢獻者的超熱門開源項目,並建立起涵蓋模型實驗室、硬體供應商與大型科技公司的龐大生態圈。


令人驚奇的洞見



  • 推論難題持續加劇:創始人原以為優化推論是項直觀的工程任務,但如今發現因規模擴張、架構多元化及智能體興起,問題惡化速度遠超解決進度。

  • 巨頭早期大規模採用:亞馬遜的Rufus助手與Character AI等面向消費者的重要產品,皆是首批大規模部署VLLM的案例,甚至常在功能尚未正式併入主項目前就搶先實裝尖端特性。

  • 轉化為投資的初始補助:據傳VLLM項目獲得的第一筆補助金中,有部分被用於購買NVIDIA股票,幽默印證了項目成功與GPU市場間的前瞻性連結。

  • 年度百萬美元開源項目:僅持續整合測試每年就需耗資逾百萬美元維護VLLM,凸顯支援數十萬生產級GPU運作背後的巨大成本與責任。


實務啟示



  • 致工程師:建構LLM應用時,應將提示與輸出的動態性視為首要設計限制。高效服務需能處理可變輸入/輸出長度與非確定性完成時間的系統,而非僅依賴原始算力。

  • 致開源貢獻者:成功項目需融合清晰的自上而下路線圖與開放接納社區貢獻的機制。定期實體聚會對分散式技術社群而言,仍是建立凝聚力與動能的高效途徑。

  • 致AI建構企業:善用VLLM等開源推論引擎,避免陷入自建內部分支卻無法跟上模型、硬體及智能體等新型工作負載快速創新的困境。

  • 致系統設計師:將AI推論層類比為作業系統或資料庫——這是為新型應用程式管理新物理資源(GPU/TPU)的關鍵抽象層。未來屬於橫向平台,而非垂直整合的孤島。


¿Y si el problema más difícil de la inteligencia artificial no fuera entrenar modelos más inteligentes, sino simplemente mantenerlos en funcionamiento? Esta pregunta central enmarca una exploración profunda del mundo invisible de la inferencia de IA —el acto de ejecutar modelos entrenados—, que silenciosamente se ha convertido en uno de los desafíos más complejos de la computación. La conversación con los creadores de VLLM, Simon Mo y Wusa Kwan, revela que los modelos de lenguaje de gran tamaño hicieron añicos las viejas reglas de la computación, en las que las cargas de trabajo eran predecibles. Cada prompt es único, las salidas son variables y miles de usuarios pueden imponer simultáneamente demandas incompatibles al hardware, lo que obliga a replantear por completo el diseño de sistemas.


Este desafío fue lo que impulsó la creación de VLLM, un motor de inferencia de código abierto que comenzó como un proyecto paralelo para optimizar una demo lenta del modelo OPT de Meta. Los fundadores cuentan cómo rápidamente se dieron cuenta de que los transformadores autorregresivos planteaban un problema fundamentalmente nuevo: a diferencia de los modelos de imagen estáticos, las entradas de los LLM son enormemente dinámicas, lo que hace que la planificación eficiente y la gestión de memoria sean primordiales. Su solución, centrada en innovaciones como la “atención paginada” para gestionar la caché KV, evolucionó de un prototipo de doctorado a un proyecto de código abierto enormemente popular con más de 2.000 colaboradores y una amplia comunidad que incluye laboratorios de modelos, proveedores de hardware y grandes empresas tecnológicas.


La discusión describe tres fuerzas que hacen que la inferencia sea cada vez más difícil con el tiempo: la enorme escala de los modelos, la explosiva diversidad en arquitecturas de modelos y hardware, y el auge de los flujos de trabajo agentivos. Los agentes introducen una incertidumbre profunda, ya que una IA puede pausar durante segundos o horas para usar una herramienta, alterando la gestión tradicional de caché y la planificación. Esta complejidad refuerza la convicción de los fundadores de que el código abierto es el único camino viable; ninguna pila vertical única puede optimizar para los innumerables casos de uso, chips y modelos especializados del mundo. Su empresa, Infraact, se creó explícitamente para guiar y acelerar el proyecto VLLM, con el objetivo de construir una “capa universal de inferencia” que abstraiga esta complejidad para todo el ecosistema.


Ideas sorprendentes



  • La inferencia es un dolor de cabeza cada vez mayor: Los fundadores inicialmente pensaron que optimizar la inferencia sería una tarea de ingeniería relativamente sencilla, pero ahora la ven como un problema cuya dificultad crece más rápido de lo que se está resolviendo, debido a la escala, la diversidad y los agentes.

  • Adopción masiva y temprana por parte de gigantes: Grandes productos orientados al consumidor, como el asistente Rufus de Amazon y Character AI, estuvieron entre los primeros en implementar VLLM a escala masiva, a menudo incorporando funciones de vanguardia incluso antes de que se integraran formalmente en el proyecto principal.

  • El fondo de subvención que se convirtió en inversión: Según se informa, una parte de la primera subvención otorgada al proyecto VLLM se invirtió en acciones de NVIDIA, lo que destaca con humor la conexión temprana y visionaria entre el éxito del proyecto y el mercado de las GPU.

  • Un proyecto de código abierto que cuesta un millón de dólares al año: Mantener VLLM requiere más de un millón de dólares anuales solo para pruebas de integración continua, lo que subraya el enorme costo y la responsabilidad de dar soporte a una infraestructura que funciona sobre cientos de miles de GPU en producción.


Conclusiones prácticas



  • Para ingenieros: Al construir aplicaciones con LLM, traten el dinamismo de los prompts y las salidas como una restricción de diseño de primer orden. Un servicio eficiente requiere sistemas que manejen longitudes variables de entrada/salida y tiempos de finalización no deterministas, no solo potencia de cómputo bruta.

  • Para colaboradores de código abierto: Un proyecto exitoso combina hojas de ruta claras definidas desde arriba con una política de puertas abiertas para las contribuciones de la comunidad. Las reuniones presenciales periódicas siguen siendo una forma sorprendentemente eficaz y de alta intensidad para construir cohesión y mantener el impulso dentro de una comunidad técnica distribuida.

  • Para empresas que construyen con IA: Aprovechen motores de inferencia de código abierto como VLLM para evitar la trampa de desarrollar y mantener una bifurcación interna que no pueda seguir el ritmo de la rápida innovación en modelos, hardware y nuevas cargas de trabajo como los agentes.

  • Para diseñadores de sistemas: Piensen en la capa de inferencia de IA como algo análogo a un sistema operativo o una base de datos: una abstracción crítica que gestiona nuevos recursos físicos (GPU/TPU) para una nueva clase de aplicaciones. El futuro está en las plataformas horizontales, no en silos integrados verticalmente.


E se o problema mais difícil da inteligência artificial não for treinar modelos mais inteligentes, mas simplesmente mantê-los em funcionamento? Essa pergunta central estrutura uma análise profunda do mundo invisível da inferência em IA — o ato de executar modelos treinados — que silenciosamente se tornou um dos desafios mais complexos da computação. A conversa com os criadores do VLLM, Simon Mo e Wusa Kwan, revela que os grandes modelos de linguagem destruíram as antigas regras da computação, em que as cargas de trabalho eram previsíveis. Cada prompt é único, as saídas são variáveis, e milhares de usuários podem impor simultaneamente demandas incompatíveis ao hardware, forçando uma reformulação completa do design de sistemas.


Esse desafio foi o que motivou a criação do VLLM, um mecanismo de inferência open source que começou como um projeto paralelo para otimizar uma demonstração lenta do modelo OPT da Meta. Os fundadores contam como rapidamente perceberam que transformers autorregressivos apresentavam um problema fundamentalmente novo: ao contrário de modelos estáticos de imagem, as entradas de LLMs são extremamente dinâmicas, tornando a escalonagem eficiente e o gerenciamento de memória aspectos cruciais. A solução deles, centrada em inovações como a “atenção paginada” para gerenciar o cache KV, evoluiu de um protótipo de doutorado para um projeto open source extremamente popular, com mais de 2.000 colaboradores e uma comunidade ampla que inclui laboratórios de modelos, fornecedores de hardware e grandes empresas de tecnologia.


A discussão descreve três forças que tornam a inferência cada vez mais difícil ao longo do tempo: a pura escala dos modelos, a explosão na diversidade de arquiteturas de modelos e hardware, e a ascensão dos fluxos de trabalho agênticos. Agentes introduzem uma incerteza profunda, já que uma IA pode pausar por segundos ou horas para usar uma ferramenta, interrompendo o gerenciamento tradicional de cache e a escalonagem. Essa complexidade reforça a crença dos fundadores de que o open source é o único caminho viável adiante; nenhuma stack vertical única consegue otimizar os incontáveis casos de uso, chips e modelos especializados do mundo. A empresa deles, Infraact, foi criada explicitamente para orientar e acelerar o projeto VLLM, com o objetivo de construir uma “camada universal de inferência” que abstraia essa complexidade para todo o ecossistema.


Insights Surpreendentes



  • A inferência é uma dor de cabeça crescente: Os fundadores inicialmente pensaram que otimizar a inferência seria uma tarefa direta de engenharia, mas agora a veem como um problema cuja dificuldade cresce mais rápido do que sua solução, devido à escala, à diversidade e aos agentes.

  • Adoção massiva e precoce por gigantes: Grandes produtos voltados ao consumidor, como o assistente Rufus da Amazon e o Character AI, estiveram entre os primeiros a implantar o VLLM em escala massiva, frequentemente implementando recursos de ponta antes mesmo de serem formalmente integrados ao projeto principal.

  • O fundo de subsídios que virou investimento: Uma parte do primeiro financiamento por subsídio concedido ao projeto VLLM teria sido investida em ações da NVIDIA, destacando de forma bem-humorada a ligação precoce e visionária entre o sucesso do projeto e o mercado de GPUs.

  • Um projeto open source de um milhão de dólares por ano: Manter o VLLM exige mais de um milhão de dólares anuais apenas para testes de integração contínua, o que evidencia o imenso custo e a responsabilidade de sustentar uma infraestrutura que roda em centenas de milhares de GPUs em produção.


Lições Práticas



  • Para engenheiros: Ao construir aplicações com LLMs, trate o dinamismo dos prompts e das saídas como uma restrição de design de primeira ordem. Um serving eficiente exige sistemas que lidem com comprimentos variáveis de entrada/saída e tempos de conclusão não determinísticos, e não apenas poder bruto de computação.

  • Para contribuidores de open source: Um projeto bem-sucedido combina roadmaps claros definidos de cima para baixo com uma política aberta a contribuições da comunidade. Encontros presenciais regulares continuam sendo uma forma surpreendentemente eficiente de criar coesão e impulso dentro de uma comunidade técnica distribuída.

  • Para empresas que constroem com IA: Aproveitem mecanismos de inferência open source como o VLLM para evitar a armadilha de criar e manter um fork interno que não consegue acompanhar o ritmo da inovação acelerada em modelos, hardware e novas cargas de trabalho, como agentes.

  • Para designers de sistemas: Pensem na camada de inferência em IA como algo análogo a um sistema operacional ou a um banco de dados — uma abstração crítica que gerencia novos recursos físicos (GPUs/TPUs) para uma nova classe de aplicações. O futuro está em plataformas horizontais, não em silos verticalmente integrados.


Inferact is a new AI infrastructure company founded by the creators and core maintainers of vLLM. Its mission is to build a universal, open-source inference layer that makes large AI models faster, cheaper, and more reliable to run across any hardware, model architecture, or deployment environment. Together, they broke down how modern AI models are actually run in production, why “inference” has quietly become one of the hardest problems in AI infrastructure, and how the open-source project vLLM emerged to solve it. The conversation also looked at why the vLLM team started Inferact and their vision for a universal inference layer that can run any model, on any chip, efficiently.

Follow Matt Bornstein on X: https://twitter.com/BornsteinMatt

Follow Simon Mo on X: https://twitter.com/simon_mo_

Follow Woosuk Kwon on X: https://twitter.com/woosuk_k

Follow vLLM on X: https://twitter.com/vllm_project

Stay Updated:

Find a16z on X

Find a16z on LinkedIn

Listen to the a16z Show on Spotify

Listen to the a16z Show on Apple Podcasts

Follow our host: https://twitter.com/eriktorenberg

 

Please note that the content here is for informational purposes only; should NOT be taken as legal, business, tax, or investment advice or be used to evaluate any investment or security; and is not directed at any investors or potential investors in any a16z fund. a16z and its affiliates may maintain investments in the companies discussed. For more details please see a16z.com/disclosures.

Hosted by Simplecast, an AdsWizz company. See pcm.adswizz.com for information about our collection and use of personal data for advertising.

Leave a Reply

a16z Podcasta16z Podcast
Let's Evolve Together
Logo