#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

Summary & Insights

The competitive landscape of artificial intelligence was fundamentally reshaped by what’s become known as the “DeepSeek moment” in early 2025, when the Chinese company released a state-of-the-art open-weight model that performed nearly as well as the best proprietary systems for a fraction of the compute cost. This event kicked off an intense international race, not just in research but in products, setting the stage for a year of rapid innovation. The conversation explores whether the United States or China is currently “winning,” concluding that while U.S. models like Claude Opus and GPT-5 currently lead in user-facing quality and intelligence, China is aggressively winning hearts and minds by releasing powerful, unrestricted open-weight models. This open-source strategy is a deliberate play for global influence, especially in markets where paying for software APIs is less common, and it’s forcing all players to accelerate.

Delving into the technical engine of this progress, the discussion reveals a surprising stability at the core: the fundamental transformer architecture has evolved only incrementally since GPT-2, with tweaks like Mixture of Experts (MoE) and novel attention mechanisms providing gains. The real action and exponential improvement have come from scaling—but not just scaling model size. The most significant unlocks in 2025 came from scaling inference-time compute (letting models “think” longer before answering) and scaling Reinforcement Learning with Verifiable Rewards (RLVR). This focus on post-training, where models learn to use tools and reason step-by-step, has dramatically expanded capabilities in coding and problem-solving, far beyond what raw pre-training on more data could achieve alone.

This technical evolution is creating fascinating user dynamics and a new kind of digital literacy. Power users are now curating a portfolio of AI tools—using ChatGPT for speed, Claude for deep reasoning and code, Gemini for specific search tasks, and open models for local, private experimentation. The technology is becoming deeply personal and agentic, moving from a simple chat interface to an active partner that can manage projects, write code, and analyze data. This shift raises profound questions about the future of work, education, and creativity, as humans must learn to collaborate with and guide these increasingly capable systems, finding the “Goldilocks zone” between over-reliance and underutilization.

Looking forward, the trajectory points toward more specialization and embedding of AI into every layer of the digital stack. The coming year will likely see continued scaling across all fronts—pre-training, post-training, and inference—enabled by massive new clusters of next-generation GPUs. However, the largest societal impacts may come from the quiet, pervasive diffusion of AI as a tool for accessing and synthesizing human knowledge, a force that could empower global learning and innovation on an unprecedented scale. The journey ahead is less about a single “AGI” breakthrough and more about the steady amplification of human capability through a diverse and competitive ecosystem of increasingly intelligent tools.

Surprising Insights

China’s primary advantage in the AI race isn’t secret technology, but a strategic commitment to open-weight models. By releasing high-performance models with permissive licenses, Chinese companies like DeepSeek, Kimi, and Minimax are building massive global influence and developer adoption, particularly in regions unwilling to pay for U.S. API subscriptions.
The biggest capability leaps in the past year came not from new architectures, but from scaling how models are trained and used. Innovations like RLVR and inference-time scaling (e.g., OpenAI’s O1) have done more to unlock reasoning and tool use than any fundamental change to the transformer blueprint.
The most expensive and defining bottleneck for frontier AI labs is shifting from training cost to serving cost. While training a top model might cost tens or hundreds of millions, serving it to hundreds of millions of users incurs ongoing costs in the billions, fundamentally shaping business model decisions.
Reinforcement Learning from Human Feedback (RLHF), while crucial for aligning model tone, may have inherent limits for scaling intelligence. Unlike RLVR, which shows clear logarithmic scaling laws, RLHF is optimized for averaging human preferences and may not provide endless gains from more compute.
The “dream” of a single, monolithic AGI that rules all digital tasks is giving way to a future of specialized, multiple AI agents. Users already employ different models for different tasks, and systems are evolving toward ecosystems of AIs that collaborate, a structure more reliant on networking and integration than raw compute alone.

Practical Takeaways

To truly understand AI, build a simple language model from scratch. As Sebastian Rashka advocates, this hands-on approach, following resources like his book, forces you to grasp the core components (attention, training loops) and provides a reference frame for understanding the more complex production systems.
Adopt a portfolio approach to using AI tools. Don’t loyalty to one model. Use fast models (GPT-5 non-thinking, Gemini) for quick queries, reasoning models (Claude Opus, GPT Pro) for complex analysis and coding, and open/local models for experimentation and data-sensitive tasks.
For a career in AI, go narrow and deep after mastering fundamentals. The field moves too fast to follow everything. Pick a niche area (e.g., RLHF, model evaluation, data curation), read the 3-5 seminal papers, and engage deeply. Meaningful research contributions are still possible without massive compute.
Use AI to augment, not replace, the struggle essential for learning. When studying or debugging, fight the urge to immediately ask for a full solution. Use the AI as a tutor—ask for hints, generate practice problems, or explain specific steps—to preserve the cognitive benefits of working through difficulty.
Develop a critical “taste” for AI-generated content and your own usage patterns. Be aware of when you’re outsourcing thinking you should retain and when you’re efficiently automating drudgery. Cultivate an awareness of AI “slop” and consciously value human-generated, physical, and in-person experiences.

El panorama competitivo de la inteligencia artificial fue transformado de manera fundamental por lo que llegó a conocerse como el “momento DeepSeek” a principios de 2025, cuando la empresa china lanzó un modelo abierto de última generación que rendía casi tan bien como los mejores sistemas propietarios por una fracción del costo computacional. Este acontecimiento desencadenó una intensa carrera internacional, no solo en investigación sino también en productos, sentando las bases para un año de rápida innovación. La conversación explora si actualmente Estados Unidos o China va “ganando”, y concluye que, si bien los modelos estadounidenses como Claude Opus y GPT-5 lideran por ahora en calidad percibida por el usuario e inteligencia, China está ganando agresivamente corazones y mentes al liberar potentes modelos abiertos sin restricciones. Esta estrategia de código abierto es una apuesta deliberada por la influencia global, especialmente en mercados donde pagar por APIs de software es menos habitual, y está obligando a todos los actores a acelerar.

Al profundizar en el motor técnico de este progreso, la discusión revela una sorprendente estabilidad en el núcleo: la arquitectura fundamental de los transformers ha evolucionado solo de forma incremental desde GPT-2, con ajustes como Mixture of Experts (MoE) y nuevos mecanismos de atención que aportan mejoras. La verdadera acción y la mejora exponencial han venido del escalado, pero no solo del escalado del tamaño del modelo. Los desbloqueos más significativos en 2025 provinieron del escalado del cómputo en tiempo de inferencia (permitiendo que los modelos “piensen” más tiempo antes de responder) y del escalado del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Este enfoque en el posentrenamiento, donde los modelos aprenden a usar herramientas y razonar paso a paso, ha ampliado drásticamente las capacidades en programación y resolución de problemas, mucho más allá de lo que el preentrenamiento bruto con más datos podría lograr por sí solo.

Esta evolución técnica está creando dinámicas de uso fascinantes y una nueva clase de alfabetización digital. Los usuarios avanzados ahora están curando un portafolio de herramientas de IA: usan ChatGPT por su rapidez, Claude para razonamiento profundo y código, Gemini para tareas específicas de búsqueda, y modelos abiertos para experimentación local y privada. La tecnología se está volviendo profundamente personal y agéntica, pasando de una simple interfaz de chat a un socio activo que puede gestionar proyectos, escribir código y analizar datos. Este cambio plantea preguntas profundas sobre el futuro del trabajo, la educación y la creatividad, ya que los humanos deben aprender a colaborar con estos sistemas cada vez más capaces y a guiarlos, encontrando la “zona Ricitos de Oro” entre la dependencia excesiva y la infrautilización.

De cara al futuro, la trayectoria apunta hacia una mayor especialización y una integración de la IA en cada capa del ecosistema digital. Es probable que el próximo año continúe el escalado en todos los frentes —preentrenamiento, posentrenamiento e inferencia— impulsado por enormes nuevos clústeres de GPU de próxima generación. Sin embargo, los mayores impactos sociales podrían provenir de la difusión silenciosa y generalizada de la IA como herramienta para acceder al conocimiento humano y sintetizarlo, una fuerza que podría impulsar el aprendizaje y la innovación globales a una escala sin precedentes. El camino por delante tiene menos que ver con un único avance hacia la “AGI” y más con la amplificación constante de la capacidad humana mediante un ecosistema diverso y competitivo de herramientas cada vez más inteligentes.

Ideas sorprendentes

La principal ventaja de China en la carrera de la IA no es una tecnología secreta, sino un compromiso estratégico con los modelos abiertos. Al liberar modelos de alto rendimiento con licencias permisivas, empresas chinas como DeepSeek, Kimi y Minimax están construyendo una enorme influencia global y adopción por parte de desarrolladores, particularmente en regiones poco dispuestas a pagar suscripciones a APIs estadounidenses.

Los mayores saltos de capacidad del último año no provinieron de nuevas arquitecturas, sino del escalado de cómo se entrenan y utilizan los modelos. Innovaciones como RLVR y el escalado en tiempo de inferencia (por ejemplo, O1 de OpenAI) han hecho más para desbloquear el razonamiento y el uso de herramientas que cualquier cambio fundamental en el plano del transformer.

El cuello de botella más costoso y definitorio para los laboratorios de IA de frontera está pasando del costo de entrenamiento al costo de servicio. Aunque entrenar un modelo de primer nivel puede costar decenas o cientos de millones, servirlo a cientos de millones de usuarios genera costos continuos de miles de millones, lo que moldea de manera fundamental las decisiones sobre el modelo de negocio.

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), aunque crucial para alinear el tono del modelo, puede tener límites inherentes para escalar la inteligencia. A diferencia de RLVR, que muestra leyes claras de escalado logarítmico, RLHF está optimizado para promediar preferencias humanas y podría no ofrecer ganancias ilimitadas con más cómputo.

El “sueño” de una AGI única y monolítica que domine todas las tareas digitales está dando paso a un futuro de múltiples agentes de IA especializados. Los usuarios ya emplean distintos modelos para distintas tareas, y los sistemas están evolucionando hacia ecosistemas de IAs que colaboran entre sí, una estructura más dependiente de la interconexión y la integración que del cómputo bruto por sí solo.

Conclusiones prácticas

Para comprender realmente la IA, construye un modelo de lenguaje simple desde cero. Como defiende Sebastian Rashka, este enfoque práctico, siguiendo recursos como su libro, te obliga a entender los componentes centrales (atención, bucles de entrenamiento) y proporciona un marco de referencia para comprender sistemas de producción más complejos.

Adopta un enfoque de portafolio al usar herramientas de IA. No seas leal a un solo modelo. Usa modelos rápidos (GPT-5 sin razonamiento, Gemini) para consultas rápidas, modelos de razonamiento (Claude Opus, GPT Pro) para análisis complejos y programación, y modelos abiertos/locales para experimentación y tareas con datos sensibles.

Para desarrollar una carrera en IA, especialízate de forma profunda tras dominar los fundamentos. El campo avanza demasiado rápido como para seguirlo todo. Elige un área de nicho (por ejemplo, RLHF, evaluación de modelos, curación de datos), lee entre 3 y 5 artículos fundamentales y profundiza de verdad.

Las contribuciones significativas a la investigación siguen siendo posibles sin una enorme capacidad de cómputo.

Usa la IA para complementar, no para reemplazar, el esfuerzo esencial para aprender. Al estudiar o depurar, resiste la tentación de pedir de inmediato una solución completa. Usa la IA como tutor: pídele pistas, que genere ejercicios de práctica o que explique pasos específicos, para preservar los beneficios cognitivos de abrirte camino a través de la dificultad.

Desarrolla un criterio crítico para el contenido generado por IA y para tus propios patrones de uso. Sé consciente de cuándo estás delegando un pensamiento que deberías conservar y cuándo estás automatizando eficientemente tareas tediosas. Cultiva una conciencia de la “basura” generada por IA y valora deliberadamente las experiencias humanas, físicas y presenciales.

O cenário competitivo da inteligência artificial foi fundamentalmente remodelado pelo que passou a ser conhecido como o “momento DeepSeek” no início de 2025, quando a empresa chinesa lançou um modelo open-weight de ponta que teve desempenho quase tão bom quanto os melhores sistemas proprietários por uma fração do custo computacional. Esse evento deu início a uma intensa corrida internacional, não apenas em pesquisa, mas também em produtos, preparando o terreno para um ano de inovação acelerada. A conversa explora se os Estados Unidos ou a China estão atualmente “vencendo”, concluindo que, embora modelos americanos como Claude Opus e GPT-5 liderem no momento em qualidade percebida pelo usuário e inteligência, a China está conquistando corações e mentes de forma agressiva ao lançar modelos open-weight poderosos e sem restrições. Essa estratégia de código aberto é uma jogada deliberada de influência global, especialmente em mercados onde pagar por APIs de software é menos comum, e está forçando todos os participantes a acelerar.

Aprofundando-se no motor técnico desse progresso, a discussão revela uma estabilidade surpreendente no núcleo: a arquitetura fundamental dos transformers evoluiu apenas de forma incremental desde o GPT-2, com ajustes como Mixture of Experts (MoE) e novos mecanismos de atenção trazendo ganhos. A verdadeira ação e a melhora exponencial vieram da escalabilidade — mas não apenas da ampliação do tamanho dos modelos. Os avanços mais significativos de 2025 vieram da expansão do compute em tempo de inferência (permitindo que os modelos “pensem” por mais tempo antes de responder) e da ampliação do Reinforcement Learning with Verifiable Rewards (RLVR). Esse foco no pós-treinamento, em que os modelos aprendem a usar ferramentas e a raciocinar passo a passo, ampliou dramaticamente as capacidades em programação e resolução de problemas, muito além do que o pré-treinamento bruto com mais dados poderia alcançar sozinho.

Essa evolução técnica está criando dinâmicas de uso fascinantes e um novo tipo de alfabetização digital. Usuários avançados agora estão montando um portfólio de ferramentas de IA — usando o ChatGPT pela velocidade, o Claude para raciocínio profundo e código, o Gemini para tarefas específicas de busca e modelos abertos para experimentação local e privada. A tecnologia está se tornando profundamente pessoal e agêntica, deixando de ser uma simples interface de chat para se tornar um parceiro ativo capaz de gerenciar projetos, escrever código e analisar dados. Essa mudança levanta questões profundas sobre o futuro do trabalho, da educação e da criatividade, à medida que os humanos precisam aprender a colaborar com esses sistemas cada vez mais capazes e a orientá-los, encontrando a “zona ideal” entre dependência excessiva e subutilização.

Olhando para o futuro, a trajetória aponta para mais especialização e para a incorporação da IA em todas as camadas da pilha digital. O próximo ano provavelmente verá a continuidade da escalabilidade em todas as frentes — pré-treinamento, pós-treinamento e inferência — viabilizada por enormes novos clusters de GPUs de próxima geração. No entanto, os maiores impactos sociais podem vir da difusão silenciosa e disseminada da IA como ferramenta de acesso e síntese do conhecimento humano, uma força que pode impulsionar o aprendizado e a inovação globais em uma escala sem precedentes. A jornada à frente tem menos a ver com um único avanço de “AGI” e mais com a amplificação constante da capacidade humana por meio de um ecossistema diverso e competitivo de ferramentas cada vez mais inteligentes.

Percepções Surpreendentes

A principal vantagem da China na corrida da IA não é tecnologia secreta, mas um compromisso estratégico com modelos open-weight. Ao lançar modelos de alto desempenho com licenças permissivas, empresas chinesas como DeepSeek, Kimi e Minimax estão construindo enorme influência global e adoção entre desenvolvedores, especialmente em regiões pouco dispostas a pagar por assinaturas de APIs americanas.

Os maiores saltos de capacidade no último ano não vieram de novas arquiteturas, mas da ampliação de como os modelos são treinados e usados. Inovações como RLVR e escalabilidade em tempo de inferência (por exemplo, o O1 da OpenAI) fizeram mais para liberar capacidades de raciocínio e uso de ferramentas do que qualquer mudança fundamental no blueprint dos transformers.

O gargalo mais caro e mais determinante para os laboratórios de IA de fronteira está deixando de ser o custo de treinamento e passando a ser o custo de servir os modelos. Embora treinar um modelo de ponta possa custar dezenas ou centenas de milhões, disponibilizá-lo para centenas de milhões de usuários gera custos contínuos na casa dos bilhões, moldando de forma decisiva as escolhas de modelo de negócios.

O Reinforcement Learning from Human Feedback (RLHF), embora crucial para alinhar o tom do modelo, pode ter limites inerentes para escalar inteligência. Diferentemente do RLVR, que mostra leis de escalabilidade logarítmicas claras, o RLHF é otimizado para refletir a média das preferências humanas e pode não oferecer ganhos ilimitados com mais capacidade computacional.

O “sonho” de uma AGI única e monolítica que domine todas as tarefas digitais está dando lugar a um futuro de múltiplos agentes de IA especializados. Os usuários já empregam modelos diferentes para tarefas diferentes, e os sistemas estão evoluindo para ecossistemas de IAs que colaboram entre si, uma estrutura mais dependente de redes e integração do que apenas de poder computacional bruto.

Conclusões Práticas

Para realmente entender IA, construa um modelo de linguagem simples do zero. Como defende Sebastian Rashka, essa abordagem prática, seguindo recursos como seu livro, obriga você a compreender os componentes centrais (atenção, loops de treinamento) e fornece uma base de referência para entender os sistemas de produção mais complexos.

Adote uma abordagem de portfólio no uso de ferramentas de IA. Não seja fiel a um único modelo. Use modelos rápidos (GPT-5 sem raciocínio prolongado, Gemini) para consultas rápidas, modelos de raciocínio (Claude Opus, GPT Pro) para análises complexas e programação, e modelos abertos/locais para experimentação e tarefas com dados sensíveis.

Para construir uma carreira em IA, aprofunde-se em uma área específica após dominar os fundamentos. O campo avança rápido demais para acompanhar tudo. Escolha um nicho (por exemplo, RLHF, avaliação de modelos, curadoria de dados), leia os 3 a 5 artigos seminais e envolva-se profundamente.

Contribuições de pesquisa significativas ainda são possíveis sem enorme poder computacional.

Use a IA para complementar, não substituir, a luta essencial para o aprendizado. Ao estudar ou depurar, resista ao impulso de pedir imediatamente uma solução completa. Use a IA como tutora — peça dicas, gere problemas de prática ou solicite explicações de etapas específicas — para preservar os benefícios cognitivos de enfrentar a dificuldade.

Desenvolva um “senso crítico” para conteúdo gerado por IA e para seus próprios padrões de uso. Esteja ciente de quando você está terceirizando um pensamento que deveria manter e de quando está automatizando de forma eficiente tarefas repetitivas. Cultive uma percepção do “lixo de IA” e valorize conscientemente experiências humanas, físicas e presenciais.

Nathan Lambert and Sebastian Raschka are machine learning researchers, engineers, and educators. Nathan is the post-training lead at the Allen Institute for AI (Ai2) and the author of The RLHF Book. Sebastian Raschka is the author of Build a Large Language Model (From Scratch) and Build a Reasoning Model (From Scratch).
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep490-sc
See below for timestamps, transcript, and to give feedback, submit questions, contact Lex, etc.

Transcript:
https://lexfridman.com/ai-sota-2026-transcript

CONTACT LEX:
Feedback – give feedback to Lex: https://lexfridman.com/survey
AMA – submit questions, videos or call-in: https://lexfridman.com/ama
Hiring – join our team: https://lexfridman.com/hiring
Other – other ways to get in touch: https://lexfridman.com/contact

SPONSORS:
To support this podcast, check out our sponsors & get discounts:
Box: Intelligent content management platform.
Go to https://box.com/ai
Quo: Phone system (calls, texts, contacts) for businesses.
Go to https://quo.com/lex
UPLIFT Desk: Standing desks and office ergonomics.
Go to https://upliftdesk.com/lex
Fin: AI agent for customer service.
Go to https://fin.ai/lex
Shopify: Sell stuff online.
Go to https://shopify.com/lex
CodeRabbit: AI-powered code reviews.
Go to https://coderabbit.ai/lex
LMNT: Zero-sugar electrolyte drink mix.
Go to https://drinkLMNT.com/lex
Perplexity: AI-powered answer engine.
Go to https://perplexity.ai/

OUTLINE:
(00:00) – Introduction
(01:39) – Sponsors, Comments, and Reflections
(16:29) – China vs US: Who wins the AI race?
(25:11) – ChatGPT vs Claude vs Gemini vs Grok: Who is winning?
(36:11) – Best AI for coding
(43:02) – Open Source vs Closed Source LLMs
(54:41) – Transformers: Evolution of LLMs since 2019
(1:02:38) – AI Scaling Laws: Are they dead or still holding?
(1:18:45) – How AI is trained: Pre-training, Mid-training, and Post-training
(1:51:51) – Post-training explained: Exciting new research directions in LLMs
(2:12:43) – Advice for beginners on how to get into AI development & research
(2:35:36) – Work culture in AI (72+ hour weeks)
(2:39:22) – Silicon Valley bubble
(2:43:19) – Text diffusion models and other new research directions
(2:49:01) – Tool use
(2:53:17) – Continual learning
(2:58:39) – Long context
(3:04:54) – Robotics
(3:14:04) – Timeline to AGI
(3:21:20) – Will AI replace programmers?
(3:39:51) – Is the dream of AGI dying?
(3:46:40) – How AI will make money?
(3:51:02) – Big acquisitions in 2026
(3:55:34) – Future of OpenAI, Anthropic, Google DeepMind, xAI, Meta
(4:08:08) – Manhattan Project for AI
(4:14:42) – Future of NVIDIA, GPUs, and AI compute clusters
(4:22:48) – Future of human civilization