#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

Summary & Insights

The competitive landscape of artificial intelligence was fundamentally reshaped by what’s become known as the “DeepSeek moment” in early 2025, when the Chinese company released a state-of-the-art open-weight model that performed nearly as well as the best proprietary systems for a fraction of the compute cost. This event kicked off an intense international race, not just in research but in products, setting the stage for a year of rapid innovation. The conversation explores whether the United States or China is currently “winning,” concluding that while U.S. models like Claude Opus and GPT-5 currently lead in user-facing quality and intelligence, China is aggressively winning hearts and minds by releasing powerful, unrestricted open-weight models. This open-source strategy is a deliberate play for global influence, especially in markets where paying for software APIs is less common, and it’s forcing all players to accelerate.

Delving into the technical engine of this progress, the discussion reveals a surprising stability at the core: the fundamental transformer architecture has evolved only incrementally since GPT-2, with tweaks like Mixture of Experts (MoE) and novel attention mechanisms providing gains. The real action and exponential improvement have come from scaling—but not just scaling model size. The most significant unlocks in 2025 came from scaling inference-time compute (letting models “think” longer before answering) and scaling Reinforcement Learning with Verifiable Rewards (RLVR). This focus on post-training, where models learn to use tools and reason step-by-step, has dramatically expanded capabilities in coding and problem-solving, far beyond what raw pre-training on more data could achieve alone.

This technical evolution is creating fascinating user dynamics and a new kind of digital literacy. Power users are now curating a portfolio of AI tools—using ChatGPT for speed, Claude for deep reasoning and code, Gemini for specific search tasks, and open models for local, private experimentation. The technology is becoming deeply personal and agentic, moving from a simple chat interface to an active partner that can manage projects, write code, and analyze data. This shift raises profound questions about the future of work, education, and creativity, as humans must learn to collaborate with and guide these increasingly capable systems, finding the “Goldilocks zone” between over-reliance and underutilization.

Looking forward, the trajectory points toward more specialization and embedding of AI into every layer of the digital stack. The coming year will likely see continued scaling across all fronts—pre-training, post-training, and inference—enabled by massive new clusters of next-generation GPUs. However, the largest societal impacts may come from the quiet, pervasive diffusion of AI as a tool for accessing and synthesizing human knowledge, a force that could empower global learning and innovation on an unprecedented scale. The journey ahead is less about a single “AGI” breakthrough and more about the steady amplification of human capability through a diverse and competitive ecosystem of increasingly intelligent tools.

Surprising Insights

China’s primary advantage in the AI race isn’t secret technology, but a strategic commitment to open-weight models. By releasing high-performance models with permissive licenses, Chinese companies like DeepSeek, Kimi, and Minimax are building massive global influence and developer adoption, particularly in regions unwilling to pay for U.S. API subscriptions.
The biggest capability leaps in the past year came not from new architectures, but from scaling how models are trained and used. Innovations like RLVR and inference-time scaling (e.g., OpenAI’s O1) have done more to unlock reasoning and tool use than any fundamental change to the transformer blueprint.
The most expensive and defining bottleneck for frontier AI labs is shifting from training cost to serving cost. While training a top model might cost tens or hundreds of millions, serving it to hundreds of millions of users incurs ongoing costs in the billions, fundamentally shaping business model decisions.
Reinforcement Learning from Human Feedback (RLHF), while crucial for aligning model tone, may have inherent limits for scaling intelligence. Unlike RLVR, which shows clear logarithmic scaling laws, RLHF is optimized for averaging human preferences and may not provide endless gains from more compute.
The “dream” of a single, monolithic AGI that rules all digital tasks is giving way to a future of specialized, multiple AI agents. Users already employ different models for different tasks, and systems are evolving toward ecosystems of AIs that collaborate, a structure more reliant on networking and integration than raw compute alone.

Practical Takeaways

To truly understand AI, build a simple language model from scratch. As Sebastian Rashka advocates, this hands-on approach, following resources like his book, forces you to grasp the core components (attention, training loops) and provides a reference frame for understanding the more complex production systems.
Adopt a portfolio approach to using AI tools. Don’t loyalty to one model. Use fast models (GPT-5 non-thinking, Gemini) for quick queries, reasoning models (Claude Opus, GPT Pro) for complex analysis and coding, and open/local models for experimentation and data-sensitive tasks.
For a career in AI, go narrow and deep after mastering fundamentals. The field moves too fast to follow everything. Pick a niche area (e.g., RLHF, model evaluation, data curation), read the 3-5 seminal papers, and engage deeply. Meaningful research contributions are still possible without massive compute.
Use AI to augment, not replace, the struggle essential for learning. When studying or debugging, fight the urge to immediately ask for a full solution. Use the AI as a tutor—ask for hints, generate practice problems, or explain specific steps—to preserve the cognitive benefits of working through difficulty.
Develop a critical “taste” for AI-generated content and your own usage patterns. Be aware of when you’re outsourcing thinking you should retain and when you’re efficiently automating drudgery. Cultivate an awareness of AI “slop” and consciously value human-generated, physical, and in-person experiences.

Cảnh quan cạnh tranh trong lĩnh vực trí tuệ nhân tạo đã được định hình lại cơ bản bởi sự kiện được gọi là “thời khắc DeepSeek” vào đầu năm 2025, khi công ty Trung Quốc này công bố một mô hình mã nguồn mở trọng số mở tiên tiến có hiệu suất gần ngang bằng với các hệ thống độc quyền tốt nhất nhưng chỉ với một phần nhỏ chi phí tính toán. Sự kiện này đã khởi động một cuộc đua quốc tế gay gắt, không chỉ trong nghiên cứu mà còn trong sản phẩm, tạo tiền đề cho một năm đổi mới nhanh chóng. Cuộc thảo luận tìm hiểu liệu Mỹ hay Trung Quốc hiện đang “chiến thắng,” và kết luận rằng trong khi các mô hình Mỹ như Claude Opus và GPT-5 hiện dẫn đầu về chất lượng và trí thông minh hướng tới người dùng, thì Trung Quốc đang tích cực chinh phục lòng người bằng cách phát hành các mô hình trọng số mở mạnh mẽ và không hạn chế. Chiến lược mã nguồn mở này là một nước đi có chủ đích nhằm giành ảnh hưởng toàn cầu, đặc biệt tại các thị trường nơi việc trả phí cho phần mềm API ít phổ biến hơn, và nó đang buộc tất cả các bên tham gia phải tăng tốc.
Đi sâu vào động cơ kỹ thuật của sự tiến bộ này, cuộc thảo luận tiết lộ một sự ổn định đáng ngạc nhiên ở cốt lõi: kiến trúc transformer cơ bản chỉ phát triển từng bước kể từ GPT-2, với các điều chỉnh như Hỗn hợp Chuyên gia (MoE) và các cơ chế chú ý mới mang lại những cải tiến. Hành động thực sự và sự cải thiện theo cấp số nhân đến từ việc mở rộng quy mô—nhưng không chỉ là mở rộng kích thước mô hình. Những bước đột phá quan trọng nhất năm 2025 đến từ việc mở rộng *khả năng tính toán tại thời điểm suy luận* (cho phép các mô hình “suy nghĩ” lâu hơn trước khi trả lời) và mở rộng *Học Tăng Cường với Phần Thưởng Có Thể Xác Minh (RLVR)*. Trọng tâm này vào giai đoạn sau đào tạo, nơi các mô hình học cách sử dụng công cụ và lý luận từng bước, đã mở rộng đáng kể khả năng trong lập trình và giải quyết vấn đề, vượt xa những gì chỉ đào tạo trước thuần túy trên nhiều dữ liệu hơn có thể đạt được.
Sự tiến hóa kỹ thuật này đang tạo ra động lực người dùng hấp dẫn và một loại hình đọc viết số mới. Người dùng chuyên nghiệp giờ đây đang tuyển chọn một danh mục các công cụ AI—sử dụng ChatGPT cho tốc độ, Claude cho lý luận sâu và mã code, Gemini cho các nhiệm vụ tìm kiếm cụ thể, và các mô hình mở cho thử nghiệm cục bộ, riêng tư. Công nghệ đang trở nên cá nhân hóa sâu sắc và có tính chủ động, chuyển từ giao diện trò chuyện đơn giản sang một đối tác tích cực có thể quản lý dự án, viết mã và phân tích dữ liệu. Sự thay đổi này đặt ra những câu hỏi sâu sắc về tương lai của công việc, giáo dục và sáng tạo, khi con người phải học cách hợp tác và hướng dẫn các hệ thống ngày càng có năng lực này, tìm ra “vùng vừa phải” giữa việc phụ thuộc quá mức và sử dụng chưa hết tiềm năng.
Nhìn về phía trước, quỹ đạo hướng tới sự chuyên môn hóa nhiều hơn và tích hợp AI vào mọi tầng của hệ thống số. Năm tới có thể sẽ chứng kiến việc mở rộng quy mô tiếp tục trên tất cả các mặt—đào tạo trước, đào tạo sau và suy luận—được hỗ trợ bởi các cụm GPU thế hệ mới khổng lồ. Tuy nhiên, tác động xã hội lớn nhất có thể đến từ sự lan tỏa thầm lặng và rộng khắp của AI như một công cụ để truy cập và tổng hợp tri thức nhân loại, một lực lượng có thể trao quyền cho việc học tập và đổi mới toàn cầu ở quy mô chưa từng có. Hành trình phía trước ít liên quan đến một đột phá “AGI” đơn lẻ mà thiên về sự khuếch đại ổn định khả năng con người thông qua một hệ sinh thái đa dạng và cạnh tranh gồm các công cụ ngày càng thông minh.
### Những Thông Tin Đáng Ngạc Nhiên
* **Lợi thế chính của Trung Quốc trong cuộc đua AI không phải là công nghệ bí mật, mà là cam kết chiến lược với các mô hình trọng số mở.** Bằng cách phát hành các mô hình hiệu suất cao với giấy phép tự do, các công ty Trung Quốc như DeepSeek, Kimi và Minimax đang xây dựng ảnh hưởng toàn cầu và mức độ áp dụng trong giới phát triển khổng lồ, đặc biệt ở những khu vực không muốn trả phí đăng ký API của Mỹ.
* **Những bước nhảy vọt lớn nhất về khả năng trong năm qua không đến từ kiến trúc mới, mà từ việc mở rộng cách các mô hình được *đào tạo* và *sử dụng*.** Những đổi mới như RLVR và mở rộng thời gian suy luận (ví dụ: O1 của OpenAI) đã đóng góp nhiều hơn trong việc mở khóa khả năng lý luận và sử dụng công cụ so với bất kỳ thay đổi cơ bản nào đối với thiết kế transformer.
* **Nút thắt cổ chai tốn kém nhất và mang tính định hình cho các phòng lab AI tiên phong đang chuyển từ chi phí đào tạo sang chi phí phục vụ.** Trong khi việc đào tạo một mô hình hàng đầu có thể tốn hàng chục hoặc hàng trăm triệu USD, việc phục vụ nó cho hàng trăm triệu người dùng lại phát sinh chi phí liên tục lên tới *hàng tỷ USD*, định hình cơ bản các quyết định mô hình kinh doanh.
* **Học Tăng Cường từ Phản hồi Con người (RLHF), dù quan trọng để điều chỉnh giọng điệu của mô hình, có thể có những giới hạn cố hữu trong việc mở rộng trí thông minh.** Không như RLVR, nơi cho thấy các quy luật mở rộng logarit rõ ràng, RLHF được tối ưu hóa để trung bình hóa sở thích con người và có thể không mang lại lợi ích vô tận từ nhiều khả năng tính toán hơn.
* **”Giấc mơ” về một AGI đơn nhất, thống nhất cai quản mọi nhiệm vụ số đang nhường chỗ cho tương lai của các tác nhân AI chuyên biệt, đa dạng.** Người dùng đã sử dụng các mô hình khác nhau cho các nhiệm vụ khác nhau, và các hệ thống đang tiến hóa thành các hệ sinh thái AI hợp tác với nhau, một cấu trúc phụ thuộc nhiều vào mạng lưới và tích hợp hơn là chỉ riêng khả năng tính toán thô.
### Những Điểm Chính Thực Tiễn
* **Để thực sự hiểu AI, hãy xây dựng một mô hình ngôn ngữ đơn giản từ đầu.** Như Sebastian Rashka ủng hộ, cách tiếp cận thực hành này, theo các tài nguyên như sách của ông, buộc bạn nắm bắt các thành phần cốt lõi (cơ chế chú ý, vòng lặp đào tạo) và cung cấp một khung tham chiếu để hiểu các hệ thống sản xuất phức tạp hơn.
* **Áp dụng cách tiếp cận danh mục khi sử dụng công cụ AI.** Đừng trung thành với một mô hình duy nhất. Sử dụng các mô hình nhanh (GPT-5 không suy nghĩ, Gemini) cho truy vấn nhanh, các mô hình lý luận (Claude Opus, GPT Pro) cho phân tích phức tạp và lập trình, và các mô hình mở/cục bộ cho thử nghiệm và các nhiệm vụ nhạy cảm về dữ liệu.
* **Để có sự nghiệp trong AI, hãy đi sâu và chuyên sâu sau khi nắm vững kiến thức cơ bản.** Lĩnh vực này thay đổi quá nhanh để theo dõi mọi thứ. Hãy chọn một lĩnh vực chuyên ngành hẹp (ví dụ: RLHF, đánh giá mô hình, quản lý dữ liệu), đọc 3-5 bài báo nền tảng và tham gia sâu sắc.
**Việc nghiên cứu có đóng góp ý nghĩa vẫn khả thi mà không cần tới nguồn tính toán khổng lồ.**
– **Hãy dùng AI để bổ trợ, không phải thay thế, những nỗ lực thiết yếu cho việc học.** Khi học tập hoặc gỡ lỗi, hãy cưỡng lại sự thôi thúc hỏi ngay một giải pháp hoàn chỉnh. Dùng AI như một gia sư—hỏi để được gợi ý, tạo bài tập thực hành, hoặc giải thích từng bước cụ thể—nhằm giữ lại lợi ích nhận thức từ việc tự mình vượt qua khó khăn.
– **Phát triển “khiếu” phê phán đối với nội dung do AI tạo ra và thói quen sử dụng của chính mình.** Nhận biết khi nào bạn đang ủy thác suy nghĩ lẽ ra nên giữ lại cho bản thân và khi nào bạn đang tự động hóa hiệu quả những việc máy móc. Nuôi dưỡng nhận thức về những sản phẩm “cẩu thả” từ AI và chủ động trân trọng các trải nghiệm do con người tạo ra, trải nghiệm vật chất và trực tiếp.

人工智能领域的竞争格局在2025年初经历了根本性重塑，这一变革被称为“深度求索时刻”——当时这家中国公司发布了性能接近顶尖专有系统、计算成本却大幅降低的先进开放权重模型。该事件不仅引发了研究领域的国际竞赛，更掀起了产品层面的激烈角逐，为接下来一年的快速创新奠定了基础。讨论聚焦于中美两国谁在当前阶段“领先”，结论指出：虽然Claude Opus和GPT-5等美国模型在面向用户的体验质量与智能表现上暂时领先，但中国正通过持续发布强大且无限制的开放权重模型积极赢取全球支持。这种开源战略是对全球影响力的刻意布局，尤其在软件API付费模式不普及的市场效果显著，并倒逼所有参与者加速发展。
深入探究技术进步的核心引擎，会发现一个令人惊讶的稳定内核：自GPT-2以来，作为基石的Transformer架构仅经历了渐进式改进，诸如混合专家系统（MoE）和新型注意力机制等微调带来了性能提升。真正的突破性进展源于规模扩展——但不仅仅是模型规模的扩大。2025年最关键的突破来自**推理阶段计算资源的扩展**（让模型在回答前拥有更长的“思考”时间）以及**可验证奖励强化学习（RLVR）的规模化应用**。这种对训练后阶段的聚焦——让模型学习使用工具并进行逐步推理——显著提升了代码编写与问题解决能力，其效果远非单纯增加预训练数据量所能企及。
这种技术演进正在催生引人入胜的用户行为模式与新型数字素养。高阶用户开始构建人工智能工具组合：用ChatGPT处理快速任务、Claude进行深度推理与编程、Gemini执行特定搜索，同时利用开源模型进行本地化私密实验。这项技术正变得高度个性化与代理化，从简单的聊天界面演变为能管理项目、编写代码、分析数据的主动伙伴。这种转变引发了对未来工作、教育与创作本质的深刻思考：人类必须学会与这些日益强大的系统协作共生，在过度依赖与利用不足之间找到“黄金平衡点”。
展望未来，发展趋势指向人工智能在数字技术栈各层的深度专业化与嵌入式发展。随着新一代GPU集群的大规模部署，未来一年可能会见证预训练、训练后优化与推理环节的全面持续扩展。然而，最深远的社会影响或许来自人工智能作为知识获取与整合工具的静默渗透——这种力量有望以前所未有的规模推动全球学习与创新。未来的征程并非追求单一的“通用人工智能”突破，而是通过多元化、竞争性的智能工具生态系统，持续放大人类的能力边界。
### 颠覆性洞见
– **中国在AI竞赛中的主要优势并非秘密技术，而是对开放权重模型的战略投入**。通过发布高性能且授权宽松的模型，深度求索、Kimi、Minimax等中国企业正在建立巨大的全球影响力并吸引开发者采用，特别是在不愿支付美国API订阅费用的地区。
– **过去一年最显著的能力飞跃并非来自新架构，而是源于模型训练与使用方式的规模化创新**。相比于Transformer基础框架的根本性变革，RLVR和推理阶段扩展（如OpenAI的O1）等技术为推理能力与工具使用开辟了更广阔的空间。
– **前沿AI实验室最昂贵且决定性的瓶颈正从训练成本转向服务成本**。训练顶级模型可能耗资数千万至数亿美元，但为数亿用户提供服务则会产生数十亿美元的持续成本，这从根本上影响着商业模式的决策。
– **基于人类反馈的强化学习（RLHF）虽对模型风格对齐至关重要，但在扩展智能方面可能存在固有局限**。与遵循明确对数缩放定律的RLVR不同，RLHF旨在优化人类偏好平均值，可能无法通过无限增加计算资源持续获得增益。
– **统御所有数字任务的单一通用人工智能“梦想”正在让位于专业化多元智能代理的未来**。用户已针对不同任务使用不同模型，系统正演变为多智能体协作的生态系统——这种结构更依赖网络连接与集成能力，而非单纯依赖原始算力。
### 实践启示
– **要真正理解人工智能，应从零开始构建简易语言模型**。正如Sebastian Rashka所倡导的，通过实践操作（例如参考其著作资源）能迫使你掌握核心组件（注意力机制、训练循环），并为理解更复杂的生产系统建立认知坐标系。
– **采用组合策略运用AI工具**。避免局限于单一模型：快速模型（GPT-5非思考模式、Gemini）适合即时查询，推理模型（Claude Opus、GPT Pro）适合复杂分析与编程，开放/本地模型则适用于实验探索与数据敏感任务。
– **从事AI职业需在掌握基础后纵向深耕**。该领域发展过快难以面面俱到。选择细分方向（如RLHF、模型评估、数据管理），精读3-5篇奠基性论文并进行深度实践。
即使沒有巨量運算資源，仍可能做出具實質意義的研究貢獻。

運用人工智慧輔助學習過程，而非取代其中必要的掙扎。在學習或除錯時，請抵抗立即索取完整解答的衝動。應將人工智慧視為導師——請其提供提示、生成練習題，或解釋特定步驟——以保留在克服困難過程中所獲得的認知益處。

培養對人工智慧生成內容及自身使用模式的批判性「品味」。注意何時將本應由自己進行的思考外包出去，何時只是有效自動化枯燥事務。建立對人工智慧「粗製內容」的警覺意識，並有意識地珍視人類創造、實體存在及親身體驗的價值。

El panorama competitivo de la inteligencia artificial fue transformado de manera fundamental por lo que llegó a conocerse como el “momento DeepSeek” a principios de 2025, cuando la empresa china lanzó un modelo abierto de última generación que rendía casi tan bien como los mejores sistemas propietarios por una fracción del costo computacional. Este acontecimiento desencadenó una intensa carrera internacional, no solo en investigación sino también en productos, sentando las bases para un año de rápida innovación. La conversación explora si actualmente Estados Unidos o China va “ganando”, y concluye que, si bien los modelos estadounidenses como Claude Opus y GPT-5 lideran por ahora en calidad percibida por el usuario e inteligencia, China está ganando agresivamente corazones y mentes al liberar potentes modelos abiertos sin restricciones. Esta estrategia de código abierto es una apuesta deliberada por la influencia global, especialmente en mercados donde pagar por APIs de software es menos habitual, y está obligando a todos los actores a acelerar.

Al profundizar en el motor técnico de este progreso, la discusión revela una sorprendente estabilidad en el núcleo: la arquitectura fundamental de los transformers ha evolucionado solo de forma incremental desde GPT-2, con ajustes como Mixture of Experts (MoE) y nuevos mecanismos de atención que aportan mejoras. La verdadera acción y la mejora exponencial han venido del escalado, pero no solo del escalado del tamaño del modelo. Los desbloqueos más significativos en 2025 provinieron del escalado del cómputo en tiempo de inferencia (permitiendo que los modelos “piensen” más tiempo antes de responder) y del escalado del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Este enfoque en el posentrenamiento, donde los modelos aprenden a usar herramientas y razonar paso a paso, ha ampliado drásticamente las capacidades en programación y resolución de problemas, mucho más allá de lo que el preentrenamiento bruto con más datos podría lograr por sí solo.

Esta evolución técnica está creando dinámicas de uso fascinantes y una nueva clase de alfabetización digital. Los usuarios avanzados ahora están curando un portafolio de herramientas de IA: usan ChatGPT por su rapidez, Claude para razonamiento profundo y código, Gemini para tareas específicas de búsqueda, y modelos abiertos para experimentación local y privada. La tecnología se está volviendo profundamente personal y agéntica, pasando de una simple interfaz de chat a un socio activo que puede gestionar proyectos, escribir código y analizar datos. Este cambio plantea preguntas profundas sobre el futuro del trabajo, la educación y la creatividad, ya que los humanos deben aprender a colaborar con estos sistemas cada vez más capaces y a guiarlos, encontrando la “zona Ricitos de Oro” entre la dependencia excesiva y la infrautilización.

De cara al futuro, la trayectoria apunta hacia una mayor especialización y una integración de la IA en cada capa del ecosistema digital. Es probable que el próximo año continúe el escalado en todos los frentes —preentrenamiento, posentrenamiento e inferencia— impulsado por enormes nuevos clústeres de GPU de próxima generación. Sin embargo, los mayores impactos sociales podrían provenir de la difusión silenciosa y generalizada de la IA como herramienta para acceder al conocimiento humano y sintetizarlo, una fuerza que podría impulsar el aprendizaje y la innovación globales a una escala sin precedentes. El camino por delante tiene menos que ver con un único avance hacia la “AGI” y más con la amplificación constante de la capacidad humana mediante un ecosistema diverso y competitivo de herramientas cada vez más inteligentes.

Ideas sorprendentes

La principal ventaja de China en la carrera de la IA no es una tecnología secreta, sino un compromiso estratégico con los modelos abiertos. Al liberar modelos de alto rendimiento con licencias permisivas, empresas chinas como DeepSeek, Kimi y Minimax están construyendo una enorme influencia global y adopción por parte de desarrolladores, particularmente en regiones poco dispuestas a pagar suscripciones a APIs estadounidenses.

Los mayores saltos de capacidad del último año no provinieron de nuevas arquitecturas, sino del escalado de cómo se entrenan y utilizan los modelos. Innovaciones como RLVR y el escalado en tiempo de inferencia (por ejemplo, O1 de OpenAI) han hecho más para desbloquear el razonamiento y el uso de herramientas que cualquier cambio fundamental en el plano del transformer.

El cuello de botella más costoso y definitorio para los laboratorios de IA de frontera está pasando del costo de entrenamiento al costo de servicio. Aunque entrenar un modelo de primer nivel puede costar decenas o cientos de millones, servirlo a cientos de millones de usuarios genera costos continuos de miles de millones, lo que moldea de manera fundamental las decisiones sobre el modelo de negocio.

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), aunque crucial para alinear el tono del modelo, puede tener límites inherentes para escalar la inteligencia. A diferencia de RLVR, que muestra leyes claras de escalado logarítmico, RLHF está optimizado para promediar preferencias humanas y podría no ofrecer ganancias ilimitadas con más cómputo.

El “sueño” de una AGI única y monolítica que domine todas las tareas digitales está dando paso a un futuro de múltiples agentes de IA especializados. Los usuarios ya emplean distintos modelos para distintas tareas, y los sistemas están evolucionando hacia ecosistemas de IAs que colaboran entre sí, una estructura más dependiente de la interconexión y la integración que del cómputo bruto por sí solo.

Conclusiones prácticas

Para comprender realmente la IA, construye un modelo de lenguaje simple desde cero. Como defiende Sebastian Rashka, este enfoque práctico, siguiendo recursos como su libro, te obliga a entender los componentes centrales (atención, bucles de entrenamiento) y proporciona un marco de referencia para comprender sistemas de producción más complejos.

Adopta un enfoque de portafolio al usar herramientas de IA. No seas leal a un solo modelo. Usa modelos rápidos (GPT-5 sin razonamiento, Gemini) para consultas rápidas, modelos de razonamiento (Claude Opus, GPT Pro) para análisis complejos y programación, y modelos abiertos/locales para experimentación y tareas con datos sensibles.

Para desarrollar una carrera en IA, especialízate de forma profunda tras dominar los fundamentos. El campo avanza demasiado rápido como para seguirlo todo. Elige un área de nicho (por ejemplo, RLHF, evaluación de modelos, curación de datos), lee entre 3 y 5 artículos fundamentales y profundiza de verdad.

Las contribuciones significativas a la investigación siguen siendo posibles sin una enorme capacidad de cómputo.

Usa la IA para complementar, no para reemplazar, el esfuerzo esencial para aprender. Al estudiar o depurar, resiste la tentación de pedir de inmediato una solución completa. Usa la IA como tutor: pídele pistas, que genere ejercicios de práctica o que explique pasos específicos, para preservar los beneficios cognitivos de abrirte camino a través de la dificultad.

Desarrolla un criterio crítico para el contenido generado por IA y para tus propios patrones de uso. Sé consciente de cuándo estás delegando un pensamiento que deberías conservar y cuándo estás automatizando eficientemente tareas tediosas. Cultiva una conciencia de la “basura” generada por IA y valora deliberadamente las experiencias humanas, físicas y presenciales.

O cenário competitivo da inteligência artificial foi fundamentalmente remodelado pelo que passou a ser conhecido como o “momento DeepSeek” no início de 2025, quando a empresa chinesa lançou um modelo open-weight de ponta que teve desempenho quase tão bom quanto os melhores sistemas proprietários por uma fração do custo computacional. Esse evento deu início a uma intensa corrida internacional, não apenas em pesquisa, mas também em produtos, preparando o terreno para um ano de inovação acelerada. A conversa explora se os Estados Unidos ou a China estão atualmente “vencendo”, concluindo que, embora modelos americanos como Claude Opus e GPT-5 liderem no momento em qualidade percebida pelo usuário e inteligência, a China está conquistando corações e mentes de forma agressiva ao lançar modelos open-weight poderosos e sem restrições. Essa estratégia de código aberto é uma jogada deliberada de influência global, especialmente em mercados onde pagar por APIs de software é menos comum, e está forçando todos os participantes a acelerar.

Aprofundando-se no motor técnico desse progresso, a discussão revela uma estabilidade surpreendente no núcleo: a arquitetura fundamental dos transformers evoluiu apenas de forma incremental desde o GPT-2, com ajustes como Mixture of Experts (MoE) e novos mecanismos de atenção trazendo ganhos. A verdadeira ação e a melhora exponencial vieram da escalabilidade — mas não apenas da ampliação do tamanho dos modelos. Os avanços mais significativos de 2025 vieram da expansão do compute em tempo de inferência (permitindo que os modelos “pensem” por mais tempo antes de responder) e da ampliação do Reinforcement Learning with Verifiable Rewards (RLVR). Esse foco no pós-treinamento, em que os modelos aprendem a usar ferramentas e a raciocinar passo a passo, ampliou dramaticamente as capacidades em programação e resolução de problemas, muito além do que o pré-treinamento bruto com mais dados poderia alcançar sozinho.

Essa evolução técnica está criando dinâmicas de uso fascinantes e um novo tipo de alfabetização digital. Usuários avançados agora estão montando um portfólio de ferramentas de IA — usando o ChatGPT pela velocidade, o Claude para raciocínio profundo e código, o Gemini para tarefas específicas de busca e modelos abertos para experimentação local e privada. A tecnologia está se tornando profundamente pessoal e agêntica, deixando de ser uma simples interface de chat para se tornar um parceiro ativo capaz de gerenciar projetos, escrever código e analisar dados. Essa mudança levanta questões profundas sobre o futuro do trabalho, da educação e da criatividade, à medida que os humanos precisam aprender a colaborar com esses sistemas cada vez mais capazes e a orientá-los, encontrando a “zona ideal” entre dependência excessiva e subutilização.

Olhando para o futuro, a trajetória aponta para mais especialização e para a incorporação da IA em todas as camadas da pilha digital. O próximo ano provavelmente verá a continuidade da escalabilidade em todas as frentes — pré-treinamento, pós-treinamento e inferência — viabilizada por enormes novos clusters de GPUs de próxima geração. No entanto, os maiores impactos sociais podem vir da difusão silenciosa e disseminada da IA como ferramenta de acesso e síntese do conhecimento humano, uma força que pode impulsionar o aprendizado e a inovação globais em uma escala sem precedentes. A jornada à frente tem menos a ver com um único avanço de “AGI” e mais com a amplificação constante da capacidade humana por meio de um ecossistema diverso e competitivo de ferramentas cada vez mais inteligentes.

Percepções Surpreendentes

A principal vantagem da China na corrida da IA não é tecnologia secreta, mas um compromisso estratégico com modelos open-weight. Ao lançar modelos de alto desempenho com licenças permissivas, empresas chinesas como DeepSeek, Kimi e Minimax estão construindo enorme influência global e adoção entre desenvolvedores, especialmente em regiões pouco dispostas a pagar por assinaturas de APIs americanas.

Os maiores saltos de capacidade no último ano não vieram de novas arquiteturas, mas da ampliação de como os modelos são treinados e usados. Inovações como RLVR e escalabilidade em tempo de inferência (por exemplo, o O1 da OpenAI) fizeram mais para liberar capacidades de raciocínio e uso de ferramentas do que qualquer mudança fundamental no blueprint dos transformers.

O gargalo mais caro e mais determinante para os laboratórios de IA de fronteira está deixando de ser o custo de treinamento e passando a ser o custo de servir os modelos. Embora treinar um modelo de ponta possa custar dezenas ou centenas de milhões, disponibilizá-lo para centenas de milhões de usuários gera custos contínuos na casa dos bilhões, moldando de forma decisiva as escolhas de modelo de negócios.

O Reinforcement Learning from Human Feedback (RLHF), embora crucial para alinhar o tom do modelo, pode ter limites inerentes para escalar inteligência. Diferentemente do RLVR, que mostra leis de escalabilidade logarítmicas claras, o RLHF é otimizado para refletir a média das preferências humanas e pode não oferecer ganhos ilimitados com mais capacidade computacional.

O “sonho” de uma AGI única e monolítica que domine todas as tarefas digitais está dando lugar a um futuro de múltiplos agentes de IA especializados. Os usuários já empregam modelos diferentes para tarefas diferentes, e os sistemas estão evoluindo para ecossistemas de IAs que colaboram entre si, uma estrutura mais dependente de redes e integração do que apenas de poder computacional bruto.

Conclusões Práticas

Para realmente entender IA, construa um modelo de linguagem simples do zero. Como defende Sebastian Rashka, essa abordagem prática, seguindo recursos como seu livro, obriga você a compreender os componentes centrais (atenção, loops de treinamento) e fornece uma base de referência para entender os sistemas de produção mais complexos.

Adote uma abordagem de portfólio no uso de ferramentas de IA. Não seja fiel a um único modelo. Use modelos rápidos (GPT-5 sem raciocínio prolongado, Gemini) para consultas rápidas, modelos de raciocínio (Claude Opus, GPT Pro) para análises complexas e programação, e modelos abertos/locais para experimentação e tarefas com dados sensíveis.

Para construir uma carreira em IA, aprofunde-se em uma área específica após dominar os fundamentos. O campo avança rápido demais para acompanhar tudo. Escolha um nicho (por exemplo, RLHF, avaliação de modelos, curadoria de dados), leia os 3 a 5 artigos seminais e envolva-se profundamente.

Contribuições de pesquisa significativas ainda são possíveis sem enorme poder computacional.

Use a IA para complementar, não substituir, a luta essencial para o aprendizado. Ao estudar ou depurar, resista ao impulso de pedir imediatamente uma solução completa. Use a IA como tutora — peça dicas, gere problemas de prática ou solicite explicações de etapas específicas — para preservar os benefícios cognitivos de enfrentar a dificuldade.

Desenvolva um “senso crítico” para conteúdo gerado por IA e para seus próprios padrões de uso. Esteja ciente de quando você está terceirizando um pensamento que deveria manter e de quando está automatizando de forma eficiente tarefas repetitivas. Cultive uma percepção do “lixo de IA” e valorize conscientemente experiências humanas, físicas e presenciais.

Nathan Lambert and Sebastian Raschka are machine learning researchers, engineers, and educators. Nathan is the post-training lead at the Allen Institute for AI (Ai2) and the author of The RLHF Book. Sebastian Raschka is the author of Build a Large Language Model (From Scratch) and Build a Reasoning Model (From Scratch).
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep490-sc
See below for timestamps, transcript, and to give feedback, submit questions, contact Lex, etc.

Transcript:
https://lexfridman.com/ai-sota-2026-transcript

CONTACT LEX:
Feedback – give feedback to Lex: https://lexfridman.com/survey
AMA – submit questions, videos or call-in: https://lexfridman.com/ama
Hiring – join our team: https://lexfridman.com/hiring
Other – other ways to get in touch: https://lexfridman.com/contact

SPONSORS:
To support this podcast, check out our sponsors & get discounts:
Box: Intelligent content management platform.
Go to https://box.com/ai
Quo: Phone system (calls, texts, contacts) for businesses.
Go to https://quo.com/lex
UPLIFT Desk: Standing desks and office ergonomics.
Go to https://upliftdesk.com/lex
Fin: AI agent for customer service.
Go to https://fin.ai/lex
Shopify: Sell stuff online.
Go to https://shopify.com/lex
CodeRabbit: AI-powered code reviews.
Go to https://coderabbit.ai/lex
LMNT: Zero-sugar electrolyte drink mix.
Go to https://drinkLMNT.com/lex
Perplexity: AI-powered answer engine.
Go to https://perplexity.ai/

OUTLINE:
(00:00) – Introduction
(01:39) – Sponsors, Comments, and Reflections
(16:29) – China vs US: Who wins the AI race?
(25:11) – ChatGPT vs Claude vs Gemini vs Grok: Who is winning?
(36:11) – Best AI for coding
(43:02) – Open Source vs Closed Source LLMs
(54:41) – Transformers: Evolution of LLMs since 2019
(1:02:38) – AI Scaling Laws: Are they dead or still holding?
(1:18:45) – How AI is trained: Pre-training, Mid-training, and Post-training
(1:51:51) – Post-training explained: Exciting new research directions in LLMs
(2:12:43) – Advice for beginners on how to get into AI development & research
(2:35:36) – Work culture in AI (72+ hour weeks)
(2:39:22) – Silicon Valley bubble
(2:43:19) – Text diffusion models and other new research directions
(2:49:01) – Tool use
(2:53:17) – Continual learning
(2:58:39) – Long context
(3:04:54) – Robotics
(3:14:04) – Timeline to AGI
(3:21:20) – Will AI replace programmers?
(3:39:51) – Is the dream of AGI dying?
(3:46:40) – How AI will make money?
(3:51:02) – Big acquisitions in 2026
(3:55:34) – Future of OpenAI, Anthropic, Google DeepMind, xAI, Meta
(4:08:08) – Manhattan Project for AI
(4:14:42) – Future of NVIDIA, GPUs, and AI compute clusters
(4:22:48) – Future of human civilization