Powering the AI Inference Wave with EPRI’s Ben Sooter

Summary & Insights

While you sleep tonight, your AI agents might be quietly reshaping the entire energy grid. This is the emerging reality Ben Suter from EPRI explores, where the explosive growth of AI inference—not just training—demands a fundamental rethinking of where and how we build compute infrastructure. The conversation centers on “micro data centers,” a distributed approach to deploying smaller-scale compute closer to end-users to power everything from real-time translation to autonomous systems.

The current focus has been on massive, centralized data centers consuming gigawatts of power to train AI models. However, Suter highlights a crucial and often overlooked statistic: over the lifetime of an AI model, roughly 80% of its compute and energy consumption comes from the inference phase—the actual use of the model. As AI integrates into daily life through agents and real-time applications, this will trigger a second, massive wave of compute demand. Centralized mega-data centers are poorly suited for this geographically dispersed, latency-sensitive load, creating the need for a new architectural solution.

Enter the micro data center concept. These are smaller facilities, envisioned in the 3-20 megawatt range, strategically placed near existing electrical substations in both suburban and urban areas. The key insight is leveraging often-underutilized capacity on the distribution grid, avoiding the long queues and massive new transmission lines required for giant data centers. This approach turns a constraint into an opportunity, using already-built infrastructure to rapidly deploy the compute needed for the inference wave. Furthermore, a network of these distributed centers can be managed as a single, flexible resource, allowing compute loads to be shifted to balance grid demands.

This model presents a potential win-win: it accelerates the deployment of AI infrastructure by finding “speed to power” on the existing grid, and it improves grid asset utilization, which can help manage costs for everyone. The distributed nature also opens the door to integrating clean energy and storage solutions at a local level, providing flexibility to reduce load during peak grid stress. Ultimately, it’s about building an agile, resilient foundation for the next generation of AI applications that will permeate every industry and aspect of daily life.

Surprising Insights

The 80/20 Rule of AI Energy: Only about 20% of an AI model’s lifetime compute/power consumption comes from training; the remaining 80% is from inference (running the model), a fact that fundamentally changes the scale of the coming infrastructure challenge.
Agents Flip the Load Curve: The rise of autonomous AI agents, working overnight or independently, could completely颠覆 traditional energy load patterns that are tied to human waking hours, making inference demand less predictable and potentially constant.
Substations as Compute Hubs: A significant opportunity lies in placing micro data centers near existing electrical substations, tapping into their frequently underutilized capacity rather than building entirely new grid connections from scratch.
The Economic Magic Number: Early research suggests a “micro” data center for inference might coalesce around a 20-megawatt size, which is small compared to training centers but still a significant new load that requires smart siting on the distribution grid.
From Single Project to Distributed Network: The economics and grid integration work better when you think of multiple 5-megawatt micro data centers spread across a region as a single 25-megawatt project, matching both utility capabilities and data center operator needs.

Practical Takeaways

Look for Underutilized Grid Assets: For deploying new compute, investigate existing substation capacity on the distribution grid as a faster, more efficient alternative to building new transmission-level connections.
Design for Load Flexibility: Engineer data centers with the ability to curtail load or shift compute tasks geographically. This flexibility unlocks greater capacity on the existing grid and provides a valuable grid service.
Plan for Inference Now: Anyone involved in infrastructure planning should look beyond the current wave of AI training centers and actively plan for the larger, more geographically dispersed inference wave that follows.
Bundle with Storage and Renewables: Integrate energy storage and local renewable generation into micro data center designs from the start. This not only improves sustainability but also provides critical flexibility to manage peak grid loads.
Think Distributed by Default: For latency-sensitive and consumer-facing AI applications, assume a distributed network of smaller compute nodes will be superior to a single, centralized mega-data center.

Trong lúc bạn ngủ đêm nay, các tác nhân AI của bạn có thể đang âm thầm định hình lại toàn bộ mạng lưới năng lượng. Đây là thực tế mới nổi mà Ben Suter từ EPRI khám phá, nơi sự bùng nổ của suy luận AI – không chỉ đào tạo – đòi hỏi một sự suy nghĩ lại căn bản về địa điểm và cách thức xây dựng cơ sở hạ tầng máy tính. Cuộc thảo luận tập trung vào “trung tâm dữ liệu vi mô,” một cách tiếp cận phân tán để triển khai máy tính quy mô nhỏ gần hơn với người dùng cuối để cung cấp năng lượng cho mọi thứ từ dịch thuật thời gian thực đến các hệ thống tự trị.

Trọng tâm hiện tại là các trung tâm dữ liệu tập trung khổng lồ tiêu thụ hàng gigawatt điện để đào tạo mô hình AI. Tuy nhiên, Suter nêu bật một số liệu quan trọng và thường bị bỏ qua: trong suốt vòng đời của một mô hình AI, khoảng 80% lượng máy tính và tiêu thụ năng lượng của nó đến từ giai đoạn suy luận – việc sử dụng thực tế mô hình. Khi AI tích hợp vào cuộc sống hàng ngày thông qua các tác nhân và ứng dụng thời gian thực, điều này sẽ kích hoạt làn sóng thứ hai, lớn về nhu cầu máy tính. Các trung tâm dữ liệu siêu lớn tập trung không phù hợp cho tải trọng nhạy cảm về độ trễ và phân tán về mặt địa lý này, tạo ra nhu cầu về một giải pháp kiến trúc mới.

Đây là lúc khái niệm trung tâm dữ liệu vi mô xuất hiện. Đây là những cơ sở nhỏ hơn, được hình dung trong phạm vi 3-20 megawatt, được đặt một cách chiến lược gần các trạm biến áp điện hiện có ở cả vùng ngoại ô và thành thị. Nhận thức then chốt là tận dụng công suất thường bị sử dụng chưa hết trên lưới phân phối, tránh các hàng đợi dài và các đường truyền tải mới khổng lồ cần thiết cho các trung tâm dữ liệu lớn. Cách tiếp cận này biến một ràng buộc thành cơ hội, sử dụng cơ sở hạ tầng đã được xây dựng để triển khai nhanh chóng máy tính cần thiết cho làn sóng suy luận. Hơn nữa, một mạng lưới các trung tâm phân tán này có thể được quản lý như một tài nguyên linh hoạt duy nhất, cho phép chuyển đổi tải máy tính để cân bằng nhu cầu lưới điện.

Mô hình này mang lại tiềm năng đôi bên cùng có lợi: nó đẩy nhanh việc triển khai cơ sở hạ tầng AI bằng cách tìm “tốc độ đến nguồn điện” trên lưới điện hiện có, và nó cải thiện việc sử dụng tài sản lưới điện, điều này có thể giúp quản lý chi phí cho mọi người. Bản chất phân tán cũng mở ra cánh cửa cho việc tích hợp năng lượng sạch và các giải pháp lưu trữ ở cấp độ địa phương, cung cấp sự linh hoạt để giảm tải trong thời gian lưới điện căng thẳng cao điểm. Cuối cùng, đó là về việc xây dựng một nền tảng linh hoạt, kiên cố cho thế hệ ứng dụng AI tiếp theo sẽ thâm nhập vào mọi ngành công nghiệp và mọi khía cạnh của cuộc sống hàng ngày.

Những Hiểu Biết Đáng Ngạc Nhiên

Quy tắc 80/20 của Năng lượng AI: Chỉ khoảng 20% lượng máy tính/tiêu thụ điện trong vòng đời của một mô hình AI đến từ đào tạo; 80% còn lại là từ suy luận (chạy mô hình), một thực tế thay đổi cơ bản quy mô của thách thức cơ sở hạ tầng sắp tới.

Tác nhân Đảo ngược Đường cong Tải: Sự gia tăng của các tác nhân AI tự trị, hoạt động qua đêm hoặc độc lập, có thể hoàn toàn đảo lộn các mô hình tải năng lượng truyền thống gắn liền với giờ thức của con người, khiến nhu cầu suy luận khó dự đoán hơn và có khả năng liên tục.

Trạm biến áp như Trung tâm Máy tính: Một cơ hội đáng kể nằm ở việc đặt các trung tâm dữ liệu vi mô gần các trạm biến áp điện hiện có, khai thác công suất thường bị sử dụng chưa hết của chúng thay vì xây dựng hoàn toàn các kết nối lưới điện mới từ đầu.

Con số Kỳ diệu Kinh tế: Nghiên cứu ban đầu cho thấy một trung tâm dữ liệu “vi mô” cho suy luận có thể tập trung quanh kích thước 20 megawatt, tuy nhỏ so với các trung tâm đào tạo nhưng vẫn là một tải trọng mới đáng kể đòi hỏi vị trí thông minh trên lưới phân phối.

Từ Dự án Đơn lẻ đến Mạng lưới Phân tán: Kinh tế và tích hợp lưới điện hoạt động tốt hơn khi bạn nghĩ đến nhiều trung tâm dữ liệu vi mô 5 megawatt trải rộng trên một khu vực như một dự án 25 megawatt duy nhất, phù hợp với cả khả năng của công ty tiện ích và nhu cầu của nhà điều hành trung tâm dữ liệu.

Điểm Rút ra Thực tiễn

Tìm kiếm Tài sản Lưới điện Chưa được Sử dụng Hết: Để triển khai máy tính mới, hãy điều tra công suất hiện có của trạm biến áp trên lưới phân phối như một phương án thay thế nhanh hơn, hiệu quả hơn cho việc xây dựng các kết nối cấp truyền tải mới.

Thiết kế cho Tính Linh hoạt Tải: Kỹ sư các trung tâm dữ liệu với khả năng cắt giảm tải hoặc chuyển đổi nhiệm vụ máy tính về mặt địa lý. Sự linh hoạt này mở khóa công suất lớn hơn trên lưới điện hiện có và cung cấp một dịch vụ lưới điện có giá trị.

Lên kế hoạch cho Suy luận Ngay bây giờ: Bất kỳ ai tham gia vào lập kế hoạch cơ sở hạ tầng nên nhìn xa hơn làn sóng hiện tại của các trung tâm đào tạo AI và chủ động lập kế hoạch cho làn sóng suy luận lớn hơn, phân tán địa lý hơn tiếp theo.

Kết hợp với Lưu trữ và Năng lượng Tái tạo: Tích hợp lưu trữ năng lượng và sản xuất năng lượng tái tạo địa phương vào thiết kế trung tâm dữ liệu vi mô ngay từ đầu. Điều này không chỉ cải thiện tính bền vững mà còn cung cấp sự linh hoạt quan trọng để quản lý tải lưới điện cao điểm.

Mặc định Nghĩ đến Phân tán: Đối với các ứng dụng AI nhạy cảm về độ trễ và hướng đến người tiêu dùng, hãy cho rằng một mạng lưới phân tán các nút máy tính nhỏ hơn sẽ vượt trội so với một trung tâm dữ liệu siêu lớn tập trung duy nhất.

當你今晚入睡時，你的AI代理可能正悄然重塑整個電網格局。這是EPRI專家班·蘇特所探討的新興現實：AI推論（不僅是訓練）的爆炸性增長，正迫使我們從根本上重新思考運算基建的佈局與建造方式。這場對話的核心在於「微型資料中心」——一種將小規模運算節點分散部署至終端用戶附近的模式，用以驅動從即時翻譯到自主系統的各類應用。

當前焦點多集中在耗電達吉瓦級的大型集中式資料中心，它們主要用於訓練AI模型。但蘇特指出一個關鍵卻常被忽視的數據：在AI模型的生命週期中，約80%的運算與能耗來自推論階段，即模型的實際應用環節。隨著AI通過代理與即時應用融入日常生活，這將引發第二波大規模運算需求。集中式巨型資料中心難以應對這種地理分散、延遲敏感的負載，因此需要全新的架構解決方案。

微型資料中心的概念應運而生。這些設施規模較小（設想為3-20兆瓦），策略性地部署在城郊及市區的現有變電站附近。其核心思路在於利用配電網中常被低估的容量潛力，避免巨型資料中心所需的漫長排隊與新建龐大輸電線路。這項設計化限制為契機，運用既有基礎設施快速部署推論所需的運算能力。此外，分散式節點網路可被視為統一靈活的資源池，透過遷移運算負載來平衡電網需求。

此模式創造雙贏局面：既透過現有電網的「供電捷徑」加速AI基建佈局，又提升電網資產利用率以惠及整體用電成本。分散式特性還為地方層級整合清潔能源與儲能方案開啟大門，提供尖峰時段調節負載的靈活性。歸根結柢，這是為滲透各產業與日常生活的下一代AI應用，打造敏捷而穩健的基礎。

顛覆性洞見

AI能耗的80/20法則：訓練階段僅佔AI模型生命週期運算/能耗的20%，其餘80%來自推論環節，這項事實從根本上改變了未來基建挑戰的規模。

代理程式改寫負載曲線：自主AI代理在夜間或獨立運作時，可能徹底顛覆傳統與人類作息掛鉤的用電模式，使推論需求變得更難預測且趨於持續性。

變電站即運算樞紐：將微型資料中心佈建於現有變電站旁，能挖掘其常被低估的容量潛力，無需從零建設全新電網連接。

經濟性的魔法數字：初期研究顯示，推論專用的「微型」資料中心最佳規模可能落在20兆瓦左右——雖遠小於訓練中心，但仍需在配電網中智慧選址以應對新增負載。

從單點項目到分散式網絡：將分佈於區域內的多個5兆瓦微型節點，視為單一25兆瓦項目統籌規劃，更能兼顧電力公司營運能力與資料中心營運商需求。

實踐啟示

挖掘電網閒置資產：部署新運算設施時，應優先調查配電網現有變電站容量，這比新建輸電層級連接更快速高效。

設計負載彈性架構：資料中心應具備削減負載或地理遷移運算任務的能力，此彈性既能釋放現有電網容量，亦可成為有價值的電網服務。

即刻佈局推論基建：基礎設施規劃者需超越當前AI訓練中心的熱潮，主動為後續更龐大、地理更分散的推論需求浪潮做好準備。

整合儲能與再生能源：從設計初期就將能源儲存與在地再生發電整合至微型資料中心，不僅提升永續性，更為管理電網尖峰負載提供關鍵彈性。

預設分散式思維：針對延遲敏感與面向消費者的AI應用，應預設分散式的小型運算節點網絡將優於單一集中式巨型資料中心。

Mientras duermes esta noche, tus agentes de IA podrían estar reconfigurando silenciosamente toda la red eléctrica. Esta es la realidad emergente que explora Ben Suter, de EPRI, donde el crecimiento explosivo de la inferencia de IA —no solo del entrenamiento— exige replantear de forma fundamental dónde y cómo construimos la infraestructura de cómputo. La conversación se centra en los “microcentros de datos”, un enfoque distribuido para desplegar capacidad de cómputo a menor escala, más cerca de los usuarios finales, con el fin de impulsar desde la traducción en tiempo real hasta los sistemas autónomos.

Hasta ahora, la atención se ha centrado en centros de datos masivos y centralizados que consumen gigavatios de energía para entrenar modelos de IA. Sin embargo, Suter destaca una estadística crucial y a menudo pasada por alto: a lo largo de la vida útil de un modelo de IA, aproximadamente el 80% de su consumo de cómputo y energía proviene de la fase de inferencia, es decir, del uso real del modelo. A medida que la IA se integra en la vida cotidiana mediante agentes y aplicaciones en tiempo real, esto desencadenará una segunda ola masiva de demanda computacional. Los megacentros de datos centralizados no se adaptan bien a esta carga geográficamente dispersa y sensible a la latencia, lo que crea la necesidad de una nueva solución arquitectónica.

Aquí entra en juego el concepto de microcentro de datos. Se trata de instalaciones más pequeñas, concebidas en un rango de entre 3 y 20 megavatios, ubicadas estratégicamente cerca de subestaciones eléctricas existentes tanto en zonas suburbanas como urbanas. La idea clave es aprovechar la capacidad, a menudo infrautilizada, de la red de distribución, evitando las largas colas y las enormes nuevas líneas de transmisión que requieren los grandes centros de datos. Este enfoque convierte una limitación en una oportunidad, utilizando infraestructura ya construida para desplegar rápidamente la capacidad de cómputo necesaria para la ola de inferencia. Además, una red de estos centros distribuidos puede gestionarse como un único recurso flexible, lo que permite trasladar cargas de cómputo para equilibrar las demandas de la red.

Este modelo presenta una posible situación de beneficio mutuo: acelera el despliegue de infraestructura de IA al encontrar una “vía rápida hacia la energía” en la red existente, y mejora la utilización de los activos de la red, lo que puede ayudar a gestionar los costos para todos. Su naturaleza distribuida también abre la puerta a integrar soluciones de energía limpia y almacenamiento a nivel local, aportando flexibilidad para reducir la carga durante los picos de estrés de la red. En última instancia, se trata de construir una base ágil y resiliente para la próxima generación de aplicaciones de IA que impregnará cada industria y aspecto de la vida diaria.

Ideas sorprendentes

La regla 80/20 de la energía en la IA: Solo alrededor del 20% del consumo total de cómputo/energía a lo largo de la vida de un modelo de IA proviene del entrenamiento; el 80% restante corresponde a la inferencia (la ejecución del modelo), un hecho que cambia de forma fundamental la magnitud del desafío de infraestructura que se avecina.

Los agentes invierten la curva de carga: El auge de los agentes autónomos de IA, que trabajan durante la noche o de manera independiente, podría trastocar por completo los patrones tradicionales de carga energética ligados a las horas de vigilia humanas, haciendo que la demanda de inferencia sea menos predecible y potencialmente constante.

Las subestaciones como centros de cómputo: Existe una oportunidad importante en ubicar microcentros de datos cerca de subestaciones eléctricas existentes, aprovechando su capacidad frecuentemente infrautilizada en lugar de construir desde cero conexiones completamente nuevas a la red.

El número mágico económico: Las primeras investigaciones sugieren que un microcentro de datos para inferencia podría converger en torno a un tamaño de 20 megavatios, pequeño en comparación con los centros dedicados al entrenamiento, pero aun así una carga nueva significativa que requiere una ubicación inteligente en la red de distribución.

De proyecto único a red distribuida: La economía y la integración en la red funcionan mejor cuando se piensa en varios microcentros de datos de 5 megavatios repartidos por una región como si fueran un único proyecto de 25 megavatios, alineando tanto las capacidades de las empresas eléctricas como las necesidades de los operadores de centros de datos.

Conclusiones prácticas

Busque activos infrautilizados de la red: Para desplegar nueva capacidad de cómputo, investigue la capacidad existente en subestaciones de la red de distribución como una alternativa más rápida y eficiente a construir nuevas conexiones de nivel de transmisión.

Diseñe para la flexibilidad de la carga: Diseñe centros de datos con la capacidad de reducir carga o trasladar geográficamente las tareas de cómputo. Esta flexibilidad libera mayor capacidad en la red existente y proporciona un valioso servicio a la red.

Planifique ahora para la inferencia: Cualquiera que participe en la planificación de infraestructura debe mirar más allá de la actual ola de centros de entrenamiento de IA y planificar activamente para la ola de inferencia, más grande y más dispersa geográficamente, que vendrá después.

Combine con almacenamiento y energías renovables: Integre almacenamiento de energía y generación renovable local en los diseños de microcentros de datos desde el principio. Esto no solo mejora la sostenibilidad, sino que también aporta la flexibilidad crítica necesaria para gestionar las cargas máximas de la red.

Piense en distribuido por defecto: Para aplicaciones de IA sensibles a la latencia y orientadas al consumidor, parta de la idea de que una red distribuida de nodos de cómputo más pequeños será superior a un único megacentro de datos centralizado.

Enquanto você dorme esta noite, seus agentes de IA podem estar silenciosamente remodelando toda a rede elétrica. Essa é a realidade emergente que Ben Suter, da EPRI, explora, na qual o crescimento explosivo da inferência de IA — e não apenas do treinamento — exige uma reformulação fundamental de onde e como construímos a infraestrutura computacional. A conversa gira em torno dos “micro data centers”, uma abordagem distribuída para implantar capacidade computacional de menor escala mais perto dos usuários finais, a fim de viabilizar tudo, desde tradução em tempo real até sistemas autônomos.

O foco atual tem estado em data centers massivos e centralizados, consumindo gigawatts de energia para treinar modelos de IA. No entanto, Suter destaca uma estatística crucial e frequentemente ignorada: ao longo da vida útil de um modelo de IA, cerca de 80% de seu consumo de computação e energia vem da fase de inferência — o uso efetivo do modelo. À medida que a IA se integra à vida cotidiana por meio de agentes e aplicações em tempo real, isso desencadeará uma segunda onda massiva de demanda computacional. Mega data centers centralizados são pouco adequados para essa carga geograficamente dispersa e sensível à latência, criando a necessidade de uma nova solução arquitetônica.

Entra em cena o conceito de micro data center. São instalações menores, concebidas na faixa de 3 a 20 megawatts, posicionadas estrategicamente perto de subestações elétricas existentes em áreas suburbanas e urbanas. A percepção central é aproveitar a capacidade frequentemente subutilizada da rede de distribuição, evitando as longas filas e as enormes novas linhas de transmissão exigidas por data centers gigantes. Essa abordagem transforma uma restrição em oportunidade, usando infraestrutura já construída para implantar rapidamente a capacidade computacional necessária para a onda de inferência. Além disso, uma rede desses centros distribuídos pode ser gerida como um único recurso flexível, permitindo deslocar cargas computacionais para equilibrar as demandas da rede.

Esse modelo apresenta um potencial de ganho mútuo: acelera a implantação da infraestrutura de IA ao encontrar “rapidez no acesso à energia” na rede existente e melhora a utilização dos ativos da rede, o que pode ajudar a administrar custos para todos. A natureza distribuída também abre caminho para integrar soluções de energia limpa e armazenamento em nível local, oferecendo flexibilidade para reduzir a carga durante períodos de pico de estresse da rede. Em última análise, trata-se de construir uma base ágil e resiliente para a próxima geração de aplicações de IA que permeará todos os setores e aspectos da vida cotidiana.

Percepções Surpreendentes

A Regra 80/20 da Energia em IA: Apenas cerca de 20% do consumo total de computação/energia ao longo da vida de um modelo de IA vem do treinamento; os 80% restantes vêm da inferência (execução do modelo), um fato que altera fundamentalmente a escala do desafio de infraestrutura que se aproxima.

Agentes Invertendo a Curva de Carga: A ascensão de agentes autônomos de IA, trabalhando durante a noite ou de forma independente, pode subverter completamente os padrões tradicionais de carga energética, vinculados às horas em que os humanos estão acordados, tornando a demanda por inferência menos previsível e potencialmente constante.

Subestações como Hubs de Computação: Uma oportunidade significativa está em posicionar micro data centers próximos a subestações elétricas existentes, aproveitando sua capacidade frequentemente subutilizada, em vez de construir conexões totalmente novas com a rede desde o zero.

O Número Mágico Econômico: Pesquisas iniciais sugerem que um data center “micro” para inferência pode convergir para um porte em torno de 20 megawatts, pequeno em comparação com centros de treinamento, mas ainda assim uma nova carga significativa que exige uma implantação inteligente na rede de distribuição.

De Projeto Único a Rede Distribuída: A economia e a integração com a rede funcionam melhor quando se pensa em vários micro data centers de 5 megawatts espalhados por uma região como se fossem um único projeto de 25 megawatts, alinhando tanto as capacidades das concessionárias quanto as necessidades dos operadores de data centers.

Conclusões Práticas

Procure Ativos Subutilizados da Rede: Para implantar nova capacidade computacional, investigue a capacidade existente em subestações da rede de distribuição como uma alternativa mais rápida e eficiente à construção de novas conexões em nível de transmissão.

Projete para Flexibilidade de Carga: Desenvolva data centers com capacidade de reduzir carga ou deslocar tarefas computacionais geograficamente. Essa flexibilidade libera maior capacidade na rede existente e fornece um serviço valioso para a rede elétrica.

Planeje a Inferência Desde Já: Qualquer pessoa envolvida no planejamento de infraestrutura deve olhar além da atual onda de centros de treinamento de IA e planejar ativamente a onda maior e mais geograficamente dispersa de inferência que virá em seguida.

Combine com Armazenamento e Renováveis: Integre armazenamento de energia e geração renovável local aos projetos de micro data centers desde o início. Isso não apenas melhora a sustentabilidade, como também oferece flexibilidade crítica para administrar as cargas de pico da rede.

Pense em Distribuição como Padrão: Para aplicações de IA sensíveis à latência e voltadas ao consumidor, parta do princípio de que uma rede distribuída de nós computacionais menores será superior a um único mega data center centralizado.

AI is reshaping electricity demand. What does increased demand, and the shape of that demand, mean for the electric grid? Ben Sooter, Director of R&D at EPRI joins the podcast to explain why most of an AI model’s lifetime energy use comes from inference rather than training, and how micro data centers located near underutilized substations can help deliver low‑latency AI services while strengthening grid resilience.