From Code Search to AI Agents: Inside Sourcegraph’s Transformation with CTO Beyang Liu

Summary & Insights

We’ve reached a point in computer science where we are abdicating correctness and logic to AI—replacing deterministic functions with “stochastic subroutines” we can’t fully control. This shift is at the heart of a conversation with Beyang Liu, CTO of Sourcegraph, who explains how AI coding agents are transforming software development from line-by-line editing to high-level orchestration. His company’s agent, Cody, now writes over 90% of the code he produces, reframing the developer’s role as a reviewer and specifier rather than a hands-on coder. This evolution brings profound productivity gains but also a strange loss—many developers report they’ve never been more productive, but coding isn’t fun anymore.

The discussion delves into the practical architecture of AI agents, where the model is just one component in a stack that includes prompts, tools, and feedback loops. Beyang emphasizes an “agent-centric” view: the unit of composition is no longer the function or the model, but the agent—a reliable, task-oriented subroutine with tunable intelligence and cost. This approach allows specialized, smaller models to handle specific sub-tasks like search or edits, creating a Pareto frontier of trade-offs between speed, intelligence, and cost for each discrete workload.

Beyond the immediate tools, a significant tension emerges around the open-source AI ecosystem. Beyang notes that while the U.S. leads in frontier models and chips, the most capable and practical open-weight models for agentic workloads are currently of Chinese origin. This isn’t an ideological choice but a pragmatic one—these models simply work better for post-training and specialization. He warns that American policy, shaped by “Terminator”-style narratives of existential risk, is creating regulatory overhang that stifles domestic open-source innovation, potentially ceding long-term advantage.

The conversation concludes with a policy plea: to maintain a dynamic, competitive AI ecosystem, the U.S. should focus regulation on specific applications rather than hypothetical model-level catastrophes, and avoid creating a fragmented, state-by-state regulatory patchwork that only entrenched giants can navigate. The goal should be to preserve the open, innovative market that has historically defined American tech leadership.

Surprising Insights

The leading open-weight models for practical, agentic AI tasks are currently Chinese, not due to ideology but because they are more effective and adaptable for post-training specialized agents.
The “atomic unit” of software is shifting from the deterministic function to the “stochastic subroutine” (the agent), which trades perfect logic and correctness for reliable-enough, tunable problem-solving.
There is a growing backlash against using evals (evaluations) as optimization targets; they are better used as smoke tests because any metric can be gamed and often lags behind the true product experience.
The biggest bottleneck in AI-assisted development is now human comprehension—the ability to review, understand, and guide the high-volume output of agents—not code generation itself.

Practical Takeaways

Adopt an “agent-centric,” not model-centric, mindset. When building with AI, focus on designing the agent’s behavior—its tools, prompts, and feedback loops—treating the LLM as just one component you can swap out.
Specialize models to tasks. Don’t use a massive, expensive frontier model for everything. Break down workflows into sub-tasks (e.g., context retrieval, editing, debugging) and use smaller, faster, post-trained models where possible to optimize cost and latency.
Build for two distinct working modalities. Support both a “big prompt, go away” mode for well-specified tasks and a fast, interactive mode for exploratory, creative coding where the human needs to steer the process.
For policymakers: regulate applications, not abstractions. Craft clear, national rules that target specific high-risk uses of AI, rather than blanket restrictions on model development based on speculative existential risks, to avoid stifling open-source innovation.

Trong ngành khoa học máy tính, chúng ta đã đạt đến một điểm mà ở đó chúng ta đang trao lại tính đúng đắn và logic cho AI—thay thế các hàm xác định bằng các “chương trình con ngẫu nhiên” mà chúng ta không thể kiểm soát hoàn toàn. Sự chuyển dịch này là trọng tâm của cuộc trò chuyện với Beyang Liu, CTO của Sourcegraph, người giải thích cách các tác nhân AI đang biến đổi quá trình phát triển phần mềm từ chỉnh sửa từng dòng sang điều phối cấp cao. Tác nhân Cody của công ty ông hiện viết hơn 90% mã mà ông tạo ra, định hình lại vai trò của nhà phát triển thành người xem xét và chỉ định thay vì là một lập trình viên thực hành. Sự tiến hóa này mang lại lợi ích năng suất sâu sắc nhưng cũng là một mất mát kỳ lạ—nhiều nhà phát triển báo cáo rằng họ chưa bao giờ làm việc hiệu quả hơn, nhưng việc viết mã không còn thú vị nữa.

Cuộc thảo luận đi sâu vào kiến trúc thực tế của các tác nhân AI, nơi mô hình chỉ là một thành phần trong một chồng bao gồm các lời nhắc, công cụ và vòng phản hồi. Beyang nhấn mạnh một quan điểm “lấy tác nhân làm trung tâm”: đơn vị cấu thành không còn là hàm hay mô hình, mà là tác nhân—một chương trình con định hướng nhiệm vụ, đáng tin cậy với khả năng điều chỉnh thông minh và chi phí. Cách tiếp cận này cho phép các mô hình chuyên biệt, nhỏ hơn xử lý các nhiệm vụ phụ cụ thể như tìm kiếm hoặc chỉnh sửa, tạo ra một biên giới Pareto của sự đánh đổi giữa tốc độ, thông minh và chi phí cho mỗi khối công việc riêng biệt.

Ngoài các công cụ trước mắt, một sự căng thẳng đáng kể xuất hiện xung quanh hệ sinh thái AI mã nguồn mở. Beyang lưu ý rằng trong khi Mỹ dẫn đầu về các mô hình tiên phong và chip, các mô hình trọng số mở thực tế và hiệu quả nhất cho khối công việc tác nhân hiện lại có nguồn gốc từ Trung Quốc. Đây không phải là một lựa chọn mang tính ý thức hệ mà là một lựa chọn thực dụng—các mô hình này đơn giản là hoạt động tốt hơn cho việc đào tạo lại và chuyên môn hóa. Ông cảnh báo rằng chính sách của Mỹ, được định hình bởi các tường thuật kiểu “Kẻ hủy diệt” về rủi ro hiện sinh, đang tạo ra sự áp đặt quy định làm trì trệ đổi mới mã nguồn mở trong nước, có thể nhường lợi thế lâu dài.

Cuộc trò chuyện kết thúc với một lời kêu gọi chính sách: để duy trì một hệ sinh thái AI năng động, cạnh tranh, Mỹ nên tập trung quy định vào các ứng dụng cụ thể thay vì các thảm họa giả định ở cấp độ mô hình, và tránh tạo ra một mảng vá quy định rời rạc theo từng tiểu bang mà chỉ những gã khổng lồ bám rễ mới có thể điều hướng được. Mục tiêu nên là bảo tồn thị trường cởi mở, đổi mới vốn từng định nghĩa sự dẫn đầu về công nghệ của Mỹ.

Những hiểu biết bất ngờ

Các mô hình trọng số mở hàng đầu cho các tác vụ AI thực tế, mang tính tác nhân hiện là của Trung Quốc, không phải do ý thức hệ mà vì chúng hiệu quả và dễ thích ứng hơn cho việc đào tạo lại các tác nhân chuyên biệt.

“Đơn vị nguyên tử” của phần mềm đang chuyển từ hàm xác định sang “chương trình con ngẫu nhiên” (tác nhân), cái mà đánh đổi logic và tính đúng đắn hoàn hảo để đổi lấy khả năng giải quyết vấn đề đủ tin cậy, có thể điều chỉnh.

Ngày càng có nhiều phản ứng chống lại việc sử dụng các đánh giá làm mục tiêu tối ưu hóa; chúng nên được dùng tốt hơn như các bài kiểm tra sơ bộ vì bất kỳ số liệu nào cũng có thể bị lợi dụng và thường tụt lại phía sau trải nghiệm sản phẩm thực tế.

Nút thắt cổ chai lớn nhất trong phát triển được AI hỗ trợ hiện nay là khả năng hiểu của con người—khả năng xem xét, hiểu và hướng dẫn đầu ra khối lượng lớn từ các tác nhân—chứ không phải bản thân việc tạo mã.

Những điểm thực tiễn rút ra

Áp dụng tư duy “lấy tác nhân làm trung tâm”, không phải lấy mô hình làm trung tâm. Khi xây dựng với AI, hãy tập trung thiết kế hành vi của tác nhân—công cụ, lời nhắc và vòng phản hồi của nó—coi LLM chỉ như một thành phần có thể thay thế.

Chuyên biệt hóa mô hình cho từng tác vụ. Đừng sử dụng một mô hình tiên phong lớn, đắt tiền cho mọi thứ. Hãy chia nhỏ quy trình làm việc thành các nhiệm vụ phụ (ví dụ: truy xuất ngữ cảnh, chỉnh sửa, gỡ lỗi) và sử dụng các mô hình nhỏ hơn, nhanh hơn, đã qua đào tạo lại khi có thể để tối ưu chi phí và độ trễ.

Xây dựng cho hai phương thức làm việc riêng biệt. Hỗ trợ cả chế độ “gợi ý lớn, rời đi” cho các nhiệm vụ được xác định rõ và một chế độ tương tác nhanh cho việc viết mã khám phá, sáng tạo nơi con người cần định hướng quá trình.

Đối với các nhà hoạch định chính sách: hãy quy định ứng dụng, không quy định sự trừu tượng. Xây dựng các quy tắc rõ ràng, mang tính quốc gia nhắm vào các cách sử dụng AI có rủi ro cao cụ thể, thay vì các hạn chế chung chung về phát triển mô hình dựa trên các rủi ro hiện sinh suy đoán, để tránh làm trì trệ đổi mới mã nguồn mở.

我們在計算機科學領域已來到一個臨界點：人類正將正確性與邏輯判斷權讓渡給人工智慧——以無法完全掌控的「隨機子程式」取代確定性函數。這場變革正是與Sourcegraph技術總監劉貝陽對話的核心，他闡述了AI編程代理如何將軟體開發從逐行編碼轉向高層次流程編排。該公司的AI代理「Cody」現已撰寫他產出程式碼的90%以上，將開發者角色重塑為審閱者與規格制定者，而非親自動手的程式員。這場演進雖帶來巨大的生產力提升，卻也伴隨著某種詭異的失落——許多開發者表示工作效率達到前所未有之境，但編碼本身已不再有趣。
對話深入探討AI代理的實際架構：模型僅是技術堆疊中的一環，該堆疊還包含提示詞、工具與回饋循環。劉貝陽強調「以代理為中心」的觀點：組合的基本單元不再是函數或模型，而是代理——一種可靠、任務導向、具可調智慧度與成本控制的子程式。此方法讓專業化的小型模型能處理特定子任務（如搜尋或編輯），為每個獨立工作負載建構出兼顧速度、智慧與成本的帕累托最優邊界。
除了現行工具外，開源AI生態系正面臨重大張力。劉貝陽指出，儘管美國在尖端模型與晶片領域領先，但當前最強大、最實用的開源權重模型（適用於代理型工作負載）實則源自中國。這非意識形態選擇，而是務實考量——這些模型在後訓練與專業化處理上表現更佳。他警告，受《魔鬼終結者》式存在風險論述影響的美國政策，正形成壓制本土開源創新的監管陰影，可能導致長期競爭優勢喪失。
對話最終提出政策呼籲：為維持充滿活力的競爭性AI生態系，美國應聚焦於規範具體應用場景，而非假設性的模型層級災難，同時須避免形成僅有壟斷巨頭能應對的割裂式州級監管拼湊體系。政策目標應是守護歷來定義美國科技領導地位的開放創新市場。
### 驚人洞見
– **當前最實用的開源權重模型（適用於代理型AI任務）實則源自中國**，這非關意識形態，而是因其在後訓練專業化代理時更具效能與適應性。
– **軟體的「原子單位」正從確定性函數轉向「隨機子程式」（即代理）**，後者以犧牲完美邏輯與正確性為代價，換取足夠可靠且可調適的問題解決能力。
– **業界正出現反對以評估指標作為優化目標的浪潮**，因任何指標皆可能被操縱且常落後於真實產品體驗，更宜將評估視為煙霧測試。
– **AI輔助開發的最大瓶頸已轉為人類理解力**——即審閱、理解與引導代理高量輸出的能力——而非程式碼生成本身。
### 實踐要點
– **建立「以代理為中心」而非模型中心的思維**。構建AI系統時，應聚焦設計代理的行為模式（工具、提示詞、回饋循環），將大語言模型視為可替換的組件之一。
– **使模型任務專業化**。勿用龐大昂貴的尖端模型處理所有工作，應將流程分解為子任務（如上下文檢索、編輯、除錯），盡可能採用經後訓練的更小更快模型以優化成本與延遲。
– **為兩種工作模式構建系統**。同時支援「長提示輸入後離線處理」的明確任務模式，以及需人力引導探索性創意編程的快速互動模式。
– **給政策制定者：規範應用，而非抽象概念**。應制定明確的國家級規則瞄準AI高風險應用場景，而非基於推測性存在風險對模型發展實施全面限制，方能避免扼殺開源創新。

Hemos llegado a un punto en la informática en el que estamos cediendo la corrección y la lógica a la IA, reemplazando funciones deterministas por “subrutinas estocásticas” que no podemos controlar por completo. Este cambio está en el centro de una conversación con Beyang Liu, CTO de Sourcegraph, quien explica cómo los agentes de codificación con IA están transformando el desarrollo de software, pasando de la edición línea por línea a la orquestación de alto nivel. El agente de su empresa, Cody, ahora escribe más del 90% del código que él produce, redefiniendo el papel del desarrollador como revisor y especificador, en lugar de programador práctico. Esta evolución trae enormes ganancias de productividad, pero también una extraña pérdida: muchos desarrolladores afirman que nunca habían sido tan productivos, pero programar ya no es divertido.

La discusión profundiza en la arquitectura práctica de los agentes de IA, donde el modelo es solo un componente dentro de una pila que incluye prompts, herramientas y bucles de retroalimentación. Beyang enfatiza una visión “centrada en el agente”: la unidad de composición ya no es la función ni el modelo, sino el agente, una subrutina orientada a tareas, fiable y con inteligencia y costo ajustables. Este enfoque permite que modelos especializados más pequeños se encarguen de subtareas específicas, como la búsqueda o las ediciones, creando una frontera de Pareto de compensaciones entre velocidad, inteligencia y costo para cada carga de trabajo discreta.

Más allá de las herramientas inmediatas, surge una tensión significativa en torno al ecosistema de IA de código abierto. Beyang señala que, aunque EE. UU. lidera en modelos de frontera y chips, los modelos de pesos abiertos más capaces y prácticos para cargas de trabajo agénticas son actualmente de origen chino. No se trata de una elección ideológica, sino pragmática: estos modelos simplemente funcionan mejor para el postentrenamiento y la especialización. Advierte que la política estadounidense, influida por narrativas al estilo “Terminator” sobre riesgos existenciales, está creando una carga regulatoria que sofoca la innovación nacional de código abierto y podría ceder ventajas a largo plazo.

La conversación concluye con un llamado en materia de política pública: para mantener un ecosistema de IA dinámico y competitivo, EE. UU. debería centrar la regulación en aplicaciones específicas, en lugar de en hipotéticas catástrofes a nivel de modelo, y evitar crear un mosaico regulatorio fragmentado, estado por estado, que solo los gigantes ya consolidados pueden sortear. El objetivo debería ser preservar el mercado abierto e innovador que históricamente ha definido el liderazgo tecnológico estadounidense.

Ideas sorprendentes

Los principales modelos de pesos abiertos para tareas prácticas de IA agéntica son actualmente chinos, no por ideología, sino porque son más eficaces y adaptables para el postentrenamiento de agentes especializados.

La “unidad atómica” del software está pasando de la función determinista a la “subrutina estocástica” (el agente), que intercambia lógica y corrección perfectas por una resolución de problemas suficientemente fiable y ajustable.

Hay una reacción creciente contra el uso de evals (evaluaciones) como objetivos de optimización; es mejor usarlas como pruebas de humo, porque cualquier métrica puede manipularse y a menudo va por detrás de la experiencia real del producto.

El mayor cuello de botella en el desarrollo asistido por IA es ahora la comprensión humana: la capacidad de revisar, entender y orientar el gran volumen de resultados producidos por los agentes, no la generación de código en sí.

Conclusiones prácticas

Adopta una mentalidad “centrada en el agente”, no en el modelo. Al crear con IA, concéntrate en diseñar el comportamiento del agente —sus herramientas, prompts y bucles de retroalimentación— y trata al LLM como solo un componente que puedes sustituir.

Especializa los modelos según la tarea. No uses un modelo de frontera enorme y costoso para todo. Divide los flujos de trabajo en subtareas (por ejemplo, recuperación de contexto, edición, depuración) y utiliza modelos más pequeños, más rápidos y postentrenados cuando sea posible para optimizar costo y latencia.

Diseña para dos modalidades de trabajo distintas. Da soporte tanto a un modo de “gran prompt y desaparece” para tareas bien especificadas como a un modo rápido e interactivo para programación exploratoria y creativa, donde el humano necesita guiar el proceso.

Para los responsables de políticas públicas: regulen las aplicaciones, no las abstracciones. Elaboren reglas nacionales claras que apunten a usos específicos de alto riesgo de la IA, en lugar de imponer restricciones generales al desarrollo de modelos basadas en riesgos existenciales especulativos, para evitar sofocar la innovación de código abierto.

Chegamos a um ponto na ciência da computação em que estamos abdicando da correção e da lógica em favor da IA — substituindo funções determinísticas por “sub-rotinas estocásticas” que não conseguimos controlar completamente. Essa mudança está no centro de uma conversa com Beyang Liu, CTO da Sourcegraph, que explica como agentes de codificação com IA estão transformando o desenvolvimento de software, de uma edição linha por linha para uma orquestração de alto nível. O agente de sua empresa, Cody, agora escreve mais de 90% do código que ele produz, redefinindo o papel do desenvolvedor como revisor e especificador, em vez de programador prático. Essa evolução traz ganhos profundos de produtividade, mas também uma perda estranha — muitos desenvolvedores relatam que nunca foram tão produtivos, mas programar já não é mais divertido.

A discussão se aprofunda na arquitetura prática dos agentes de IA, em que o modelo é apenas um componente em uma pilha que inclui prompts, ferramentas e ciclos de feedback. Beyang enfatiza uma visão “centrada no agente”: a unidade de composição já não é mais a função ou o modelo, mas o agente — uma sub-rotina confiável, orientada a tarefas, com inteligência e custo ajustáveis. Essa abordagem permite que modelos menores e especializados lidem com subtarefas específicas, como busca ou edições, criando uma fronteira de Pareto de compensações entre velocidade, inteligência e custo para cada carga de trabalho discreta.

Além das ferramentas imediatas, surge uma tensão significativa em torno do ecossistema de IA de código aberto. Beyang observa que, embora os EUA liderem em modelos de fronteira e chips, os modelos de pesos abertos mais capazes e práticos para cargas de trabalho agentivas são atualmente de origem chinesa. Isso não é uma escolha ideológica, mas pragmática — esses modelos simplesmente funcionam melhor para pós-treinamento e especialização. Ele alerta que a política americana, moldada por narrativas ao estilo “O Exterminador do Futuro” sobre risco existencial, está criando um peso regulatório que sufoca a inovação doméstica de código aberto, potencialmente cedendo vantagem no longo prazo.

A conversa termina com um apelo de política pública: para manter um ecossistema de IA dinâmico e competitivo, os EUA deveriam concentrar a regulação em aplicações específicas, em vez de catástrofes hipotéticas no nível do modelo, e evitar criar um mosaico regulatório fragmentado, estado por estado, que apenas gigantes já estabelecidos conseguem navegar. O objetivo deve ser preservar o mercado aberto e inovador que historicamente definiu a liderança tecnológica americana.

Percepções Surpreendentes

Os principais modelos de pesos abertos para tarefas práticas e agentivas de IA são atualmente chineses, não por ideologia, mas porque são mais eficazes e adaptáveis para pós-treinamento de agentes especializados.

A “unidade atômica” do software está mudando da função determinística para a “sub-rotina estocástica” (o agente), que troca lógica e correção perfeitas por uma resolução de problemas suficientemente confiável e ajustável.

Há uma reação crescente contra o uso de evals (avaliações) como metas de otimização; elas são mais úteis como testes de fumaça, porque qualquer métrica pode ser manipulada e frequentemente fica atrás da experiência real do produto.

O maior gargalo no desenvolvimento assistido por IA agora é a compreensão humana — a capacidade de revisar, entender e orientar o alto volume de saída dos agentes — e não a geração de código em si.

Conclusões Práticas

Adote uma mentalidade “centrada no agente”, e não centrada no modelo. Ao construir com IA, concentre-se em projetar o comportamento do agente — suas ferramentas, prompts e ciclos de feedback — tratando o LLM como apenas um componente que você pode substituir.

Especialize modelos para tarefas. Não use um modelo de fronteira enorme e caro para tudo. Divida os fluxos de trabalho em subtarefas (por exemplo, recuperação de contexto, edição, depuração) e use, sempre que possível, modelos menores, mais rápidos e pós-treinados para otimizar custo e latência.

Projete para duas modalidades distintas de trabalho. Ofereça suporte tanto a um modo “prompt grande e vá embora” para tarefas bem especificadas quanto a um modo rápido e interativo para programação exploratória e criativa, em que o humano precisa conduzir o processo.

Para formuladores de políticas: regulem aplicações, não abstrações. Criem regras nacionais claras que visem usos específicos de alto risco da IA, em vez de restrições gerais ao desenvolvimento de modelos com base em riscos existenciais especulativos, para evitar sufocar a inovação de código aberto.

Sourcegraph’s CTO just revealed why 90% of his code now comes from agents—and why the Chinese models powering America’s AI future should terrify Washington. While Silicon Valley obsesses over AGI apocalypse scenarios, Beyang Liu’s team discovered something darker: every competitive open-source coding model they tested traces back to Chinese labs, and US companies have gone silent after releasing Llama 3. The regulatory fear that killed American open-source development isn’t hypothetical anymore—it’s already handed the infrastructure layer of the AI revolution to Beijing, one fine-tuned model at a time.

Resources:

Follow Beyang Liu on X: https://x.com/beyang

Follow Martin Casado on X: https://x.com/martin_casado

Follow Guido Appenzeller on X: https://x.com/appenz

Stay Updated:

If you enjoyed this episode, be sure to like, subscribe, and share with your friends!

Find a16z on X: https://x.com/a16z

Find a16z on LinkedIn: https://www.linkedin.com/company/a16z

Listen to the a16z Podcast on Spotify: https://open.spotify.com/show/5bC65RDvs3oxnLyqqvkUYX

Listen to the a16z Podcast on Apple Podcasts: https://podcasts.apple.com/us/podcast/a16z-podcast/id842818711

Follow our host: https://x.com/eriktorenberg

Please note that the content here is for informational purposes only; should NOT be taken as legal, business, tax, or investment advice or be used to evaluate any investment or security; and is not directed at any investors or potential investors in any a16z fund. a16z and its affiliates may maintain investments in the companies discussed. For more details please see http://a16z.com/disclosures.

Stay Updated:

Find a16z on X

Find a16z on LinkedIn

Listen to the a16z Show on Spotify

Listen to the a16z Show on Apple Podcasts

Follow our host: https://twitter.com/eriktorenberg

Hosted by Simplecast, an AdsWizz company. See pcm.adswizz.com for information about our collection and use of personal data for advertising.