이화여대 GDG 세미나

260401 내 발표를 자동 요약한 것이다.

발표자 소개 및 AI 시대 개발자에 대한 문제 제기

발표자 조성현은 민족사관고등학교를 졸업하고 재학 당시 축제 결제 시스템인 민사페이를 개발해 화제를 모았으며, 현재 전형으로는 한국 최초로 애플 WWDC 장학생에 선발된 이력을 가지고 있다. 이후 서던 캘리포니아 대학교에서 컴퓨터 과학 학사와 석사를 각각 2년 반, 1년 반 만에 조기 졸업하였고 보잉 장학생으로도 선정되었다. 대학 진학 전 우아한형제들을 시작으로 당근, Grammarly에서 인턴 및 근무를 거쳐, 현재는 의료 AI 기업 루닛에서 AIOps와 LLMOps를 담당하고 있다. 최근에는 이준석 의원 및 구글, 팔란티어 출신 개발자들을 모아 매출로 순위를 매기는 흑백 개발자 해커톤을 운영하는 등 제품 개발에 높은 열정을 보이고 있다.

발표자는 "AI가 코딩을 잘하는가?"라는 업계의 통념에 강한 의문을 제기한다. AI는 수백 페이지의 문서에서 특정 정보를 찾아내는 등 검색과 추출에는 탁월하지만, 코드를 작성하는 것은 완전히 다른 차원의 문제라고 지적한다. 현재의 AI 모델은 인터넷에 존재하는 코드를 무분별하게 학습하기 때문에, 결과적으로 표준 정규분포에 따라 평이한 중품질의 코드로 수렴하게 된다. 특히, AI 벤치마크가 문제를 정확히 진단해 수술하기보다는 모르는 문제에 일단 코드를 추가해보고 아는 척하는 이른바 덕테이프 방식을 선호하도록 설계되어 있어 질적 하락을 부추긴다. 아무리 90%의 코드가 완벽하더라도 10%의 저품질 코드가 지수적으로 누적되면 결국 전체 소프트웨어의 완성도를 무너뜨리는 AI 슬롯 현상이 발생한다. 소프트웨어의 완성도는 가장 약한 10%의 결함에서 결정되기 때문에, AI가 생산하는 코드는 본질적으로 사람이 작성한 코드의 안정성을 넘어서기 어렵다. 발표자는 작금의 상황을 "역사상 가장 품질이 낮은 소프트웨어들이 양산되는 시대"라고 진단하며, 이는 단순히 내년에 Opus 5 모델이 출시된다고 해결될 문제가 아닌 AI 업계 시스템의 구조적 한계임을 강조한다.

AI 시대에 요구되는 제품 완성 경험

AI가 0에서 80% 구간의 코딩을 완벽에 가깝게 자동화함에 따라, 이제 개발자의 진짜 가치는 무임승차가 불가능한 80%에서 98%까지의 완성도를 달성하는 데서 판가름 난다(100%는 비현실적인 목표로 간주). 발표자는 흑백 개발자 해커톤에서의 관찰을 통해 흥미로운 통찰을 제시한다. 구글 로그인 기능에 오류가 발생했을 때, 기존 지식에 얽매인 시니어 개발자들은 새벽까지 AWS에 직접 배포하며 수제 코딩으로 문제를 디버깅하려 애썼다. 반면, 주니어 개발자들은 플랫폼(버셀 등)과 AI 에이전트를 활용해 구글 로그인을 과감히 제외하고 이메일 로그인으로 대체하여 그 시간에 고객을 더 모으는 실용적인 접근을 택했다. 이는 기존 방식과 경로의존성에 갇히는 지식의 저주를 피하고, 상황에 맞게 유연한 해법을 찾는 모름의 축복이 AI 시대에 얼마나 유리한지 보여주는 단적인 예이다.

따라서 주니어 시절부터 수년에 걸쳐 팀 리드가 되고 아키텍처를 설계하며 코드 리뷰를 받는 전통적인 성장 경로는 더 이상 유효하지 않다. AI로 인해 개인의 생산성이 급증함에 따라 대기업 하나에 50만 명이 속해있던 경제 구조는 5명씩 10만 개의 회사가 존재하는 강소기업의 시대로 개편될 것이며, 머지않아 기업 가치 1.5조 원에 달하는 AI 자동화 기반의 1인 유니콘이 등장할 것이다. 단기적으로는 일자리가 줄어드는 것처럼 보일 수 있으나 중장기적으로는 회사 수가 늘어나 할 일이 폭발적으로 증가하게 된다.

결국 이 시대에 살아남기 위해 가장 중요한 역량은 제품을 만들고 출시하여 운영하는 경험이다. 데모 수준의 개발과 프로덕션 환경에서의 실제 운영은 완전히 다른 차원의 경험이다. 발표자는 동영상 검색 앱을 개발할 때의 실제 사례를 공유했다. 처음에는 단순 벡터 검색만 적용했다가 장원영을 검색해도 결과가 나오지 않아 벡터와 BM25를 결합한 하이브리드 서치로 개선해야 했고, 단순 코사인 유사도 랭킹 방식 때문에 의미 없는 더미 데이터가 상단에 노출되자 댓글 수와 참여율에 가중치를 부여하는 스코어 부스팅을 재구현했다. 또한, 임베딩 API가 외부에서 변경되며 두 가지 버전의 데이터가 섞여 검색이 마비되는 문제를 겪고 나서야 API 버저닝 관리의 필요성을 깨달았다. 이처럼 실제 프로덕션 환경에서 발생하는 예기치 못한 문제를 확인하고, 피드백을 수용하며 지속적으로 개선해 나가는 경험이야말로 AI 시대 개발자가 갖춰야 할 대체 불가능한 역량이다.

AI 에이전트 활용 극대화 전략 (LLMOps)

제품을 성공적으로 완성하고 운영하기 위해서는 AI 에이전트 군단을 정교하게 통제하는 LLMOps 역량이 필수적이다. AI를 단순한 무한루프에 방치해서는 유의미한 결과물이 나오지 않으며, 아주 정확하게 과제를 쪼개어 스코핑하고 검증할 수 있는 시스템을 구축해야 한다. 문제가 발생했을 때 즉각 사람의 개입을 요청하는 Human in the loop 시스템을 설계하여, 대표가 중요한 사안에만 집중하듯 가장 적은 수의 정교한 결정만 사람이 내리도록 해야 한다.

발표자는 실제 에이전트 운영 과정에서 얻은 구체적인 노하우와 Best Practice를 다음의 기술적 관점들로 나누어 상세히 설명한다

Durable Execution

에이전트는 프로덕션 환경에서 잦은 오류를 일으킨다. 이때 처음부터 다시 실행하면 엄청난 토큰 비용 낭비가 발생한다. 각 턴 베이스의 스텝 결과를 저장해 두고, 중간에 오류가 나더라도 마지막으로 성공한 지점의 데이터를 가져와 다시 리플레이하는 방식으로 토큰 수를 아끼고 동일한 작업의 반복을 방지해야 한다.

멀티 에이전트의 제한적 사용

멀티 에이전트 시스템은 각 에이전트가 가진 지식과 이해도가 달라 결과물을 통합하는 오케스트레이션 과정에서 심각한 충돌을 빚는다. 작업이 완전히 병렬적으로 분리되거나 단일 컨텍스트 윈도우를 초과하는 극히 예외적인 경우(예: 서브 에이전트가 코드 베이스를 요약해 메인 에이전트에게 전달하는 방식)에만 제한적으로 사용해야 한다.

목적성 기반의 툴 설계

툴 콜 하나하나가 토큰을 소모하는 독립된 턴이므로, 기존의 프로그래밍 방법론처럼 잘게 쪼개어 API를 감싸기보다는 AI가 한 번 호출했을 때 목적하는 바를 즉시 달성할 수 있도록 워크플로 단위로 크게 설계해야 한다. 더불어 툴의 설명과 좋은 예시를 덧붙이는 것만으로도 성능이 크게 튜닝된다.

컨텍스트 윈도우 최적화

AI에게 1백만 토큰의 코드베이스를 무작정 주입하면 처음과 끝만 기억하고 중간 내용은 무시하는 Lost in the middle 현상이 발생한다. 토큰이 늘어날수록 레이턴시는 지연되고 비용은 제곱 단위로 기하급수적으로 증가하므로, 목적에 부합하는 정확한 맥락만을 골라 세심하게 전달해야 한다.

프롬프트 모듈화 및 퓨샷 러닝

기능을 추가할 때마다 프롬프트를 무작정 이어 붙이면 디버깅이 불가능해지는 프롬프트 스파게티 문제가 발생한다. 역할별로 프롬프트를 모듈화하고 공통 로직을 공유 런북 형태로 분리해 Git으로 관리해야 한다. 또한, 3~5개 정도의 적절한 예시를 제공하는 퓨샷 러닝이나 AI 스스로 실패를 분석해 Edge Case를 반영하게 하면 성능을 최대 40%까지 향상시킬 수 있지만, 예시가 너무 많으면 컨텍스트 오염을 일으키므로 주의해야 한다.

재현성을 확보한 에이전트 디버깅

LLM의 출력은 비결정적이므로 기존처럼 Breakpoint를 걸어 디버깅할 수 없다. 따라서 에이전트의 모든 스텝(컨텍스트, 툴 콜 등)을 꼼꼼히 기록하고 수백 개의 평가 기준을 갖춘 Golden Data Set(Evaluation Suite)을 만들어, 변경 사항이 생길 때마다 성능 하락(Regression)이 발생하는지 지속적으로 검증할 수 있는 재현 가능한 시스템을 구축해야 한다.

질의응답

강연 후 이어진 질의응답에서는 발표자의 실제 프로젝트 경험과 다양한 AI 툴 활용법에 대한 심도 있는 논의가 오갔다.

PPT 제작 도구

발표 자료는 마크다운으로 피피티를 생성해 주는 sli.dev 프로젝트를 활용해 작성되었다. 이를 통해 VS 코드에서 편집하며 작업 속도를 높일 수 있다.

최근 AI 활용 프로젝트 (MarkRight)

4시간 전까지 진행한 마크업/마크다운 언어 개발 프로젝트이다. AI와 토론해 전체 스펙을 잡고, 작업을 100여 개의 세부 태스크 백로그로 쪼갰다. 에이전트가 전체 코드를 검토한 뒤 코드를 수정하거나 백로그의 태스크를 처리하도록 루프를 설계해 24시간 동안 돌린 결과 에디터 및 렌더링 등 여러 기능을 성공적으로 완성했다.

에이전트 운용 방식

특정 모델에 얽매이지 않고 Opus, Claude, GPT 등을 두루 활용하며, 특히 세상의 거의 모든 모델을 하나의 플랫폼에서 테스트할 수 있는 OpenRouter를 적극 이용해 최적의 답변과 인풋/아웃풋 예시를 조율한다.

흑백 개발자 해커톤 기획 배경

기존 해커톤에서 겪었던 심사위원 주관에 따른 불합리한 평가 방식을 탈피하기 위해 기획되었다. 오직 시장의 선택인 매출만으로 순위를 매겼으며, 참가 팀들이 도합 약 1억 원의 매출을 기록하는 성과를 거두었다.

AI 에이전트 보안 이슈

오픈클로 에이전트를 돌리던 중, 개인적인 이상형 리스트가 작성된 노트 앱의 캡처 이미지가 한밤중 전 여자친구에게 자동 전송되는 아찔한 보안 사고를 겪은 바 있다. 클로드의 안전 필터링이 고도화되고 있으나, 자동화를 지향하는 개발자들은 대부분 제어 장치를 해제(YOLO 모드)하고 사용하므로 근본적인 보안 문제는 평생 조심해야 할 영역이다.

회사 및 과거 경력에서의 역할

현재 루닛에서는 의사용 의료 LLM 구축을 위한 에이전트 가드레일 설계와 신규 모델 벤치마킹을 수행 중이다. 과거 20살 무렵 우아한형제들에서는 프론트엔드 수제 코딩을, 당근에서는 앱 내 독립 실행 환경인 미니 앱의 보안 및 오프라인 성능 격리 시스템 스펙을 연구했으며, Grammarly에서는 A/B 테스트 시 통계적 유의미성을 트래킹하는 자체 실험 플랫폼 소프트웨어를 개발했다.

멀티 에이전트 실패 사례

에이전트 작업 종료 후 터미널에서 모바일로 알림을 보내는 시스템을 구축하고자 페이퍼클립(Paperclip)을 이용해 CEO/CMO/CTO 에이전트를 나눠 오케스트레이션을 시도했으나 효율이 현저히 떨어졌다. 하나의 에이전트에게 전담시키는 편이 훨씬 우수했다.

WWDC 수상 프로젝트

몬테카를로 방법과 같은 랜덤 제너레이션을 이용해 원주율 계산 등 다양한 수학적 방법론을 시각적으로 교육하는 애플파이(Apple Pi) 앱을 개발하여 수상했다.

취업 시 핵심 역량 및 선호하는 개발 언어

해커톤 참여 자체는 제품 생성 경험일 뿐 운영 경험을 제공하지 않아 큰 차별성이 없다. 면접관으로서 시장에 제품을 내놓고 실패와 피드백을 수용하며 운영해 본 결과 획득한 특유의 총명함을 가진 지원자를 가장 선호한다. 또한, 코드 작성 능력 자체보다 구린 코드를 가려내고 검증할 수 있는 눈이 핵심 역량으로 떠올랐으며, 가장 선호하는 개발 언어도 기존의 타입스크립트에서 이제는 영어로 바뀌었다.