AI 활용

LLM 비용 최적화 전략

LLM API 비용은 토큰 단위로 발생하며, 규모가 커질수록 기하급수적으로 증가한다. 프롬프트 캐싱, 모델 라우팅, 배치 처리 등 전략적 최적화로 비용을 80% 이상 절감할 수 있다.

개요

GPT-4o 기준 1M 토큰당 $5(입력)/$15(출력)이지만, Haiku나 GPT-4o-mini는 50~100배 저렴하다. 모든 작업에 가장 강력한 모델을 쓰는 것은 낭비다. 작업 복잡도에 맞는 모델과 기법을 조합하는 것이 핵심이다.

라우터 모델(소형)이 쿼리 복잡도를 판단해 상위 모델로 전달할지 결정하는 패턴이 효과적이다.

Opus → 실패 또는 타임아웃 → Sonnet → 폴백. 비용 + 가용성을 동시에 확보한다.

Anthropic과 OpenAI 모두 프롬프트 캐싱을 지원한다. 긴 시스템 프롬프트나 문서를 반복 전송하는 경우 90%까지 비용 절감이 가능하다[^1].

캐싱 활성화는 cache_control 파라미터 추가만으로 가능하다.

실시간 응답이 필요 없는 작업은 Batch API를 사용한다. OpenAI Batch API는 50% 할인, Anthropic Message Batches는 최대 50% 절감을 제공한다. 24시간 내 완료 보장. 데이터 처리, 콘텐츠 생성, 분류 등에 적합하다.

불필요한 공백, 반복 지시, 중복 컨텍스트를 제거한다. LLMLingua 같은 자동 압축 도구는 컨텍스트를 최대 20배 압축하면서 정보 손실을 최소화한다.

max_tokens 파라미터로 불필요하게 긴 출력을 방지한다. JSON 출력은 스키마를 엄격히 지정해 서술형 답변을 제거한다.

Few-shot 예시는 성능을 높이지만 토큰을 소비한다. 충분한 시스템 프롬프트로 Zero-shot 성능이 나온다면 예시를 제거한다.

스트리밍은 UX를 위한 것이지 비용 절감과 무관하다. 배치 처리 파이프라인에서는 비스트리밍이 연결 오버헤드를 줄인다.

비용 최적화는 측정 없이 불가능하다.

월별 상위 10% 비용 쿼리를 분석해 최적화 우선순위를 정하는 것이 가장 효율적인 접근이다.

프롬프트 품질 개선을 통한 요청 수 자체 감소는 프롬프트 엔지니어링 완전정복에서 다룬다.

[^1]: Anthropic Prompt Caching 공식 문서, 2025. 캐시 히트율 80% 이상 시 입력 토큰 비용 90% 절감.