AI 활용

LLM 비용 최적화 전략

LLM API 비용은 토큰 단위로 발생하며, 규모가 커질수록 기하급수적으로 증가한다. 프롬프트 캐싱, 모델 라우팅, 배치 처리 등 전략적 최적화로 비용을 80% 이상 절감할 수 있다.

개요

GPT-4o 기준 1M 토큰당 $5(입력)/$15(출력)이지만, Haiku나 GPT-4o-mini는 50~100배 저렴하다. 모든 작업에 가장 강력한 모델을 쓰는 것은 낭비다. 작업 복잡도에 맞는 모델과 기법을 조합하는 것이 핵심이다.

모델 라우팅

복잡도 기반 라우팅

작업 유형 권장 모델 이유
분류·태깅 Haiku / GPT-4o-mini 단순 작업, 최저가
요약·번역 Sonnet / GPT-4o-mini 품질·비용 균형
복잡 추론·코드 Opus / GPT-4o 품질 최우선
실시간 채팅 Sonnet / GPT-4o-mini 속도+비용

라우터 모델(소형)이 쿼리 복잡도를 판단해 상위 모델로 전달할지 결정하는 패턴이 효과적이다.

폴백 체인

Opus → 실패 또는 타임아웃 → Sonnet → 폴백. 비용 + 가용성을 동시에 확보한다.

프롬프트 캐싱

Anthropic과 OpenAI 모두 프롬프트 캐싱을 지원한다. 긴 시스템 프롬프트나 문서를 반복 전송하는 경우 90%까지 비용 절감이 가능하다[^1].

캐싱 효과가 큰 패턴

  • 동일 시스템 프롬프트 + 다른 유저 메시지
  • RAG 컨텍스트가 바뀌지 않는 반복 쿼리
  • 긴 문서 분석 (청크당 요약)

캐싱 활성화는 cache_control 파라미터 추가만으로 가능하다.

배치 처리

실시간 응답이 필요 없는 작업은 Batch API를 사용한다. OpenAI Batch API는 50% 할인, Anthropic Message Batches는 최대 50% 절감을 제공한다. 24시간 내 완료 보장. 데이터 처리, 콘텐츠 생성, 분류 등에 적합하다.

토큰 절약 기법

프롬프트 압축

불필요한 공백, 반복 지시, 중복 컨텍스트를 제거한다. LLMLingua 같은 자동 압축 도구는 컨텍스트를 최대 20배 압축하면서 정보 손실을 최소화한다.

출력 제한

max_tokens 파라미터로 불필요하게 긴 출력을 방지한다. JSON 출력은 스키마를 엄격히 지정해 서술형 답변을 제거한다.

Few-shot 예시 최소화

Few-shot 예시는 성능을 높이지만 토큰을 소비한다. 충분한 시스템 프롬프트로 Zero-shot 성능이 나온다면 예시를 제거한다.

스트리밍 vs 비스트리밍

스트리밍은 UX를 위한 것이지 비용 절감과 무관하다. 배치 처리 파이프라인에서는 비스트리밍이 연결 오버헤드를 줄인다.

모니터링 체계

비용 최적화는 측정 없이 불가능하다.

  • LangSmith / Langfuse: 토큰별 비용 추적
  • Helicone: API 레이어 프록시, 실시간 대시보드
  • AWS Bedrock / GCP Vertex: 클라우드 비용 할당

월별 상위 10% 비용 쿼리를 분석해 최적화 우선순위를 정하는 것이 가장 효율적인 접근이다.

프롬프트 품질 개선을 통한 요청 수 자체 감소는 프롬프트 엔지니어링 완전정복에서 다룬다.

[^1]: Anthropic Prompt Caching 공식 문서, 2025. 캐시 히트율 80% 이상 시 입력 토큰 비용 90% 절감.