LLM이 고객과의 다단계 상호작용(이메일, 채팅, 알림 등)을 자동으로 설계하는 시대가 왔습니다. 하지만 '이 AI가 만든 여정이 정말 효과적인가?'라는 근본적인 질문에 답하기는 쉽지 않았죠. 기존의 정확도, 유사도, 심지어 LLM-as-a-Judge 평가 방식도 스타일이나 톤은 잡을 수 있어도, 여정의 구조적 논리와 비즈니스 목표 달성 여부는 평가하지 못합니다. 이 글에서는 사전 정의된 택소노미(분류 체계)를 기반으로 여정의 구조적 질을 측정하는 결정론적 메트릭인 CDP 프레임워크를 소개합니다. 자세한 내용은 근거자료에서 확인할 수 있습니다.

AI and machine learning concept with abstract data visualization

CDP 메트릭의 세 가지 축

CDP는 다음 세 가지 상호 보완적인 차원에서 여정의 질을 평가합니다.

  1. 연속성 (Continuity)

    • 의미: 이전 상호작용이 만든 문맥에 다음 메시지가 얼마나 잘 맞는지 평가합니다. 주제나 테마가 갑자기 튀지 않고 매끄럽게 이어지는지 보는 거죠.
    • 계산: 택소노미 트리 내에서의 이동 패턴(동일 주제 유지, 관련 주제 이동, 단계 전진, 후퇴 등)에 가중치를 부여해 단계별 점수를 평균냅니다.
  2. 심화 (Deepening)

    • 의미: 여정이 일반적인 내용에서 점점 더 구체적이고 맞춤화된 상호작용으로 나아가는지 측정합니다. 관계를 깊게 만드는 이동입니다.
    • 계산: 두 가지 요소를 결합합니다.
      • 여정 기반 심화: 택소노미 트리에서의 깊이 레벨이 단계별로 어떻게 증가하는지 측정합니다.
      • 택소노미 인지 심화: 방문한 주제 헤드 아래에 존재하는 가능한 모든 하위 콘텐츠 중, 실제로 여정에서 얼마나 많이 탐색했는지 비율로 계산합니다.
  3. 진행 (Progression)

    • 의미: 고객 여정 단계(예: 탐색 -> 구매 -> 소유)를 따라 전방으로 나아가는 방향성과 속도를 평가합니다. 불필요한 후퇴나 정체를 감지합니다.
    • 계산: 단계 간 이동(앵커 ID 차이)과 현재 단계의 상대적 중요도를 고려한 점수를 합산한 후, tanh 함수를 사용해 [-1, 1] 범위로 정규화합니다.

Data flow and structural analysis diagram on a screen

실전 적용: 자동차 구매 여정 예시

이론만으로는 이해가 어려우니, 간단한 예시를 통해 CDP 평가가 어떻게 이루어지는지 단계별로 따라가 보겠습니다.

입력 여정 (LLM이 생성한 메시지 시퀀스):

  1. 가상 투어를 통해 주요 기능과 트림을 발견해보세요.
  2. 일정에 맞는 시승 시간대를 찾았습니다.
  3. 소득 확인서와 신분증을 업로드하여 사전 승인 결정을 완료하세요.
  4. 다가오는 정비 항목에 대한 비용을 추정해보세요.
  5. 리스 종료가 가까워지면 유지 보수 제안을 확인하세요.
  6. 인도 전 번호판과 등록 정보를 추가하세요.

택소노미 매핑 결과: 각 메시지는 임베딩 유사도를 기반으로 택소노미 트리의 특정 노드(앵커, 주제 헤드, 깊이 레벨)에 매핑됩니다. 이를 바탕으로 단계 간 이동을 분석하면 CDP 점수가 계산됩니다.

이 여정의 CDP 신호 해석:

  • 연속성: 대부분의 전환이 매끄럽지만, 중간에 단계가 뒤섞이는 부분에서 점수가 일부 감소할 수 있습니다.
  • 심화: '시승 예약'에서 '서류 업로드'로 넘어가는 구간처럼 특정 주제를 깊이 파고드는 순간이 포착됩니다.
  • 진행: 전체적으로 구매 단계로 나아가는 흐름이 있지만, 소유 단계에서 예상치 못한 '인도' 관련 작업이 등장하는 등 구조적 후퇴도 관찰됩니다.

이렇게 계산된 CDP 점수는 다른 프롬프트나 모델이 생성한 대체 여정들을 비교하거나, LLM의 여정 생성 품질을 지속적으로 개선하기 위한 자동화된 피드백으로 직접 활용될 수 있습니다.

Server rack and cloud infrastructure representing system architecture

마무리: 구조 평가의 중요성

LLM은 이미 유창하고 설득력 있는 텍스트를 생성할 수 있습니다. 이제 남은 더 큰 도전은 그 텍스트 시퀀스가 비즈니스 논리와 사용자 경험에 부합하는 일관된 서사를 형성하는지 보장하는 것입니다. CDP 프레임워크는 스타일 평가를 대체하는 것이 아니라, 구조라는 새로운 핵심 신호를 제공하여 이를 보완합니다.

이 접근법은 자동차 커머스에 국한되지 않습니다. 주문형, 목표 지향적인 콘텐츠를 생성하는 모든 시스템(예: 교육 코스 설계, 의료 상담 경로, 게임 내 퀘스트 라인)은 강력한 구조적 기반을 필요로 합니다. CDP는 그 구조를 명시적이고, 측정 가능하며, 실행 가능하게 만드는 방법을 제시합니다. 다음번에 AI 생성 시퀀스를 평가할 때는 '어휘가 자연스러운가?'보다 '구조가 올바른가?'라는 질문을 던져보시길 권합니다.