LLM이 고객과의 다단계 상호작용(이메일, 채팅, 알림 등)을 자동으로 설계하는 시대가 왔습니다. 하지만 '이 AI가 만든 여정이 정말 효과적인가?'라는 근본적인 질문에 답하기는 쉽지 않았죠. 기존의 정확도, 유사도, 심지어 LLM-as-a-Judge 평가 방식도 스타일이나 톤은 잡을 수 있어도, 여정의 구조적 논리와 비즈니스 목표 달성 여부는 평가하지 못합니다. 이 글에서는 사전 정의된 택소노미(분류 체계)를 기반으로 여정의 구조적 질을 측정하는 결정론적 메트릭인 CDP 프레임워크를 소개합니다. 자세한 내용은 근거자료에서 확인할 수 있습니다.
![]()
CDP 메트릭의 세 가지 축
CDP는 다음 세 가지 상호 보완적인 차원에서 여정의 질을 평가합니다.
-
연속성 (Continuity)
- 의미: 이전 상호작용이 만든 문맥에 다음 메시지가 얼마나 잘 맞는지 평가합니다. 주제나 테마가 갑자기 튀지 않고 매끄럽게 이어지는지 보는 거죠.
- 계산: 택소노미 트리 내에서의 이동 패턴(동일 주제 유지, 관련 주제 이동, 단계 전진, 후퇴 등)에 가중치를 부여해 단계별 점수를 평균냅니다.
-
심화 (Deepening)
- 의미: 여정이 일반적인 내용에서 점점 더 구체적이고 맞춤화된 상호작용으로 나아가는지 측정합니다. 관계를 깊게 만드는 이동입니다.
- 계산: 두 가지 요소를 결합합니다.
- 여정 기반 심화: 택소노미 트리에서의 깊이 레벨이 단계별로 어떻게 증가하는지 측정합니다.
- 택소노미 인지 심화: 방문한 주제 헤드 아래에 존재하는 가능한 모든 하위 콘텐츠 중, 실제로 여정에서 얼마나 많이 탐색했는지 비율로 계산합니다.
-
진행 (Progression)
- 의미: 고객 여정 단계(예: 탐색 -> 구매 -> 소유)를 따라 전방으로 나아가는 방향성과 속도를 평가합니다. 불필요한 후퇴나 정체를 감지합니다.
- 계산: 단계 간 이동(앵커 ID 차이)과 현재 단계의 상대적 중요도를 고려한 점수를 합산한 후, tanh 함수를 사용해 [-1, 1] 범위로 정규화합니다.

실전 적용: 자동차 구매 여정 예시
이론만으로는 이해가 어려우니, 간단한 예시를 통해 CDP 평가가 어떻게 이루어지는지 단계별로 따라가 보겠습니다.
입력 여정 (LLM이 생성한 메시지 시퀀스):
- 가상 투어를 통해 주요 기능과 트림을 발견해보세요.
- 일정에 맞는 시승 시간대를 찾았습니다.
- 소득 확인서와 신분증을 업로드하여 사전 승인 결정을 완료하세요.
- 다가오는 정비 항목에 대한 비용을 추정해보세요.
- 리스 종료가 가까워지면 유지 보수 제안을 확인하세요.
- 인도 전 번호판과 등록 정보를 추가하세요.
택소노미 매핑 결과: 각 메시지는 임베딩 유사도를 기반으로 택소노미 트리의 특정 노드(앵커, 주제 헤드, 깊이 레벨)에 매핑됩니다. 이를 바탕으로 단계 간 이동을 분석하면 CDP 점수가 계산됩니다.
이 여정의 CDP 신호 해석:
- 연속성: 대부분의 전환이 매끄럽지만, 중간에 단계가 뒤섞이는 부분에서 점수가 일부 감소할 수 있습니다.
- 심화: '시승 예약'에서 '서류 업로드'로 넘어가는 구간처럼 특정 주제를 깊이 파고드는 순간이 포착됩니다.
- 진행: 전체적으로 구매 단계로 나아가는 흐름이 있지만, 소유 단계에서 예상치 못한 '인도' 관련 작업이 등장하는 등 구조적 후퇴도 관찰됩니다.
이렇게 계산된 CDP 점수는 다른 프롬프트나 모델이 생성한 대체 여정들을 비교하거나, LLM의 여정 생성 품질을 지속적으로 개선하기 위한 자동화된 피드백으로 직접 활용될 수 있습니다.

마무리: 구조 평가의 중요성
LLM은 이미 유창하고 설득력 있는 텍스트를 생성할 수 있습니다. 이제 남은 더 큰 도전은 그 텍스트 시퀀스가 비즈니스 논리와 사용자 경험에 부합하는 일관된 서사를 형성하는지 보장하는 것입니다. CDP 프레임워크는 스타일 평가를 대체하는 것이 아니라, 구조라는 새로운 핵심 신호를 제공하여 이를 보완합니다.
이 접근법은 자동차 커머스에 국한되지 않습니다. 주문형, 목표 지향적인 콘텐츠를 생성하는 모든 시스템(예: 교육 코스 설계, 의료 상담 경로, 게임 내 퀘스트 라인)은 강력한 구조적 기반을 필요로 합니다. CDP는 그 구조를 명시적이고, 측정 가능하며, 실행 가능하게 만드는 방법을 제시합니다. 다음번에 AI 생성 시퀀스를 평가할 때는 '어휘가 자연스러운가?'보다 '구조가 올바른가?'라는 질문을 던져보시길 권합니다.