오늘은 서비스기획 과제로 고가 상품을 조회한 사용자 데이터를 가지고 "장바구니 담기율을 어떻게 높일 수 있을까?"를 주제로 세그먼트 분석을 진행했다.
분석 전에 먼저 이상값 처리 기준부터 잡았는데, 이상값을 다루는 게 생각보다 단순하지 않았다. 무조건 빼는 게 아니라 어떤 케이스냐에 따라 판단을 달리해야 한다는 걸 오늘 제대로 배웠다.
1️⃣ 이상값 처리 기준 — IQR 방법
체류시간 데이터에 비정상적으로 긴 값들이 섞여 있었다.
평균으로 기준을 잡으면 이 극단값에 평균 자체가 끌려올라가서 왜곡이 생기기 때문에 IQR(사분위수 범위) 방법을 사용했다.
📐 IQR 계산 흐름
| 단계 | 내용 |
|---|---|
| 1단계 Q1 · Q3 | 데이터를 줄 세워 하위 25%(Q1) / 75%(Q3) 지점을 구한다 |
| 2단계 IQR | 중간 50%의 폭 = Q3 − Q1. 이 범위를 "정상 변동폭"의 기준 단위로 쓴다 |
| 3단계 상한 | 이상값 판정 기준 = Q3 + 1.5 × IQR. 이 값을 초과하면 이상값 |
| 4단계 판정 | 상한을 초과하는 건수를 집계하고 목록을 뽑아 확인한다 |
통계학자 John Tukey가 제안한 표준값. 정규분포 기준 전체 데이터의 약 99.3%를 정상 범위로 보고 양극단 0.7%만 이상값으로 처리한다.
계수를 높이면 극단값만 잡고, 낮출수록 더 많이 걸러낸다. 1.5가 가장 널리 쓰이는 기본값이다.
2️⃣ 이상값 = 무조건 제거? 아니다
처음에는 이상값이 나오면 다 빼야 하는 줄 알았다. 근데 오늘 배운 내용은 달랐다.
지표 종류에 따라 다르게 처리해야 하고, 이상값도 어떤 케이스냐에 따라 판단이 달라진다.
| 지표 종류 | 처리 방식 | 이유 |
|---|---|---|
| 평균 체류시간 등 평균값 계열 | 제거 후 분석 | 극단값 하나가 평균 전체를 왜곡하기 때문 |
| 전환율, 비율, 인원수 | 제거 불필요 | 카운트 기반이라 이상값 영향이 없음 |
| 이상값이면서 행동이 있음 | 별도 세그먼트로 분류 | 고관여 탐색 유저일 가능성이 있음 |
🌿 이상값을 또 다른 세그먼트로 보는 이유
체류시간이 상한을 초과했다고 해서 무조건 의미 없는 데이터는 아니다.
행동 여부를 함께 봐야 한다. 아래처럼 판단 기준을 두 가지로 나눌 수 있다.
IQR 상한 초과 + 리뷰·할인·장바구니·구매 모두 아무 행동 없음
→ 탭을 열어두고 자리를 비웠거나 방치된 세션으로 판단
IQR 상한 초과 + 행동이 하나라도 있음
→ 오래 머물면서 실제로 뭔가 했다는 뜻. 가장 진지하게 고민한 유저 그룹일 가능성이 높다
이 세그먼트를 행동 조합별로 더 쪼개보면 이런 질문들이 나온다.
| 행동 조합 | 해석 가능한 질문 |
|---|---|
| 리뷰만 봤는데 안 담음 | 리뷰가 구매 확신을 충분히 주지 못했을 가능성 |
| 할인만 봤는데 안 담음 | 할인폭이 기대치보다 낮았을 가능성 |
| 리뷰 + 할인 둘 다 봤는데 안 담음 | 가격 자체가 장벽이거나 다른 외부 요인이 있을 가능성 |
| 장바구니까지 담음 | 신중한 고가 구매 패턴 — 전환 성공 사례 |
이상값 케이스는 건수가 적어 통계적으로 결론 내리긴 어렵다.
하지만 "고관여 미전환 유저는 왜 안 담았을까?"라는 다음 리서치 질문을 만드는 재료가 된다.
3️⃣ 세그먼트 분류 체계 — 어떻게 나눌 수 있나
이번 데이터에서 만들 수 있는 세그먼트 종류를 정리해봤다.
| 변수 | 분류 | 상태 |
|---|---|---|
| 고객 유형 | 첫 고객 / 이전 고객 | ✅ 완료 |
| 유입 경로 | 광고 / 직접 / 검색 | ✅ 완료 |
| PDP 체류시간 | IQR 기준 4구간 + 이상값 세그먼트 | ✅ 완료 |
| 상품 카테고리 | 패션 / 액세서리 / 가방 / 아울렛 | 🔜 내일 |
| PDP 직전 페이지 | 검색결과 / 홈 / 광고랜딩 / 기타 | 🔜 내일 |
예: 유입경로 × 상품카테고리 → 어떤 경로로 온 사람이 어떤 카테고리를 담는가
예: 상품카테고리 × 리뷰/할인 → 카테고리별로 민감도가 다른가
단일 변수에서 교차 변수로 점점 세밀하게 쪼갤수록 진짜 인사이트가 나온다.
4️⃣ 장바구니 담음 vs 안 담음 — 리뷰와 할인의 차이
장바구니를 담은 그룹과 안 담은 그룹의 행동을 비교해봤다.
가장 뚜렷한 차이는 리뷰 클릭률이었다.
리뷰 클릭률은 두 그룹 간 차이가 압도적이었다. 반면 할인 노출은 두 그룹 모두 비슷한 수준이었다.
→ 할인이 아니라 리뷰가 장바구니 전환의 핵심 변수라는 걸 데이터로 확인했다.
5️⃣ 유입 경로별 — 검색 유저는 다르다
유입 경로를 광고·직접·검색 세 가지로 나눠서 분석했다.
전환율과 할인 반응에서 경로별로 뚜렷하게 다른 패턴이 나왔다.
| 유입 경로 | 전환율 | 리뷰 | 할인 | 해석 |
|---|---|---|---|---|
| 📢 광고 | 중간 | 높음 | 낮음 | 리뷰는 보지만 할인에 무관심 |
| 🌿 직접 | 가장 높음 | 가장 높음 | 중간 | 브랜드 인지 → 구매 의도 강함 |
| 🔍 검색 | 중간 | 높음 | 압도적으로 높음 | 가격 비교 중인 유저 가능성 높음 |
직접 유입 → 리뷰 노출 강화가 효과적
검색 유입 → 할인 정보를 더 잘 보이게 배치하는 것이 효과적
광고 유입 → 할인보다 리뷰·신뢰 요소 강화에 집중
6️⃣ 체류시간 구간별 — 오래 볼수록 담는다
앞서 구한 IQR의 Q1·Q3·상한을 그대로 구간 경계값으로 활용했다.
새로 기준을 만드는 게 아니라 이미 구한 통계값을 재활용하는 방식이라 일관성이 있다.
전체 인원 중 가장 큰 비중을 차지하는 구간임에도 전환율이 가장 낮다.
할인 노출은 높은 편인데 전환으로 이어지지 않고 있다.
→ 이 구간 사람들이 왜 이탈했는지가 전환율 개선의 핵심 질문이 됐다.
체류시간이 길수록 전환율이 올라가는 뚜렷한 패턴이 확인됐다.
반대로 할인 노출은 체류시간이 짧을수록 높게 나타났다 — 할인 배너가 페이지 상단에 위치해 짧게 본 사람도 다 보이는 구조로 추정된다.
7️⃣ 엑셀 시트 정리
오늘 클로드 for Excel을 활용해서 분석용 시트를 두 개 만들었다.
어떤 구조로 만들지 설명하면 자동으로 만들어줘서 편했다.
이상값 판정 기준 패널을 왼쪽에 두고, 전체 데이터를 오른쪽에 표로 펼쳤다.
이상값에 해당하는 행은 빨간 음영으로 표시해서 제거하지 않고도 한눈에 구분할 수 있게 했다.
필터를 걸면 현재 몇 건이 보이는지 비율로 실시간 표시되도록 만들었다.
체류시간을 4구간 + 이상값 세그먼트로 나눠 각각 전환율·리뷰율·할인율을 자동 계산하도록 구성했다.
이상값 행동 유무에 따라 유효 인원과 제외 인원을 분리하는 열도 추가했다.
8️⃣ 내일 이어서 할 것
- 🔜 상품 카테고리별 세그먼트 — 어떤 카테고리가 전환율이 높고 낮은지
- 🔜 직전 페이지별 세그먼트 — 어디서 넘어온 사람이 잘 담는지
- 🔜 교차 분석 — 카테고리 × 리뷰/할인 민감도 조합
- 🔜 전환 레버 도출 — 데이터 기반 개선 가설 수립