[내일배움캠프 TIL] 서비스기획 과제 — 장바구니 전환율 세그먼트 탐색

오늘은 서비스기획 과제로 고가 상품을 조회한 사용자 데이터를 가지고 "장바구니 담기율을 어떻게 높일 수 있을까?"를 주제로 세그먼트 분석을 진행했다.
분석 전에 먼저 이상값 처리 기준부터 잡았는데, 이상값을 다루는 게 생각보다 단순하지 않았다. 무조건 빼는 게 아니라 어떤 케이스냐에 따라 판단을 달리해야 한다는 걸 오늘 제대로 배웠다.

1️⃣ 이상값 처리 기준 — IQR 방법

체류시간 데이터에 비정상적으로 긴 값들이 섞여 있었다.
평균으로 기준을 잡으면 이 극단값에 평균 자체가 끌려올라가서 왜곡이 생기기 때문에 IQR(사분위수 범위) 방법을 사용했다.

📐 IQR 계산 흐름

단계	내용
1단계 Q1 · Q3	데이터를 줄 세워 하위 25%(Q1) / 75%(Q3) 지점을 구한다
2단계 IQR	중간 50%의 폭 = Q3 − Q1. 이 범위를 "정상 변동폭"의 기준 단위로 쓴다
3단계 상한	이상값 판정 기준 = Q3 + 1.5 × IQR. 이 값을 초과하면 이상값
4단계 판정	상한을 초과하는 건수를 집계하고 목록을 뽑아 확인한다

💡 왜 계수가 1.5인가?
통계학자 John Tukey가 제안한 표준값. 정규분포 기준 전체 데이터의 약 99.3%를 정상 범위로 보고 양극단 0.7%만 이상값으로 처리한다.
계수를 높이면 극단값만 잡고, 낮출수록 더 많이 걸러낸다. 1.5가 가장 널리 쓰이는 기본값이다.

2️⃣ 이상값 = 무조건 제거? 아니다

처음에는 이상값이 나오면 다 빼야 하는 줄 알았다. 근데 오늘 배운 내용은 달랐다.
지표 종류에 따라 다르게 처리해야 하고, 이상값도 어떤 케이스냐에 따라 판단이 달라진다.

지표 종류	처리 방식	이유
평균 체류시간 등 평균값 계열	제거 후 분석	극단값 하나가 평균 전체를 왜곡하기 때문
전환율, 비율, 인원수	제거 불필요	카운트 기반이라 이상값 영향이 없음
이상값이면서 행동이 있음	별도 세그먼트로 분류	고관여 탐색 유저일 가능성이 있음

🌿 이상값을 또 다른 세그먼트로 보는 이유

체류시간이 상한을 초과했다고 해서 무조건 의미 없는 데이터는 아니다.
행동 여부를 함께 봐야 한다. 아래처럼 판단 기준을 두 가지로 나눌 수 있다.

❌ 무효 세션 — 배제 대상
IQR 상한 초과 + 리뷰·할인·장바구니·구매 모두 아무 행동 없음
→ 탭을 열어두고 자리를 비웠거나 방치된 세션으로 판단

✅ 고관여 탐색 유저 — 별도 세그먼트
IQR 상한 초과 + 행동이 하나라도 있음
→ 오래 머물면서 실제로 뭔가 했다는 뜻. 가장 진지하게 고민한 유저 그룹일 가능성이 높다

이 세그먼트를 행동 조합별로 더 쪼개보면 이런 질문들이 나온다.

행동 조합	해석 가능한 질문
리뷰만 봤는데 안 담음	리뷰가 구매 확신을 충분히 주지 못했을 가능성
할인만 봤는데 안 담음	할인폭이 기대치보다 낮았을 가능성
리뷰 + 할인 둘 다 봤는데 안 담음	가격 자체가 장벽이거나 다른 외부 요인이 있을 가능성
장바구니까지 담음	신중한 고가 구매 패턴 — 전환 성공 사례

💡 샘플이 적어도 정성적 인사이트로 가치가 있다
이상값 케이스는 건수가 적어 통계적으로 결론 내리긴 어렵다.
하지만 "고관여 미전환 유저는 왜 안 담았을까?"라는 다음 리서치 질문을 만드는 재료가 된다.

3️⃣ 세그먼트 분류 체계 — 어떻게 나눌 수 있나

이번 데이터에서 만들 수 있는 세그먼트 종류를 정리해봤다.

변수	분류	상태
고객 유형	첫 고객 / 이전 고객	✅ 완료
유입 경로	광고 / 직접 / 검색	✅ 완료
PDP 체류시간	IQR 기준 4구간 + 이상값 세그먼트	✅ 완료
상품 카테고리	패션 / 액세서리 / 가방 / 아울렛	🔜 내일
PDP 직전 페이지	검색결과 / 홈 / 광고랜딩 / 기타	🔜 내일

💡 단일 변수보다 교차 세그먼트에서 인사이트가 나온다
예: 유입경로 × 상품카테고리 → 어떤 경로로 온 사람이 어떤 카테고리를 담는가
예: 상품카테고리 × 리뷰/할인 → 카테고리별로 민감도가 다른가
단일 변수에서 교차 변수로 점점 세밀하게 쪼갤수록 진짜 인사이트가 나온다.

4️⃣ 장바구니 담음 vs 안 담음 — 리뷰와 할인의 차이

장바구니를 담은 그룹과 안 담은 그룹의 행동을 비교해봤다.
가장 뚜렷한 차이는 리뷰 클릭률이었다.

리뷰 클릭률 비교

장바구니 담음

매우 높음 ↑

장바구니 안 담음

낮음

할인 노출률 비교

장바구니 담음

비슷

장바구니 안 담음

비슷

✅ 핵심 발견
리뷰 클릭률은 두 그룹 간 차이가 압도적이었다. 반면 할인 노출은 두 그룹 모두 비슷한 수준이었다.
→ 할인이 아니라 리뷰가 장바구니 전환의 핵심 변수라는 걸 데이터로 확인했다.

5️⃣ 유입 경로별 — 검색 유저는 다르다

유입 경로를 광고·직접·검색 세 가지로 나눠서 분석했다.
전환율과 할인 반응에서 경로별로 뚜렷하게 다른 패턴이 나왔다.

경로별 장바구니 전환율

📢 광고 (AD)

중간

🌿 직접 (Organic)

가장 높음 ↑

🔍 검색 (Search)

중간

경로별 할인 노출률 (장바구니 담은 고객 기준)

📢 광고 (AD)

낮음

🌿 직접 (Organic)

중간

🔍 검색 (Search)

압도적으로 높음 ↑

유입 경로	전환율	리뷰	할인	해석
📢 광고	중간	높음	낮음	리뷰는 보지만 할인에 무관심
🌿 직접	가장 높음	가장 높음	중간	브랜드 인지 → 구매 의도 강함
🔍 검색	중간	높음	압도적으로 높음	가격 비교 중인 유저 가능성 높음

💡 경로별로 전략이 달라야 한다
직접 유입 → 리뷰 노출 강화가 효과적
검색 유입 → 할인 정보를 더 잘 보이게 배치하는 것이 효과적
광고 유입 → 할인보다 리뷰·신뢰 요소 강화에 집중

6️⃣ 체류시간 구간별 — 오래 볼수록 담는다

앞서 구한 IQR의 Q1·Q3·상한을 그대로 구간 경계값으로 활용했다.
새로 기준을 만드는 게 아니라 이미 구한 통계값을 재활용하는 방식이라 일관성이 있다.

구간별 장바구니 전환율

💨 즉시 이탈 (0~30초)

낮음

👀 단순 확인 (31~51초)

가장 낮음 ↓

🔍 일반 탐색 (52~130초)

높음 ↑

📖 깊은 탐색 (131~248초)

가장 높음 ↑

구간별 할인 노출률 — 전환율과 반대 방향

💨 즉시 이탈

가장 높음

👀 단순 확인

높음

🔍 일반 탐색

중간

📖 깊은 탐색

낮음

🔍 핵심 기회 구간 — 단순 확인 (31~51초)
전체 인원 중 가장 큰 비중을 차지하는 구간임에도 전환율이 가장 낮다.
할인 노출은 높은 편인데 전환으로 이어지지 않고 있다.
→ 이 구간 사람들이 왜 이탈했는지가 전환율 개선의 핵심 질문이 됐다.

✅ 패턴 정리
체류시간이 길수록 전환율이 올라가는 뚜렷한 패턴이 확인됐다.
반대로 할인 노출은 체류시간이 짧을수록 높게 나타났다 — 할인 배너가 페이지 상단에 위치해 짧게 본 사람도 다 보이는 구조로 추정된다.

7️⃣ 엑셀 시트 정리

오늘 클로드 for Excel을 활용해서 분석용 시트를 두 개 만들었다.
어떤 구조로 만들지 설명하면 자동으로 만들어줘서 편했다.

📋 이상값 정제 시트
이상값 판정 기준 패널을 왼쪽에 두고, 전체 데이터를 오른쪽에 표로 펼쳤다.
이상값에 해당하는 행은 빨간 음영으로 표시해서 제거하지 않고도 한눈에 구분할 수 있게 했다.
필터를 걸면 현재 몇 건이 보이는지 비율로 실시간 표시되도록 만들었다.

📋 구간별 분석 시트
체류시간을 4구간 + 이상값 세그먼트로 나눠 각각 전환율·리뷰율·할인율을 자동 계산하도록 구성했다.
이상값 행동 유무에 따라 유효 인원과 제외 인원을 분리하는 열도 추가했다.

8️⃣ 내일 이어서 할 것

🔜 상품 카테고리별 세그먼트 — 어떤 카테고리가 전환율이 높고 낮은지
🔜 직전 페이지별 세그먼트 — 어디서 넘어온 사람이 잘 담는지
🔜 교차 분석 — 카테고리 × 리뷰/할인 민감도 조합
🔜 전환 레버 도출 — 데이터 기반 개선 가설 수립

✍️ 오늘 배운 것 한 줄 정리

이상값은 무조건 제거가 아니라 행동 데이터와 함께 판단해야 하고, 제거하지 않더라도 별도 세그먼트로 분류해서 질문을 만드는 재료로 써야 한다.

한상균 님의 블로그