본문 바로가기
Connect to opportunity/패스트캠퍼스 데이터부트캠프

데이터부트캠프 11기_ SQL프로젝트 후기

by 캘리걸 2023. 12. 27.

지난 2주의 기간 동안 데이터 부트캠프 중, SQL 프로젝트를 진행하였다.

세가지의 과제 중에 골라 프로젝트를 진행할 수 있었는데, 한번 남들이 하지 않았던 자료를 사용해보고 싶었고, 무엇보다 주제도 online cosmetic shop 내, 고객 행동 분석이였기 때문에 주제도 끌려서 선택하게 되었다. 

 

해당 과제는 아래와 같이 9개의 컬럼으로 심플하게 구성되어 있지만, 5개월 간의 view, cart, purchase  등을 이룬 여러 활동 과정이 있었기 때문에, 데이터 파일이 커서 파이썬으로 돌리는 특장점이 있었다. 

 

무엇보다 어떤 사이트인지 어느 배경을 가졌는지 데이터에 대한 배경 지식이 전무하였기 때문에 해당 지식에 대한 백그라운드 지식이 간절하였다. 

다들 팀원간의 서치를 통해, 사이트가 러시아의 한 화장품 사이트임을 추정할 수 있었고, 그 이유는 아래와 같다. 

 

아무튼 이러한 배경지식과 도메인 지식, 데이터 분석을 바탕으로 아래와 같이 데이터 분석에 대한 목표와 문제점을 찾고 집중하기로 하였다. 

 

리뷰하였던 데이터 내용은 아래와 같다. 9개의 칼럼 (그중에서도 카테고리 관련 칼럼은 결측치가 많고 맞지 않는 것이 많아 삭제) 에 비하면 정말 많은 것을 비교 분석하였다. 

 

이를 바탕으로 우리가 염두하였던 세그먼트 분류를 진행하였다. 축은 RFM의 축을 중심으로 기준을 넣었다. 

 

그 카테고리 분류를 한 지표는 아래와 같은 지표를 넣었고, 각 세그먼트별 지표를 기준 삼에 range 를 정리해 각 그룹에서 묶여지거나 나눠지는 그룹을 세분화하기로 하였다., 

각 지표에 대한 가중치를 아래와 같이 두었고 (가중치는 9개의 수치이기 때문에 1/n으로 나누고, 돈, 방문 횟수 등 명확한 수치들은 가중치를 좀 더 주었다.) 그 결과 아래와 같은 가중치 적용이 나왔다. 

 

그 결과 아래와 같은 세그먼트 고객 기준이 나왔고 전체 고객 수와 각 그룹별 내용은 아래와 같다. 

 

무엇보다 가장 고생하였던 파트는 잊어버린 카테고리 항목을 복귀하기 위해, 브랜드를 우리가 추측한 러시아 사이트에서 카테고리를 하나하나 대조해, 각 브랜드의 우선순위 뿐만 아니라, 어떤 카테고리에 집중하는지는 확인할 수 있었다. 

 

그 결과, 각 고객 세그먼트의 특성을 바탕으로 각 고객의 특성에 맞는 전략과 타사의 벤치마킹 대상을 확인하는 과정을 전달하는 것으로 마무리하였다. 

 

결론적으로, 

방대한 데이터를 다루고 쿼리를 돌리는 과정은 모두 생소하였지만, 팀원들과 데이터에서 보이는 특징을 찾고 하나의 과정으로 귀결하는 과정은 매우 뜻깊은 경험이였다. 하지만, SQL 프로젝트임에도 SQL을 상대적으로 습득한 시간은 부족해 차후 데이터를 다루는 스킬을 중점적으로 공부해나갈 예정이다.