한창 더울 때 연재를 시작했는데 벌써 한해가 다 지나간다. 부지런히 써야 하는데 많은 업무에 너무 늦어버렸다. 미안하다. 그래도 올해가 지나기 전에 시리즈를 마무리 지어야겠다 싶어 다시 키보드를 부여잡았다.
무엇을, 몇 개나, 얼마에 팔 것인가?
[2편]에서는 유통 사업자에게 필수적인 ‘고정비와의 싸움’을 이야기했다. 고정비를 줄이기 위해서는 다섯 가지가 필요하다. 1) 상품 구색 및 가격 최적화 2) 상품 판매 수요 예측 3) 매장 내 상품 진열 자동화 4) 상품 판매에 필요한 노동의 효율화 5) 매장 내 고객의 쇼핑 경험 효율화다.
이상 다섯 가지의 고정비 항목 중, 3편에서는 업의 본질에 해당하는 부분 – ‘무엇을(구색), 몇 개나(수요), 얼마에(가격) 팔 것인가’ – 중 ‘몇 개나’와 얼마에’를 인공지능 기반으로 어떻게 효율화할지 간략히 살펴보고자 한다.
몇 개를 얼마에 팔 것인가
수요 예측 · 가격 최적화
‘몇 개를 얼마에 팔 것인가?’라는 질문을 조금 더 세분화해보겠다. 해당 질문은 ‘특정 매장에서 특정 상품이 특정일에 몇 개나 팔릴지’ 추측하고, 나아가 ‘더 많이 팔려면 상품 가격을 어떻게 조정할지’ 예측하는 것이다. 업계에서는 이를 보통 ‘수요예측(Demand Forecasting)’과 ‘가격 최적화(Price Optimization)’라고 지칭한다.
수요예측과 가격 최적화는 보통 대표적인 데이터 분석 방법론 중 회귀분석 기법(Regression)과 분류기법(Classification)을 혼합한다. 인공지능이 어떤 알고리즘과 예측모델을 사용하는지 알아볼 수도 있겠지만 하지 않겠다. 사실 유통 데이터의 학습 및 예측은 날씨 등 여타의 예측에 비해 매우 용이한 특성을 갖는다. 왜냐하면, 판매 상품의 대부분이 생필품이고, 매장은 고정되어 있다 보니 인구 변화가 적기 때문이다. 사실 3주 치 산술평균만 내봐도 90% 이상 맞다. 따라서 디테일을 분석하기보다 실제 유통 운영에 인공지능기술을 적용할 경우 유의할 점을 알아보고자 한다.
알고리즘? 데이터!
언제나 그렇지만, 회귀분석/분류를 통한 예측은 널리 사용하는 방법이다. 수많은 알고리즘 또한 이미 검증되었다. 즉, 알고리즘 자체는 큰 이슈가 아니다. 오히려 진짜 이슈는 데이터다.
전 매장에서 팔리는 각각의 상품 판매 데이터의 정확한 수집이 필요하다. 또 연관된 변수들의 수집도 필수적이다.
예를 들어 일별 판매 데이터와 함께 날씨 데이터도 중요한 데이터다. 더불어, 매장 주변의 인구 변화 데이터도 중요하며, 여행지 근처 지방 매장의 경우 주변 여행지 트래픽 변화도 중요한 데이터다.
상품별 프로모션 현황도 매우 중요한 변수다. 특정 상품의 할인율 변화는 대체 상품 판매량에도 영향을 끼치기 때문이다. 그뿐만 아니라 매장 밖 경쟁사의 할인 행사 여부에 따라서도 판매량은 변한다. 이에 대한 정보 수집도 필수다.
이렇게 수집한 상품 판매 데이터는 상품 종류에 따라 그 규모(Scale)나 변수의 중요도가 상이할 수 있기 때문에, 이를 고려한 데이터 전처리(Data Preprocessing) 과정을 거쳐야 한다. 즉, 가격 민감도가 높은 상품과 낮은 상품에 대하여, 할인율 변수를 동일 수준으로 반영하면 예측 정확도가 떨어질 수 있으니, 이를 반영하여 학습 데이터 및 추론 데이터 생성 시 세부 튜닝이 필요하다. 추가로, 그런 상품 카테고리 특성에 따라 어떤 예측 모델을 사용할지도 달라진다.
앞서 이야기했듯이 뭔가 엄청난 알고리즘을 각고의 노력으로 새롭게 만들 필요는 없다. 그러나 어떤 데이터를 가져다 써야 할지 정도는 고민해야 한다. 세상에 공짜는 없다.
상품 카테고리에 따라 난이도가 다르다?
대부분의 유통 업체는 회귀분석 기법을 활용해 수요예측을 한다. 일상적인 가공식품류 등 판매량이 매우 일정한 상품 카테고리는 굳이 인공지능을 활용하지 않아도 상당히 높은 확률로 수요량을 정확히 예측할 수 있다.
하지만, 매장에서 직접 가공해서 생산하는 육류, 생선, 델리 등과 대량으로 납품해 소량으로 판매하는 과일, 채소 등은 예측이 까다롭다. 판매 데이터의 정확도 수준이 천차만별이어서 일상적인 통계적 분석뿐 아니라 인공지능으로도 수요를 정확히 예측하기 쉽지 않다.
특히 육류, 생선 등의 신선상품은 특성상 유통기한이 매우 짧다. 재고로 저장할 수 없기에 당일 판매가 안 되면 대부분 큰 폭으로 가격을 할인한다. 즉, 당일 재고를 모두 소진했다고 해서 그 판매량을 수요예측에 곧바로 쓸 수 없다는 뜻이다. 극단적으로 보자면 수요가 충분해서 재고를 소진한 게 아니라, 재고를 남기지 않기 위해 상당한 가격 변화를 거치면서까지 모두 판매해버린 경우일 수도 있다.
이러한 신선상품은 데이터 정제가 어렵고, 가격 최적화가 쉽지 않은 카테고리다. 일별 판매 변화율이 매우 높고, 워낙 가격 변화가 크기 때문이다.
따라서 신선상품의 경우, 인공지능 기술은 수요예측보다는 폐기율 감소와 재고율 예측에 활용하는 사례가 두드러진다.
이와 별개로, 일반 가공식품과 신선상품의 특성을 모두 가진 카테고리도 존재한다. 대표적으로 패션 카테고리다. 패션 카테고리는 여름옷은 여름에 모두 판매해야 한다는 측면에서 신선상품의 제약성을 가지지만, 속옷/내의/양말의 경우는 일반적인 생필품의 성격을 지닌다.
운영 가능한가?
앞에서 말했듯, 통계적 기법이든 인공지능이든 각 상품 카테고리에 대한 수요예측과 가격 최적화는 유통 비즈니스에서 어려운 문제는 아니다. 갑자기 인구가 변하거나 날씨가 급변하지 않는 이상 마트에서 취급하는 생필품 소비는 크게 변화하지 않는다.
그러나 첫 번째 문제는, 예측의 정확도가 매우 높아야 한다는 점이다. 대형마트 영업이익률이 크게 높지 않기 때문에 단돈 1원이라도 덜 써야 한다. 그 밖에 문제들은, 예측해야 하는 상품이 수십만 개로 워낙 많다는 점, 점포 수도 적지 않다는 점, 그리고 날이 갈수록 데이터는 누적된다는 점이다. 데이터가 쌓인다는 건 바꿔서 이야기하면 매일매일 새로운 데이터를 반영해야 하며, 지속해서 학습해야 한다는 것이다.
결국, 데이터를 한 번에 모두 모아, 한번 학습 시켜 결과가 좋을지라도 끝이 아니라는 말이다. 매일 생성되는 새로운 데이터를 다시 학습 모델에 반영시키고, 그 결과를 다시 예측에 반영하는 학습-예측 파이프라인 구축과 운영을 반드시 염두에 둬야 한다. 인공지능 과제들이 실패하는 대부분이 운영을 소홀히 할 때 발생한다.
마치며
자, 이렇게 해서 인공지능 기술을 구색 최적화 및 상품 수요예측, 가격 최적화에 대해서 기술 적용 시 유념할 부분들을 중심으로 매우 기본적인 내용을 살펴보았다.
가장 중요한 부분은 마지막에 언급한 ‘운영 가능성’이다.
[2편]에서도 이야기했지만, 솔루션은 시장에 다수 존재한다. 금액만 지불한다면 해당 기술을 적용하는 건 어렵지 않다. 다만, 해외 솔루션을 국내 시장에 그대로 가져다 써야 한다는 점에서 최적화 이슈는 여전히 남아있다고 볼 수 있다. 따라서 도입 후 운영 과정에서 지속해서 세부 파라미터를 튜닝하고, 데이터 전처리 작업을 진행하는 ‘운영’이 매우 중요하다.
물론 최근 일부 국내외 온라인 유통 강자들은 구색, 수요예측, 가격 최적화 영역까지 내부 개발팀을 활용해 인공지능을 기반으로 솔루션을 만들고, 실제 서비스에 적용하고 있다.
필자의 매우 개인적인 견해로는, 국내 오프라인 유통 업체들도 온라인 유통업체와 같이 궁극적으로 기술 개발 조직을 내부에 구축하여 국내 환경에 최적화한 유통 기술을 내재화해야 경쟁에서 살아남을 수 있다. 온-오프 경계 없는 무한 경쟁 시대니까.
장장 6개월간 연재한 ‘오프라인 유통, 인간지능에서 인공지능으로’ 시리즈는 이상으로 마치도록 하겠다.
박창현 이마트 S-LAB 담당
온라인과 오프라인의 경계가 없어지는 그 날을 기다리며,
May the Force be with you…