정의
- 대량의 데이터에 고급 통계분석과 모델링 기법을 적용하여 데이터 간의 패턴과 관계를 도출하여 의사결정에 활용할 수 있는 의미 있는 정보를 발견하는 과정
기법 종류
탐색적 모델
- 연관성 기법(Association) : 지지도, 신뢰도, 향상도
- 연속성(Sequence)
- 군집화(Clustering)
예측적 모델
- 의사결정트리(Decision Tree)
- 신경망분석(NN)
- 분류화(Classification)
- 특성화(Characerization)
적용기술(AS 분데특신의)
연관성 기법(Association)
- 여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관 관계를 발견
- 사례
- 넥타이를 구매하는 고객이 셔츠를 50%이상 구매하고, 정장과 벨트를 구매하는 고객은 코드를 구매할 확률이 40% 이상
- 교차판매, 묶음판매, 상품의 진열, 쿠폰 배부등의 분야에서 활용
연속성규칙(Sequence)
- 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성을 예측하는 것
- 사례
- A품목을 구입한 회원이 향후 H품목을 구매할 가능성은 75%이다
- 5번 회원에게 H품목을 추천하여 마케칭의 정확성을 높임
분류(Classification)
- 이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분
- 사례
- 신용카드 신규 가입자를 낮음 / 중간 / 높음 신용 위험 집단으로 구분
- 경쟁자에 이탈한 고객
데이터군집화(Clustering)
- 상호간에 유사한 특성을 갖는 데이터들을 집단화 하는 과정
- 미리 정의한 특성에 대한 정보를 가지지 않는다른 점에서 분류와 차이
- K-means 알고리즘
- 사례
- A-D의 데이터를 집단화하는 과정에서 고객 군집별 특성을 파악함
- A군집은 소득이 300만원 이상이고, 자녀가 2~3명이고 연령이 30대 군집
- B군집은 교육수준이 높으며, 자녀는 모두 출가했고, 연평균 구매액이 200~300만원 정도
특성화
- 데이터 집합의 일반적인 특성을 분석하는 것으로 데이터의 요약 과정을 통하여 특성 규칙을 발견하는 것
신경망분석
- 뇌를 모방, 학습을 통한 예측(입력 - 은닉 - 출력)
의사결정트리
- 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 분류, 해당 분류 값을 예측하는데 사용
상세 수행단계
- 추출(Sampling / Selecting)
- 필요 데이터의 위치, 형태, 완전성등을 파악하여 확보/통합하는 과정
- 정제(Data Cleaning / Preprocessing)
- 변형(Transformation)
- 분석(Analysis) : 불필요한 레코드, 항목삭제, 파생항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업
- 해석(Interpretation)
- 보고서 작성(Reporting)
- 구축된 데이터에 대한 Data Mining 적용 기술을 적용하여 도출된 결과를 해석
- 의미있는 결과는 의사결정에 적용
공식
- 지지도 :
- 신뢰도 :
- 향상도 :