tak's data blog
[게임 데이터 분석] 이상탐지를 위한 빠른 시계열모델(RLS필터주기모델) 본문
안녕하세요, 이번 시간에는 이상탐지의 과정에서 모델에 관한 내용을 공부하고 이에대한 포스팅을 해보도록 하겠습니다!
출처 : https://www.youtube.com/watch?v=-JfHbhplAks
1. 배경
1) 이상탐지의 영역
ex) 몬스터, 아이템, 재화, 퀘스트
2) 과정
이상신호 발생 -> 검증 -> 알림 발송
3) 시계열 탐지 요구사항
- Short term forecast(one step function) : 한스템 이후의 지점을 예측하는 예측법
- 과거의 패턴과 달라지는 point 비교탐지
- 넓은 영역에서의 시계열 지표 이상탐지
4) 데이터 특징
- 일변량데이터 (Univariate data)
- 학습데이터에 이벤트성 outlier가 매우 빈번
- 각 시계열마다 학습데이터의 길이와 특징이 모두 다름
-> 이렇기 떄문에 목적마다 모델을 달리하여 진행 중
이상탐지에서 시계열 예측
(이상탐지 시계열모델의 목적)
과거의 패턴 학습 / 과거패턴과 현재와의 비교 > 예측 정확도
시계열 탐지 절차
1. 지표의 주기 추정 모델 |
2. 학습데이터 이상치 labeling, 제거 모델 |
3. 데이터 특성 판단 후 특성 분류 모델 |
4. 특성에 맞는 시계열 예측, 정상범주 계산 모델 |
5. 다양한 변수를 활용한 검증 모델 |
시계열 모델은 이 중 4번에 해당한다.
탐지 시스템은 많은 이상을 탐지해 게임팀에 실제 도움을 줄 수 있었음
다양한 시각을 위해 처리영역을 늘리기 시작하며 계산비용(시간)이 급격하게 급증
어느 순간부터 처리지표, 영역의 수가 급격히 늘게 됨
원인파악 & 개선방향
시스템의 단계별로 4번단계에서 병목현상을 확인하고자 하였고, 시스템 단계에서 하나하나의 계산비용을 확인해보았음
<원인파악>
시계열 탐지 절차
1. 지표의 주기 추정 모델 |
2. 학습데이터 이상치 labeling, 제거 모델 |
3. 데이터 특성 판단 후 특성 분류 모델 |
4. 특성에 맞는 시계열 예측, 정상범주 계산 모델 |
5. 다양한 변수를 활용한 검증 모델 |
<시계열 모델 개선방향>
기존 |
1. 예측을 위한 시계열 모델 2. 실시간 배치 모델 적용 |
↓
개선방향 |
1. 탐지를 위한 시계열 모델 2. Online 모델 적용 |
2. 리서치 내용
진행 부분
1. 모델 변경
1) 탐지를 위한 시계열 모델
2) 모델 경량화 (least square 추정으로 변경)
<이상탐지 목적>
과거의 정상적인 상황의 패턴을 강건하게 학습하는 것 (미래가 아닌 과거에 목적을 두고 있음)
모델의 tradeoff를 생각할 필요가 있음
비용증가의 원인이 초기에는 이 부분을 목적에 맞지 않게 설정한 것이었음
모델의 성능을 말할 떄 흔히 bias와 variance의 tradeoff관계를 언급하는데 , 예측 분류 모델에서는 bias와 variance를 조율해 두가지 측면에서 모두 좋은 성능을 내는 것을 목표로 함 (기존의 미래예측에 관점을 둔 모델)
하지만 과거의 패턴을 가져오는것이 목적이었고 확인 결과 variance를 낮추기 위해 큰 비용을 지불하고 있었음
variance는 일반화된 예측 미래의 성능을 위한것이고 게임이상탐지팀의 목적은 미래의 정확한 예측이 아님그래서 Bias에 집중하고자 함 과거의 데이터에 조금더 overfitting하도록 모델을 변경하도록함
Error(X) = Bias(X) + Variance(X) - Bias = 과거 패턴, underfitting 시에 오차커짐- Variance = 예측의 일반화, overfitting시에 오차커짐
예측 목적- 미래 예측 (Bias down + Variance up + 속도 down)
이상탐지 목적
- 과거 데이터를 통한 정상범위 학습(Bias down + Variance down + 속도 up)
기존모델은 전통적인 시계열 모델
AR이 과거의 패턴을 학습하는 부분이고 MA항이 모델의 일반화를 높여주는 부분MA항인 예측의 일반화는 미래예측을 위한 variance를 낮추기 위한 부분그런데 MA항의 모수는 비선형적 특징을 가지고 있음 때문에 모수를 추정하기 위해서 numerical한 계산방식으로 iteration이 돌아가며 큰 계산비용이 소모가 됨
결국 MA항을 과감히 제거한 변경 모델 사용과거의 패턴을 Bias를 낮춘상태로 가지고 오면서도 탐지의 목적에서 벗어나지 않을수 있도록, 모델의 tradeoff를 설정한 것
변경으로 과거 데이터의 선형결합 AR항만으로 표현이 가능하게 됨 주기를 반영한 시계열 모델을 설정하기위해 적용되었던 각종 예측을 위한 모듈들과 모수를 추정하기위해 큰 계산비용이 들어가던 부분이 제거 됨기존 수식은 단순 선형최소제곱법을 통해 하나의 모수만 추정하면 되는 문제로 변경 됨
-> 이점 : 모델의 확장성
최소 제곱법에는 그동안 많이 연구되어온 여러 변형되고 개선된 모델들이 존재하는데 이제 그 모델들을 주기 시계열 모델에도 쉽게 적용하게 됨
2. least square 온라인 모델 업데이트 적용
1) 기존 온라인 모델업데이트 방식
온라인 모델 업데이트 방식 | 장단점 | 설명 |
1) 실시간 배치 업데이트 | 장점 단점 |
최적의 모델 사용 계산비용이 크다 |
2) 온라인 업데이트 (Online Gradient descent) |
장점 단점 |
빠른 학습 가능 하이퍼 파라미터 설정 필요 / 최적 모델과 성능 차이(regret) : O(N)^0.5 |
3) 주기 업데이트 4) 이상치 출현업데이트 |
장점 단점 |
1,2번 방법의 중재 방안 정책과 시스템 설계가 필요, 상황에 따른 제약 존재 |
1) 실시간 배치 업데이트는 매번 계산비용이 커 매번 빠른처리가 필요한 online의 경우에는 적합치 않다.
2) 온라인 업데이트는 장점으로 기존모수에 새로 들어온 데이터의 영향력을 바탕으로 학습,업데이트하여 빠른 학습이 가능
그러나 하이퍼 파라미터의 조정에 따라 결과값이 달라지고, 점진적 파라미터 업데이트로 성능이 떨어질 수 있음(regret이라 함)
online학습에서는 regret이라고 하는 것을 최소화 하는 것을 목적으로 하고 이를 regret minization이라 함
O(N)^0.5이 뜻하는 것은 데이터가 길어질수록 최적모수와의 성능차이가 커지게 된다는 것
※regret : 최적의 모수와 online학습시의 성능의 차이를 뜻함
반면 RLS 필터(Recursive least square)에서 이 두가지 방식의 장점을 취할 수 있음을 확인 이를 적용
장점 1) 예측성능 : RLS는 수식적으로 실시간배치 모델과 동일하기 때문에 regret이 0에 가깝다.
장점 2) 속도 : 데이터가 들어올 때마다 저장해둔 모수와 현재 데이터와의 선형결합을 통해 빠른 계산 가능
변형시에는 일괄처리가 가능해서 데이터 특성이 다른 여러 지표의 모델을 한번에 처리할 수 있다는 장점이 생기게 됨
2) Recursive 계산 예시
기존 t개를 확인해야하는 과정에서 단 두개의 데이터만을 확인해 계산하는 과정이 되었음
이를 시계열 모델에 적용하게 되면
학습데이터의 길이에 따라 비용이 증가하는 문제가 있었는데 그 문제가 사라지고,
또한 각기 학습길이가 다른 시계열모델들의 필요한 데이터가 단 2개로 통일되게 됨
3) Recursive least square필터 적용방식
3. 성능확인
'프로젝트' 카테고리의 다른 글
프랜차이즈 카페 top 10 리뷰 분석(스타벅스, 이디야 등등) (1) | 2021.10.16 |
---|---|
[게임 데이터 분석] 회귀 모델 기반의 게임 재화 이상 증감 탐지 (1) | 2021.08.08 |
[게임 데이터 분석] 실전 이탈 예측과 유의사항 (1) | 2021.08.01 |
[게임 데이터 분석] 듀토리얼(유저의 이탈) (1) | 2021.07.29 |