A survey of semi-supervised learning
준지도학습이란
준지도학습(Semi-Supervised Learning, SSL)이란 라벨이 있는 데이터(labeled data) 뿐만 아니라, 라벨이 없는 데이터 (unlabeled data)도 활용하여 모델을 학습시키는 방법론을 일컫는다. 다음 [그림1]에서 볼 수 있듯이, 일반적으로 SSL은 소량의 라벨 있는 데이터와 다량의 라벨 없는 데이터를 활용하여 모델로 하여금 일반화 성능을 향상시킨다.
준지도학습의 필요성
머신러닝 프로젝트에서 가장 많은 자원이 요구되는 부분은 아마도 데이터 수집일 것이다. 대부분의 산업에서 양질의 라벨이 있는 데이터를 얻는 것은 쉽고 값싼 일이 아니다. 특히, 전문가 지식이 요구되거나 복잡한 라벨링 과정이 요구되는 경우, 라벨 데이터를 얻는 비용은 더 높아진다. 예를 들어, MRI 영상에 대한 라벨링 작업은의사의 전문 지식을 요구한다는 점에서 값비싼 비용이 요구될 것이다. 뿐만 아니라, 금융권에서 부정 거래 여부가 라벨링된 데이터 또한 금융 전문가의 사전 지식과 부정 거래 여부를 밝혀내기 위한 복잡한 라벨링 과정을 요구한다는 점에서 많은 자원이 소요될 것이다. 그러나 라벨 데이터를 얻는 것이 이렇게 어렵고 비싼 작업이라고 할지라도, 소량의 라벨 데이터만을 이용하여 지도 학습을 진행한 경우, 모델의 일반화 성능이 낮아 서비스 시 새로 입력된 데이터에 대해 올바르게 추론하지 못할 가능성이 크다.
최근 이러한 지도학습의 한계를 극복하기 위해 준지도학습 방법론에 대한 연구가 활발히 진행되고 있다. 많은 연구에서 labeled data 뿐만 아니라 unlabeled data도 사용하여 준지도학습을 진행할 시 소량의 labeled data만을 사용하여 지도학습을 진행한 경우보다 모델이 더 좋은 일반화 성능을 얻을 수 있음을 보였다.
가상자산 부정거래 탐지에서의 SSL
비트코인, 이더리움 등의 가상자산에 대해 부정 거래 여부가 라벨링된 사례는 많지 않다. cryptoscamDB와 etherscan 등에서 라벨 데이터를 공개적으로 제공하고 있지만 이는 소량일 뿐이다. 그러나 소량의 라벨 데이터만을 이용하여 지도학습 기반으로 부정거래 탐지 모델을 만든다면 학습된 모델의 일반화 성능이 낮을 가능성이 크다. 본 연구에서는 이러한 문제를 해소하기 위해 라벨 데이터 뿐만 아니라 라벨 없는 데이터도 활용하여 준지도학습 기반의 가상자산에 대한 부정거래 탐지 모델을 제안한다. 본 연구의 실험에서는 준지도학습 방법론인 phi-model, self-training, noisy-student와
(ing)
References
[1] Tarvainen, Antti, and Harri Valpola. “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results.” Advances in neural information processing systems 30 (2017).