machine learning: 3개의 글
7 Techniques to Handle Imbalanced Data intrusion detection real-time bidding Introduction fraud detection in banking real-time bidding in marekting intrusion detection in networks 위 분야에서는 1%보다 낮게 interesting의 events가 포함되어 있다. (예를 들면 fraudsters using credit cards, clicking advertisement, corrupted server scanning its network) 그러나 머신러닝 알고리즘에서는 imbalanced datasets에 대해서 처리를 잘 하지 못한다. 아래 7개의 techniqu..
Class imbalance problem imbalance problem Class Imbalance Problem이 무엇인가 데이터에서 각 클래스의 개수가 현저하게 차이가 나는 문제를 말한다. 이 문제는 실제로 여러 학문에서 나타나는데 그 중에는 fraud detection, anomaly detection, medical diagnosis, oil spillage detection, facial recognition 등에서 나타난다. 무엇인 문제인가 머신 러닝 알고리즘은 각 클래스들의 개수가 거의 비슷한 경우에 가장 좋은 결과를 보여준다. 하나의 클래스의 개수가 다른 클래스보다 많게 되면 아래와 같은 문제가 발생한다. transaction data의 데이터셋이 주어졌을때, fraudulent(사기를..
Machine Learning? 머신러닝에 대한 정의는 두가지가 있는데, 오래전에 Arthur Samuel의 정의는 'the field of study that gives computers the ability to learn without being explicitly prgrammed'. 하지만 현재는 Tom Mitchell의 정의를 따르고 있습니다. "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E..