-
[엘카데미 챌린지] 누구나 이해하는 머신러닝 기초 3일차: 머신러닝 시스템코딩 챌린지 2023. 7. 26. 11:23
머신러닝 시스템은 크게 다섯 가지로 구분할 수 있다.
1. 데이터 - 데이터는 모든 머신러닝의 기본이다. 데이터가 좋으면 좋은 머신러닝 결과가 나온다. 데이터부터 점검하는 게 머신러닝 성공에 중요하다.
2. 피처(Feature) - 데이터에서 제일 중요한 요소들만 뽑아낸 것들이다..
3. 모델(알고리즘) - 목적에 맞게 사용하면 된다. 그리고 알고리즘의 피처 학습에 따른 결과를 모델이라고 한다.
4. 인프라 - 인프라 위에서 학습을 한다. 전체 시스템을 잘 설계해 최소 비용으로 최대 효과를 내는 것이 좋다.
5. 개선 - 지속적으로 성과가 올라가는게 중요하다. 데이터가 순간 한쪽으로 편향될 수 있기 때문에 데이터를 모니터링하고 모델을 개선해 나가는 과정이다.
머신러닝이 실패하는 경우도 있다. Underfitting이라고 하는데, 학습은 다 했지만 일관성 있는 규칙을 못 찾는 경우이다. Overfitting의 경우도 있는데 학습할 때 편향된 데이터로 학습을 해서 학습과 다른 데이터가 들어오면 제대로 분류를 못하는 경우이다. 느린 학습의 경우도 있는데 이 경우는 데이터가 많거나 용량이 너무 크거나 할 때, 학습 속도가 너무 느려 실패하는 경우이다.
회사에서 MLOps (데이터-피처-모델-인프라-개선)과정을 전부 다 할 필요는 없고 필요한 시스템은 외부에서 끌어와도 되지만 전체적으로 어떻게 MLOps가 돌아가고 본인 회사는 어떤 범위를 담당하는지 알아야 전체 시스템이 잘 돌아간다.
'코딩 챌린지' 카테고리의 다른 글
[엘카데미 챌린지] IT 소프트웨어 프로젝트 이해하기 2일차 (0) 2023.07.28 [엘카데미 챌린지] IT 소프트웨어 프로젝트 이해하기 1일차 (0) 2023.07.27 [엘카데미 챌린지] 누구나 이해하는 머신러닝 기초 2일차: 누구나 이해하는 머신러닝의 원리 (0) 2023.07.25 [엘카데미 챌린지] 누구나 이해하는 머신러닝 기초 1일차: 머신러닝의 시대 (0) 2023.07.24 [엘카데미 챌린지] 실습으로 배우는 Numpy 7일차 (0) 2023.07.23