[한국공공정책신문=김유리 기자]
◇ 데이터 세트의 개념
데이터 세트(Dataset)는 특정 작업에 대해 분석 및 학습을 수행하기 위한 데이터 집합이다. 즉 많은 정보가 모인 ‘데이터의 상자’이다. 일반적으로 데이터 세트는 다음과 같은 요소로 구성되어 있다. ① 데이터 종류(Types of Data)다. 데이터 세트에는 수치 데이터, 카테고리별 데이터, 텍스트 데이터, 이미지 데이터 등 다양한 종류의 데이터가 포함될 수 있다. 데이터 종류에 따라 분석 및 처리 방법이 다르다. ② 샘플(Samples)이다. 데이터 세트는 여러 샘플(데이터 포인트)로 구성되어 있다. 예컨대, 고객의 구매 이력을 포함한 데이터 세트에서는 각 고객의 구매 정보가 하나의 샘플이 된다. ③ 특징(Features)이다. 각 샘플에는 복수의 특징(피처)이 포함되어 있다. 특징은 데이터 포인트의 속성이나 성질을 나타낸다. 예컨대, 고객 데이터 세트에서는 ‘연령’, ‘성별’, ‘구입액’ 등이 특징이 된다. ④ 라벨(Labels)이다. 분류 문제 등에서는 각 샘플에 라벨(클래스)을 붙이는 일이 있다. 라벨은 샘플이 속한 카테고리나 클래스를 나타낸다. 예컨대, 스팸 메일 분류 데이터 세트에서는 ‘스팸’또는 ‘비스팸’ 라벨이 붙여진다.
◇ 데이터 세트 생성 및 전처리
① 데이터 수집(Data Collection)이다. 데이터 세트를 만들기 위해서는 먼저 데이터를 수집해야 한다. 데이터는 온라인 리소스, 센서 데이터, 설문 조사 등을 통해 수집할 수 있다. ② 데이터 전처리(Data Preprocessing)다. 수집한 데이터는 결손 값이나 오류가 포함되어 있는 경우가 있다. 데이터의 클리닝이나 변환을 실시하여, 분석이나 모델 작성에 적합한 형태로 정돈한다. ③ 데이터 분할(Data Splitting)이다. 모델의 평가를 정확하게 하기 위해서, 데이터 세트는 통상 트레이닝 세트(학습용 데이터)와 테스트 세트(평가용 데이터)로 분할된다. 경우에 따라서는 검증 세트도 사용한다.
◇ 데이터 세트의 응용사례
1) 영상인식이다. 가령, 손으로 쓴 숫자 인식이다.
① 데이터 세트다. MNIST 데이터 세트(손으로 쓴 숫자 이미지)다. ② 활용이다. 손으로 쓴 숫자를 자동으로 인식하는 모델의 훈련에 사용된다.
2) 텍스트 분류다. 가령, 스팸 메일 분류이다.
① 데이터 세트다. 스팸 메일 및 비스팸 메일 텍스트 데이터다. ② 활용이다. 스팸 메일 필터를 작성하기 위한 모델을 트레이닝한다.
3) 예측 분석이다. 가령, 매출 예측이다.
① 데이터 세트다. 과거의 판매 데이터, 계절성, 마케팅 캠페인 정보다. ② 활용이다. 미래의 매출을 예측하기 위한 모델을 구축하여 재고 관리 및 판매 전략에 도움이 된다.
4) 의료 진단이다. 가령, 질병 예측이다.
① 데이터 세트다. 환자 의료기록, 검사 결과다. ② 활용이다. 환자의 증상에서 질병의 위험을 예측하기 위한 모델을 만들어 조기 진단 및 치료에 도움을 준다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG코칭 및 강사
∙ ‘100세대학TV’ 크리에이터 및 강사
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)










