[칼럼 - 이규철] AI교과서(70) - 데이터 세트(Dataset)

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

 [한국공공정책신문=김유리 기자]  


데이터 세트의 개념


데이터 세트(Dataset)는 특정 작업에 대해 분석 및 학습을 수행하기 위한 데이터 집합이다. 즉 많은 정보가 모인 데이터의 상자이다. 일반적으로 데이터 세트는 다음과 같은 요소로 구성되어 있다. 데이터 종류(Types of Data). 데이터 세트에는 수치 데이터, 카테고리별 데이터, 텍스트 데이터, 이미지 데이터 등 다양한 종류의 데이터가 포함될 수 있다. 데이터 종류에 따라 분석 및 처리 방법이 다르다. 샘플(Samples)이다. 데이터 세트는 여러 샘플(데이터 포인트)로 구성되어 있다. 예컨대, 고객의 구매 이력을 포함한 데이터 세트에서는 각 고객의 구매 정보가 하나의 샘플이 된다. 특징(Features)이다. 각 샘플에는 복수의 특징(피처)이 포함되어 있다. 특징은 데이터 포인트의 속성이나 성질을 나타낸다. 예컨대, 고객 데이터 세트에서는 연령’, ‘성별’, ‘구입액등이 특징이 된다. 라벨(Labels)이다. 분류 문제 등에서는 각 샘플에 라벨(클래스)을 붙이는 일이 있다. 라벨은 샘플이 속한 카테고리나 클래스를 나타낸다. 예컨대, 스팸 메일 분류 데이터 세트에서는 스팸또는 비스팸라벨이 붙여진다.

 

데이터 세트 생성 및 전처리


데이터 수집(Data Collection)이다. 데이터 세트를 만들기 위해서는 먼저 데이터를 수집해야 한다. 데이터는 온라인 리소스, 센서 데이터, 설문 조사 등을 통해 수집할 수 있다. 데이터 전처리(Data Preprocessing). 수집한 데이터는 결손 값이나 오류가 포함되어 있는 경우가 있다. 데이터의 클리닝이나 변환을 실시하여, 분석이나 모델 작성에 적합한 형태로 정돈한다. 데이터 분할(Data Splitting)이다. 모델의 평가를 정확하게 하기 위해서, 데이터 세트는 통상 트레이닝 세트(학습용 데이터)와 테스트 세트(평가용 데이터)로 분할된다. 경우에 따라서는 검증 세트도 사용한다.

 

데이터 세트의 응용사례


1) 영상인식이다. 가령, 손으로 쓴 숫자 인식이다.

데이터 세트다. MNIST 데이터 세트(손으로 쓴 숫자 이미지). 활용이다. 손으로 쓴 숫자를 자동으로 인식하는 모델의 훈련에 사용된다.

2) 텍스트 분류다. 가령, 스팸 메일 분류이다.

데이터 세트다. 스팸 메일 및 비스팸 메일 텍스트 데이터다. 활용이다. 스팸 메일 필터를 작성하기 위한 모델을 트레이닝한다.

3) 예측 분석이다. 가령, 매출 예측이다.

데이터 세트다. 과거의 판매 데이터, 계절성, 마케팅 캠페인 정보다. 활용이다. 미래의 매출을 예측하기 위한 모델을 구축하여 재고 관리 및 판매 전략에 도움이 된다.

4) 의료 진단이다. 가령, 질병 예측이다.

데이터 세트다. 환자 의료기록, 검사 결과다. 활용이다. 환자의 증상에서 질병의 위험을 예측하기 위한 모델을 만들어 조기 진단 및 치료에 도움을 준다.

 


이규철 / 법학박사(상법)

AI·GPT, SDGs&ESG코칭 및 강사

‘100세대학TV’ 크리에이터 및 강사

생성AI와 챗GPT, SDGs·ESG경영전략,

글로벌 MBAtoCEO, 리더의 필승전략,

100세대학 행복디자인 매뉴얼 등 27

일본(와세다대),중국(복단대·화동정법대)



작성 2026.05.10 18:48 수정 2026.05.10 18:48

RSS피드 기사제공처 : 한국공공정책신문 / 등록기자: 김유리 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.