[칼럼 - 이규철] AI교과서(70) - 데이터 세트(Dataset)

기사 제공처 : 한국공공정책신문 / 등록기자: 김유리 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "김유리"기자에게 전송됩니다

이름

연락처

- -

이메일

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

[한국공공정책신문=김유리 기자]

◇ 데이터 세트의 개념

데이터 세트(Dataset)는 특정 작업에 대해 분석 및 학습을 수행하기 위한 데이터 집합이다. 즉 많은 정보가 모인 ‘데이터의 상자’이다. 일반적으로 데이터 세트는 다음과 같은 요소로 구성되어 있다. ① 데이터 종류(Types of Data)다. 데이터 세트에는 수치 데이터, 카테고리별 데이터, 텍스트 데이터, 이미지 데이터 등 다양한 종류의 데이터가 포함될 수 있다. 데이터 종류에 따라 분석 및 처리 방법이 다르다. ② 샘플(Samples)이다. 데이터 세트는 여러 샘플(데이터 포인트)로 구성되어 있다. 예컨대, 고객의 구매 이력을 포함한 데이터 세트에서는 각 고객의 구매 정보가 하나의 샘플이 된다. ③ 특징(Features)이다. 각 샘플에는 복수의 특징(피처)이 포함되어 있다. 특징은 데이터 포인트의 속성이나 성질을 나타낸다. 예컨대, 고객 데이터 세트에서는 ‘연령’, ‘성별’, ‘구입액’ 등이 특징이 된다. ④ 라벨(Labels)이다. 분류 문제 등에서는 각 샘플에 라벨(클래스)을 붙이는 일이 있다. 라벨은 샘플이 속한 카테고리나 클래스를 나타낸다. 예컨대, 스팸 메일 분류 데이터 세트에서는 ‘스팸’또는 ‘비스팸’ 라벨이 붙여진다.

◇ 데이터 세트 생성 및 전처리

① 데이터 수집(Data Collection)이다. 데이터 세트를 만들기 위해서는 먼저 데이터를 수집해야 한다. 데이터는 온라인 리소스, 센서 데이터, 설문 조사 등을 통해 수집할 수 있다. ② 데이터 전처리(Data Preprocessing)다. 수집한 데이터는 결손 값이나 오류가 포함되어 있는 경우가 있다. 데이터의 클리닝이나 변환을 실시하여, 분석이나 모델 작성에 적합한 형태로 정돈한다. ③ 데이터 분할(Data Splitting)이다. 모델의 평가를 정확하게 하기 위해서, 데이터 세트는 통상 트레이닝 세트(학습용 데이터)와 테스트 세트(평가용 데이터)로 분할된다. 경우에 따라서는 검증 세트도 사용한다.

◇ 데이터 세트의 응용사례

1) 영상인식이다. 가령, 손으로 쓴 숫자 인식이다.

① 데이터 세트다. MNIST 데이터 세트(손으로 쓴 숫자 이미지)다. ② 활용이다. 손으로 쓴 숫자를 자동으로 인식하는 모델의 훈련에 사용된다.

2) 텍스트 분류다. 가령, 스팸 메일 분류이다.

① 데이터 세트다. 스팸 메일 및 비스팸 메일 텍스트 데이터다. ② 활용이다. 스팸 메일 필터를 작성하기 위한 모델을 트레이닝한다.

3) 예측 분석이다. 가령, 매출 예측이다.

① 데이터 세트다. 과거의 판매 데이터, 계절성, 마케팅 캠페인 정보다. ② 활용이다. 미래의 매출을 예측하기 위한 모델을 구축하여 재고 관리 및 판매 전략에 도움이 된다.

4) 의료 진단이다. 가령, 질병 예측이다.

① 데이터 세트다. 환자 의료기록, 검사 결과다. ② 활용이다. 환자의 증상에서 질병의 위험을 예측하기 위한 모델을 만들어 조기 진단 및 치료에 도움을 준다.

이규철 / 법학박사(상법)

∙ AI·GPT, SDGs&ESG코칭 및 강사

∙ ‘100세대학TV’ 크리에이터 및 강사

∙ 생성AI와 챗GPT, SDGs·ESG경영전략,

글로벌 MBAtoCEO, 리더의 필승전략,

100세대학 행복디자인 매뉴얼 등 27권

∙ 일본(와세다대),중국(복단대·화동정법대)