
음성 감정 인식(SER, Speech Emotion Recognition) 기술이 최근 산업 전반으로 확산되고 있다. SER은 △인간-컴퓨터 상호작용 향상 △스마트 고객 서비스 △정신 건강 모니터링 △맞춤형 콘텐츠 추천 △자동차 모빌리티 인터페이스 △작업장 생산성 향상 △보안·포렌식 활용 등에서 주목받는 인공지능(AI) 응용 기술 중 하나다.
기존의 SER 기술은 음성 신호를 분석해 감정을 분류하는 방식이었지만, 미묘한 감정 변화까지 포착하거나 다양한 소음 환경에서 안정적으로 작동하는 데에는 한계가 있었다. 이에 따라 데이터 증강, 다양한 특징 추출 기법, 그리고 딥러닝 기반 접근법 등 성능 개선 연구가 활발히 진행되어 왔다.
국내 AI 기술 기업 (주)스피랩은 최근 대표적인 벤치마크 데이터셋인 SAVEE, RAVDESS, CREMA-D, TESS, EMO-DB, EMOVO 등을 기반으로 개발한 MFCC(Mel-Frequency Cepstral Coefficients) 기반 1D-CNN 경량 모델을 개발해 공개했다고 밝혔다. 해당 모델은 고정밀 감정 분류 성능을 유지하면서도 학습·추론 효율이 높아 다양한 산업 현장에 실질적인 적용 가능성이 있다는 평가다.
스피랩은 이번 경량 모델을 오픈소스로 공개하며, 연구자와 산업체 실무자들의 기술 활용과 공동 연구 참여를 기대하고 있으며, 이를 자유롭게 활용할 수 있도록 GitHub 및 학술 공유 플랫폼 arXiv를 통해 관련 자료를 배포하고 있다.
스피랩 관계자는 “SER 기술은 단순한 사용자 편의성을 넘어, 감정 기반의 맞춤형 서비스가 가능한 ‘감성 지능(Affective AI)’ 구현의 핵심 요소”라며 “이번 모델 공개가 SER 기술의 대중화와 산업 내 확산에 기여할 수 있기를 기대한다”고 전했다.









