[한국공공정책신문=김유리 기자]
◇ 멀티모델(Multimodal)
AI 분야에서는 특히 복수의 카테고리(모델리티, modality)의 처리를 동시에 실시하는 것을 가리키고 있다. 예컨대, 영상(1개의 모델리티)과 음성(또 하나의 모델리티)을 동시에 읽어, 이것들을 감안한 출력을 한다. 현실적인 범위에서 이것들이 설치ㆍ장치할 수 있게 되면 ‘동영상의 감상을 등장인물의 감정도 섞어서 말한다’라고 하는 것이 가능하게 될지도 모른다.
◇ 멀티모델 AI의 개념
멀티모델 AI(Multimodal AI)란 서로 다른 종류의 정보(텍스트, 음성, 화상, 동영상, 센서 정보 등)를 하나의 시스템에서 통합적으로 처리하는 AI 기술이다. 이러한 종류의 정보는 모델리티(modality)라고 불리며, 모델리티를 2개 이상 취급하기 때문에 멀티(multi)라고 하는 이름을 붙인다.
멀티모델의 처리에서는 각각의 정보원으로부터의 입력을 개별적으로 처리할 뿐만 아니라, 그것들을 조합해 전체의 이해를 깊게 할 수 있다. 또한 멀티모델에 대해 하나의 작업을 해내는 AI를 싱글모델 AI(Single Modal AI)라고 부르기도 한다.
◇ 멀티모델과 싱글모델의 차이점
그럼 멀티모델과 싱글모델의 차이점을 하나 생각해 본다. 예컨대, 멀티모델 폐쇄회로(CC)TV용 AI가 있다고 가정한다. 이 AI는 작동 중에는 음성 검지, 영상에 의한 동체의 검지를 복합해 대상이 ‘수상하다’ 혹은 ‘집중적으로 촬영해야 한다’라고 판단하게 될 것이다. 그리고 이 AI가 리포트를 제출할 경우 ‘수상하다’고 생각한 부분을 상세하게 리포트해 줄 것이다.
싱글모델에서는 진화했을 경우, 영상의 정보를 텍스트에 일으키는 것은 가능하지만, 동시에 음성 정보와 관련시켜서 출력할 수는 없다. 이 부분이 멀티와 싱글의 큰 차이이다. 또 멀티모달 AI는 심층학습 기법을 활용하고 있으며, 중첩신경망(CNN) 등 전통적인 AI 기술을 뛰어넘는 여러 데이터 입력과 통합적인 처리가 특징이다. 이를 통해 AI는 보다 복잡한 정보를 포착하고 깊은 통찰을 얻을 수 있게 되었다.
*주1) 싱글모델AI(Single Modal AI)는 단일 데이터 형식을 다루는 AI 시스템을 말한다. 가령, 화상인식AI는 화상 데이터만을 입력으로 처리하고, 물체 검출이나 분류를 실시한다.
*주2) CNN(Convolutional Neural Network, 합성곱 신경망)란 사람의 뇌신경을 본뜬 ‘뉴럴네트워크’의 일종이다. 신경망은 보통 3개 층 정도로 구성되어 있지만, 더 많은 층(깊은 층)으로 구성되는 것이 '딥신경망'이며, CNN은 딥신경망 중 하나이다. CNN의 주된 처리가 중첩층을 이용한 공간 필터링인 것으로부터, ‘중첩 뉴럴 네트워크’라고 불리고 있다. CNN은 주로 화상인식 분야에서 활용되고 있으며, 그중에서도 ‘일반 물체 인식’이라고 불리는 화상인식의 태스크에 대해 뛰어난 성능을 발휘하는 것으로부터 주목받고 있다.
◇ 멀티모델 기타 활용
① 비즈니스 분야에서의 활용이다. 비즈니스 분야에서의 분석 활약은 이해하기 쉽다. 구체적인 예는 화상과 음성 정보의 통합 처리로부터 고객의 감정 분석을 행하거나 시장 동향의 예측 등을 들 수 있다. ② 의료 분야에서의 응용이다. 영상, 소리가 중요한 의료 분야에서도 활약이 기대된다. 여기에서는 다른 형식의 데이터(예, 화상과 수치)를 통합해 학습하여, AI에 의한 화상 진단의 정밀도를 높이는 연구가 진행되고 있다. 이것에 의해 보다 고정밀의 진단 지원이나 환자의 부담 경감이 기대되고 있다. AI가 문장을 생성할 때 특정 모델이나 파라미터 설정에 MCMC가 간접적으로 관련될 수 있다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG코칭 및 강사
∙ ‘100세대학TV’ 크리에이터 및 강사
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)










