
인공지능이 이제 단순히 사물을 ‘보는 것’을 넘어, ‘이해하는 단계’에 들어섰다.
MIT와 MIT-IBM 왓슨 AI 연구소 공동 연구진이 비전-언어 모델(Vision-Language Model, 이하 VLM)의 한계를 뛰어넘는
새로운 학습법을 공개했다.
이번 기술은 생성형 AI가 특정 객체를 맥락 속에서 인식하도록 만드는 ‘맥락학습(In-context Learning)’ 방식이다.
이를 통해 AI는 “이건 강아지” 수준을 넘어 “이건 내 강아지 보우저”처럼 개인화된 대상을 정확하게 구별할 수 있게 됐다.
‘맥락학습’으로 배우는 새로운 AI
기존의 GPT-5 같은 비전-언어 모델은 ‘고양이’, ‘의자’ 같은 범주적 구분에는 강했지만 ‘내 반려묘 미루’ 같은 개별 대상 인식에는 약했다. MIT 연구팀은 이런 문제를 해결하기 위해 객체가 다양한 장면 속에서 등장하는 영상을 활용했다.
AI가 단순한 이미지 한 장이 아닌, 상황의 흐름 속에서 같은 객체를 식별하도록 학습한 것이다.
이 방법을 통해 모델은 배경, 조명, 각도가 달라져도 대상을 인식할 수 있게 됐다.
즉, 인간처럼 ‘문맥’을 통해 사물을 이해하는 능력을 갖춘 셈이다.
이름 없이 배우는 ‘문맥 중심’ 학습연구팀은 또 하나의 흥미로운 장치를 도입했다.
모델이 단어의 사전적 의미에 기대지 않도록, ‘객체 이름’을 모두 가상의 이름으로 바꿔 학습시킨 것이다.
예를 들어, 호랑이를 ‘찰리(Charlie)’로 설정하면 모델은 “호랑이=줄무늬 동물”이라는 기존 지식을 쓸 수 없다.
대신 영상 속 맥락을 분석해 스스로 ‘찰리’가 무엇인지 추론해야 한다.
이 방식으로 학습된 모델은 기존 최고 성능 대비 평균 12%, 가상 이름을 사용한 경우에는 최대 21%까지 인식 정확도가 향상됐다.
무엇보다 기존의 이미지 캡션 생성이나 분류 능력은 그대로 유지됐다. 정확도는 높아지고, 기능 저하는 없었던 셈이다.
AI가 상황을 이해하는 첫걸음
MIT 박사후연구원 제한제브 미르자 박사는 “AI가 인간처럼 문맥을 통해 학습한다는 것은 지식의 ‘재사용’이 가능해진다는 뜻”이라며,
“새로운 과제마다 다시 학습할 필요가 없는 효율적인 인공지능의 방향성을 제시한다”고 밝혔다.
이번 연구는 AI가 ‘단순한 이미지 처리기’를 넘어서 ‘상황 이해형 지능’으로 진화하는 중요한 전환점으로 평가받고 있다.
이 기술은 연구실을 넘어 실생활에서도 폭넓게 쓰일 전망이다. 로봇 비전 분야에서는 특정 부품이나 도구를 자동 식별하고, 증강현실(AR) 비서에서는 사용자의 열쇠나 가방을 찾아 시각적으로 표시할 수 있다. 또 시각장애인 보조기기에서는 사용자의 물건을 인식해 음성으로 안내하는 기능 구현이 가능하다.
캐나다 밀라 인공지능 연구소(Mila)의 사우라브 자 박사는 “이번 연구는 개인 맞춤형 객체 추적 문제를 ‘지시학습(instruction tuning)’ 관점에서 재해석했다”며 “비전-언어 모델의 실용적 확산을 앞당길 단순하면서 강력한 접근”이라고 평가했다.
AI 개인화 경쟁, MIT가 한발 앞서
이번 연구는 최근 글로벌 AI 업계에서 핵심 주제로 떠오른 ‘AI 개인화(Personalization)’ 흐름과 맞닿아 있다.
구글, 메타, 오픈AI 등도 사용자 맞춤형 이미지와 영상을 생성하기 위한데이터 구성 방식을 잇따라 발표하고 있다.
MIT의 이번 성과는 특히 ‘개인화된 객체 인식’이라는 새로운 연구 축을 제시했다는 점에서 의미가 크다.
MIT-IBM 왓슨 랩의 로제리오 페리스 수석연구원은 “이 연구는 AI의 자율 시각 시스템 개발에 새로운 전기를 마련할 것”이라고 말했다. 연구 결과는 오는 10월 19~23일 미국 하와이 호놀룰루에서 열리는국제 컴퓨터 비전 학회(ICCV 2025)에서
‘맥락 예시를 통한 객체 학습(Teaching VLMs to Localize Specific Objects from In-context Examples)’
이라는 제목으로 발표될 예정이다.
MIT의 새로운 학습법은 AI가 인간처럼 문맥 속에서 대상을 이해하도록 설계된 혁신적 방법이다.
이 기술은 비전-언어 모델의 인식 능력을 비약적으로 높이며, AI 개인화의 새로운 지평을 연다.
로봇, AR, 보조기기 등 다양한 산업 분야에서 더 자연스럽고 똑똑한 AI 서비스 구현이 가능해질 전망이다.








