[Pocus 심층 기획] 10만 명 실험이 드러낸 것, 평균형 인재가 AI와 경쟁하는 시대

일부 AI 모델, 인간 평균 창의성 초과…상위 10%는 여전히 우위

효율 높인 AI일수록 창의성 점수 낮아지는 역설, 연구서 확인

AI 쓸수록 개인 완성도 오르고 집단 다양성 줄어…고창의성일수록 손실 커


AI창의성, 평균의 함정을 드러내다
인공지능이 인간의 창의성을 뛰어넘었다는 단편적인 도식은 재고할 필요가 있다. 국제 학술지 '사이언티픽 리포트(Scientific Reports)'에 발표된 대규모 연구 결과는 기술의 승리보다 인류가 구축해 온 표준화 시스템의 취약성을 짚어낸다. 

 

인공지능이 도달한 지점은 인간 전체의 능력을 넘어선 것이 아니라 특정 창의성 과제에서 평균적 수준의 아이디어 생산 능력에 접근하거나 이를 웃도는 수준이기 때문이다. 이는 정답 찾기 훈련에 집중하며 평균형인재를 길러온 기존 교육과 업무 방식이 한계에 직면할 수 있음을 시사한다.
 

<Human Value> Prompted by The Imaginary Pocus, Generated by Midjourney

 

10만 명 대결이 증명한 생성형AI의 도약과 한계
캐나다 몬트리올 대학교와 토론토 대학교 등 국제 연구진은 10만 명 이상의 사람과 주요 대규모 언어 모델을 대상으로 창의성 비교 실험을 진행했다. 참가자들은 발산적 언어 창의성 과제를 수행했고, 그 결과 최신 인공지능 모델 중 일부는 일반적인 사람들의 평균 점수를 웃도는 성과를 기록했다.


하지만 이 결과가 인간 창의성의 전면적인 열세를 뜻하지는 않는다. 전체 참가자 중 상위 10%에 해당하는 인간 그룹은 여전히 모든 인공지능 모델보다 뚜렷한 우위를 보였다. 특히 시 쓰기와 줄거리 작성 등 더 풍부한 맥락과 구조적 사고가 요구되는 창작 과제에서는 인간 최상위권의 독창성이 기계가 도달하기 어려운 영역으로 남았다.

 

효율성과 창의성은 반비례하는가?
연구 결과를 자세히 분석하면 주목할 만한 시사점이 발견된다. 인공지능 모델의 발전이 반드시 창의성 향상으로 이어지지는 않는다는 점이다. 실제로 속도와 비용 효율성을 높인 GPT-4 터보(Turbo)는 GPT-4에 비해 해당 창의성 과제에서 더 낮은 성과를 보였다. 

 

이는 인공지능 기술이 효율성과 창의성 사이에서 일정한 긴장을 드러낼 수 있음을 시사한다. 기계는 일상적이고 무난한 개념을 조합하는 데는 능숙하지만 예외적이고 낯선 통찰을 제시하는 데는 여전히 한계를 지닌다.

 

평균형인재 양성에 갇힌 창의성교육의 위기
이 지점에서 창의성교육의 구조적 모순을 돌아볼 필요가 있다. 오랫동안 학교와 사회는 보편적인 기준에 맞춰 정해진 지식을 빠르고 정확하게 산출하는 인재를 요구해 왔다. 

 

질문을 던지기보다 주어진 질문에 수동적으로 답을 찾도록 훈련받은 학생들의 사고방식은 기계가 효율적으로 모방할 수 있는 영역과 맞닿아 있다. 

 

일부 과제에서 기계가 평균 수준의 아이디어 생산을 앞서기 시작한 상황에서 평균에 수렴하도록 설계된 훈련 방식은 인간의 경쟁력을 약화하는 요인으로 작용할 수 있다.

 

AI를 창작 보조 도구로 쓰면 결과물은 더 다양해질까?
개인의 결과물 완성도는 높아질 수 있지만 전체 집단의 다양성은 오히려 감소할 수 있다. 영국 유니버시티 칼리지 런던 연구진이 진행한 초단편 소설 작성 실험에 따르면 인공지능의 도움을 받은 사람들의 글은 더 창의적이고 더 잘 쓰였으며 더 흥미로운 것으로 평가됐다. 특히 원래 창의성이 낮았던 사람들에게서 도움이 더 크게 나타났다.


그러나 고창의성 인재가 기계에 의존할 경우 발생할 수 있는 역효과도 주목해야 한다. 연구진은 평소 창의성이 높은 사람이 인공지능을 사용할 경우 상대적으로 얻는 이득이 작고, 산출물의 유사성이 높아질 수 있다고 봤다. 실제로 산출된 이야기들을 모아 분석한 결과 작품들 사이의 유사성이 높아졌다. 

 

개별 창작물의 질은 상향 평준화될 수 있지만 집단 전체가 만들어내는 아이디어의 독창성과 집단적 다양성은 줄어들 수 있다. 모두가 비슷한 도구를 사용해 효율적으로 결과물을 생산하는 구조에서는 아이디어 획일화가 발생할 위험이 커진다.
 

<Learning Loss> Prompted by The Imaginary Pocus, Generated by Midjourney

 

표준화 교육을 넘어 고차원적 창의성으로
인공지능의 발전은 역설적으로 인간에게 본질적인 질문을 던진다. 기계가 무난한 평균의 아이디어를 빠르게 생산하기 시작한 시대에 인간의 역할은 어디에 있는가.


하나의 정답을 맞히는 평가 시스템에서 벗어나 자기만의 관점을 형성하고 서로 다른 개념을 독창적으로 연결하는 능력을 키워야 한다. 질문의 방향을 설계하고 기존의 틀을 벗어나는 예외적 사고는 기계의 계산을 넘어서는 인간 고유의 영역으로 남을 가능성이 크다. 

 

이제 사회와 교육의 방향은 규격화된 평균의 함정에서 빠져나와 인간만이 도달할 수 있는 고차원적 창의성을 복원하는 쪽으로 재설계가 필요한 시점이다.


[FAQ]
Q : AI가 인간보다 창의적이라는 연구 결과는 사실인가
A : 일부 과제에서는 그렇다. 최신 인공지능이 인간의 평균적인 창의성 점수를 넘어선 것은 맞지만, 상위 10%의 창의적인 인간 그룹은 여전히 인공지능보다 더 높은 독창성을 보였다.

 

Q : GPT-4는 인간보다 창의적인가
A : 발산적 언어 창의성 과제에서는 평균 인간보다 높은 성과를 보일 수 있었지만, 시 쓰기나 줄거리 작성처럼 풍부한 맥락이 필요한 창작 영역에서는 인간 최상위권의 창의성에 미치지 못했다.

 

Q : AI가 창의성을 높여주나 오히려 떨어뜨리나
A : 개인의 역량과 사용 방식에 따라 다르다. 창의성이 낮은 사람에게는 도움을 줄 수 있지만, 모두가 같은 도구를 사용할 경우 결과물이 비슷해지고 집단적 다양성이 줄어들 수 있다.

 

Q : 한국 교사들은 실제로 학교 현장에서 학생들의 독창성을 어떻게 평가하고 있나
A : 이 질문은 이번 연구가 직접 답한 내용은 아니다. 다만 후속 취재에서는 학교 현장이 정답 중심 평가와 예외적 사고를 어떻게 함께 다루고 있는지 확인할 필요가 있다.

 

Q : 기업의 채용 방식은 평균형 인재 대신 어떤 역량을 요구하는 쪽으로 변할까
A : 이번 연구만으로 채용 변화 방향을 단정할 수는 없다. 다만 반복적 문서 작성이나 평균적 아이디어 생산보다 문제 정의 능력, 관점의 독창성, 낯선 상황에 대한 해석력이 더 중요해질 가능성은 제기해볼 수 있다.

[전문 용어 사전]
▪️발산적 언어 창의성 과제: 주어진 자극에서 서로 멀리 떨어진 개념을 연결하거나 다양한 아이디어를 생성하는 능력을 측정하는 창의성 평가 과제.

 

▪️대규모 언어 모델: 방대한 양의 텍스트 데이터를 학습하여 사람의 언어를 이해하고 문장을 생성하거나 요약 번역 등의 복잡한 작업을 수행하는 인공지능 시스템

 

▪️집단적 다양성: 개개인의 아이디어나 창작물들이 모였을 때 그 집단 전체가 보여주는 결과물의 차별성과 독창성의 폭을 의미한다.

 

▪️의미론적 거리: 단어나 개념들이 의미상으로 얼마나 멀리 떨어져 있는지를 수치화한 것으로 거리가 멀수록 독창적인 연결로 평가될 수 있다.

 

 


 

작성 2026.06.23 05:07 수정 2026.06.23 05:08

RSS피드 기사제공처 : The Imaginary Pocus / 등록기자: 김명민 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.