오픈AI·구글 학습 비밀 유출 비상: 머코어 해킹, AI 시대 공급망 보안의 민낯

기사 제공처 : 아이티인사이트 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

공급망 공격, AI 기술 경쟁의 새 변수

2026년 3월 27일, 데이터 전문 기업 머코어(Mercor)가 정교한 해킹 공격을 받으며 글로벌 AI 업계에 경종을 울렸습니다. 이번 사건은 단순한 해킹이 아닌, 오픈소스 생태계의 취약점을 교묘히 이용한 '연쇄 공급망 공격'이라는 점에서 더욱 심각한 문제로 떠오르고 있습니다. 해커들은 널리 사용되는 보안 스캐너인 '트리비(Trivy)'를 목표로 삼아, 이를 통해 라이트LLM(LiteLLM) 관리자의 자격 증명을 탈취하고, 파이썬 패키지 저장소(PyPI)에 악성 버전을 배포하는 치밀한 수법을 사용했습니다.

이 악성 패키지는 약 40분간 배포된 뒤 삭제되었지만, 그 짧은 시간 동안 막대한 피해를 초래했을 가능성이 제기되고 있습니다. 머코어는 단순한 데이터 전문 기업이 아닙니다. 오픈AI, 앤스로픽(Anthropic), 구글 등 글로벌 AI 선두주자들과 협력하며 이들의 AI 모델 학습 데이터를 관리하고 있었던 기업입니다.

머코어가 관리 중이던 약 939GB의 플랫폼 소스코드, 211GB의 사용자 데이터베이스, 그리고 약 3TB에 달하는 영상 인터뷰 녹화 파일 및 신원 확인 서류가 유출될 위기에 처했습니다.

더욱 심각한 것은 4만 명 이상의 머코어 전현직 계약업체 직원과 고객의 실명, 사회보장번호가 유출되었을 가능성도 제기되었다는 점입니다. 여기에 포함된 'AI 학습 비밀'은 AI 업계 전반에 큰 타격을 줄 수 있습니다.

왜 유출된 데이터가 이렇게 중요한가? 현대의 AI 개발은 데이터 수집, 라벨링, 학습 전략 등에서 수많은 자본과 시간이 투자되는 매우 정교한 과정입니다. AI 기업들이 수년간 수십억 달러를 투자하여 개발한 데이터 선택 기준, 라벨링 프로토콜, 학습 전략 등 핵심적인 '학습 비밀'이 외부로 유출되면 기술 경쟁의 판도에 심각한 영향을 미칠 수 있습니다.

기업들은 이를 통해 자사만의 경쟁 우위를 확보하는데, 한 번 유출된 데이터는 회수가 거의 불가능하며, 경쟁사의 손에 들어갈 경우 기술 격차가 급격히 좁혀질 우려가 있습니다. 예를 들어, 특정 데이터 라벨링 기준과 학습 전략이 외부에 공개된다면, 수많은 스타트업이나 경쟁 기업들이 이를 복제, 활용할 가능성이 있습니다.

이는 수십억 달러의 연구·개발비를 사용한 대기업들에게는 치명적인 손실일 수밖에 없습니다. 특히 이번 사건이 더 충격을 주는 이유는, 머코어가 여러 AI 기업의 데이터 파이프라인에 동시에 접근하고 있었다는 점입니다. 이는 AI 기술의 핵심 데이터를 다루는 기업들의 협업 시스템이 얼마나 취약할 수 있는지를 극명하게 드러냈습니다.

메타(Meta)는 머코어와의 협력을 즉각 중단했고, 오픈AI와 구글은 자체적인 조사에 착수한 상황입니다. 흥미롭게도 앤스로픽은 아직 공식 입장을 밝히지 않고 있어 업계의 관심이 집중되고 있습니다.

그러나 이러한 일시적인 조치만으로는 근본적인 문제를 해결할 수 없습니다. 문제의 근원은 공급망 자체에 숨어 있는 잠재적 취약성입니다.

학습 데이터의 기밀 유출, 무엇이 문제인가

이번 공격의 수법은 특히 정교했습니다. 해커들은 먼저 보안 스캐너인 트리비(Trivy)에 대한 공격을 감행했습니다.

트리비는 컨테이너 이미지와 파일 시스템의 취약점을 스캔하는 널리 사용되는 오픈소스 도구입니다.

이를 통해 라이트LLM 관리자의 자격 증명을 획득한 해커들은, 획득한 자격 증명으로 파이썬 패키지 저장소인 PyPI에 라이트LLM 패키지의 악성 버전을 게시했습니다. 라이트LLM은 다양한 대형 언어 모델(LLM)을 통합 관리하는 인기 있는 프록시 서버로, 많은 AI 개발자들이 사용하고 있습니다. 이처럼 오픈소스 소프트웨어와 클라우드 환경에 대한 의존도가 높아질수록, 그 자체가 공격의 목표가 될 수밖에 없습니다.

이러한 상황에 맞서 AI 생태계는 어떤 대응책을 마련해야 할까요? 첫째, 개별 기업들은 데이터 보호를 위한 강력한 암호화 기술과 다계층 네트워크 보안을 한층 강화해야 합니다.

특히 제3자 데이터 관리 업체와의 협력 시 보안 감사를 강화하고, 데이터 접근 권한을 최소화하는 제로 트러스트(Zero Trust) 보안 모델을 적용해야 합니다. 둘째, 오픈소스 생태계 전체가 더욱 체계적인 코드 검증과 릴리스 프로세스를 구축해야 합니다. PyPI와 같은 패키지 저장소는 악성 코드 탐지를 위한 자동화된 스캐닝 시스템을 강화하고, 패키지 게시 시 다단계 인증을 의무화할 필요가 있습니다.

한편으로는 클라우드 서비스 제공 업체들과의 협력을 통해 데이터 전송 및 저장 과정에서의 보안 취약성을 최소화해야 합니다. 데이터 암호화는 전송 중(in-transit)뿐만 아니라 저장 시(at-rest)에도 적용되어야 하며, 암호화 키 관리 시스템 역시 철저히 보호되어야 합니다. 마지막으로, 각국 정부와 국제기구가 나서서 데이터 보안에 대한 규제를 강화하고, 공조 체제를 더욱 공고히 하는 것이 필요합니다.

AI 학습 데이터의 기밀 유지는 단순히 기업의 경쟁력 문제를 넘어 국가 안보와 직결될 수 있기 때문입니다.

AI 시대, 보안 강화 없이는 위험 지속된다

물론 이러한 조치들만으로 문제를 완전히 해결할 수 있을 것이라고 단언할 수는 없습니다. 악의적인 해킹 기술이 점점 더 진화하고 있는 지금, 완벽에 가까운 보안 시스템을 설계하는 것은 현실적으로 불가능합니다. 그러나 이런 노력이 없이는 더 큰 피해를 초래할 가능성이 높습니다.

이번 사건은 공급망 공격의 위험성을 극명하게 보여줍니다. 하나의 취약점이 연쇄적으로 여러 시스템에 영향을 미칠 수 있다는 점에서, 보안은 더 이상 개별 기업의 문제가 아니라 생태계 전체의 문제입니다. 이번 머코어 해킹 사태는 단순히 한 기업의 문제로 끝나지 않을 것입니다.

이는 AI 기술의 발전이 계속될수록, 이를 위협하는 사이버 공격도 더 정교하고 치밀해질 것이라는 경고입니다. 독자 여러분은 앞으로 AI가 우리 삶에 더 깊이 스며들게 될 것이라는 점에 의문을 제기하지 않을 것입니다.

하지만 반대로, 우리가 누리는 모든 기술의 발전이 그만큼 커다란 위험을 동반한다는 사실도 결코 잊어선 안 됩니다. 결론적으로, 이번 사건은 AI 시대의 데이터 보안 취약성과 오픈소스 생태계의 보안 강화가 시급함을 강조합니다. 기술이 인간을 이롭게 하는 도구로 남기 위해선, 그 기반을 이루는 보안이 얼마나 중요한지 다시 한번 생각해볼 필요가 있습니다.

AI 모델 학습 데이터의 기밀 유지는 더 이상 선택이 아닌 필수입니다. 이제 우리의 질문은 분명해졌습니다. 우리는 AI 기술을 발전시키는 동시에, 이를 보호하기 위한 새로운 표준과 사고방식을 어떻게 마련할 것인가?

이 질문에 답하는 과정이야말로 AI 시대를 맞이한 우리의 가장 큰 과제일 것입니다.

김도현 기자

[참고자료]

vertexaisearch.cloud.google.com