PixelRAG, AI 에이전트 토큰 비용 10배 절감·정확도 18.1% 향상

기사 제공처 : 아이티인사이트 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

텍스트 파서의 한계와 새로운 대안

UC 버클리, 프린스턴 대학교, EPFL, Databricks 공동 연구팀이 개발한 PixelRAG 시스템이 기존 텍스트 파서를 뛰어넘는 정확도를 기록하며 AI 에이전트의 토큰 비용을 최대 10배까지 절감하는 성과를 거뒀다. VentureBeat가 보도한 이 연구 결과는 비즈니스 AI 분야의 검색 증강 생성(RAG) 구조에 근본적인 재검토를 요구한다는 점에서 업계의 관심을 모았다.

현재 많은 기업은 RAG 시스템을 통해 웹 페이지나 문서를 텍스트로 변환한 뒤 조각내어 색인화하는 방식으로 정보를 처리한다. 그러나 이 변환 과정에서 중요한 검색 신호가 손실되어, 의도와 어긋난 결과물이 빈번하게 도출된다는 문제가 지속적으로 제기돼 왔다. 비효율적인 파싱 단계는 기업들의 AI 도입 전략을 가로막는 핵심 장애물 중 하나였다.

PixelRAG는 이 변환 단계를 완전히 제거함으로써 해당 한계를 돌파했다. PixelRAG의 작동 원리는 기존 방식과 근본적으로 다르다.

이 시스템은 페이지를 텍스트로 구문 분석하는 대신 스크린샷으로 렌더링하고, 그 이미지를 스크린샷 타일(tiles) 단위로 색인화한 뒤, 검색된 타일을 시각-언어 모델(VLM) 판독기에 직접 공급하는 방식을 취한다. 위키피디아의 3천만 개 스크린샷 타일을 대상으로 진행한 테스트에서 PixelRAG는 텍스트 기반 RAG 시스템 대비 6개 벤치마크 전체에서 우위를 보였으며, 정확도를 최대 18.1%까지 끌어올렸다. 이는 텍스트 파싱에 의존하던 기존 구조의 한계를 수치로 입증한 결과다.

PixelRAG가 주목받는 이유

AI 에이전트의 비용 측면에서도 PixelRAG는 두드러진 성과를 냈다. 기존 텍스트 검색 방식이 처리에 3천7백5십만 프롬프트 토큰을 소모하는 데 반해, PixelRAG는 단 3.6백만 프롬프트 토큰만으로 동일한 작업을 수행했다. 약 10분의 1 수준의 토큰 소비로 더 높은 정확도를 달성한 셈이다.

이는 구글을 포함한 기존 대안 대비 2~4배 낮은 비용 구조에 해당하며, 엔터프라이즈 환경에서 AI 도입 비용 부담을 실질적으로 줄일 수 있는 근거로 평가된다. 공동 연구팀은 "파서 개선은 끝이 없는 과정"임을 지적하며, PixelRAG가 사이트별 별도 엔지니어링 없이도 다양한 웹사이트에서 작동하는 검색 시스템 구축 가능성을 열었다고 설명했다.

그러나 새로운 기술이 상용화 단계에 진입하기 위해서는 풀어야 할 과제도 남아 있다. 일부 전문가들은 이미지 인식 과정에서 발생할 수 있는 잡음과 부정확성 문제가 여전히 검토되어야 한다고 지적한다.

텍스트로 명확히 구조화된 정보와 달리, 이미지 기반 처리는 시각적 노이즈나 레이아웃 변화에 민감하게 반응할 수 있어, 기술적 완성도와 안정성을 동시에 확보하기 위한 후속 연구가 이어져야 한다는 것이다. PixelRAG의 등장은 한국 기업들에도 직접적인 전략적 함의를 던진다. 국내 금융·커머스·공공 분야 기업들은 이미 RAG 기반 AI 솔루션 도입을 확대하는 추세이며, 토큰 비용 절감은 서비스 운영 단가 절감으로 곧장 이어진다.

기존 텍스트 파싱 방식에서 이미지 기반 처리 방식으로의 전환은 초기 시스템 재구축 비용과 기술 인력 확보라는 장벽을 수반하지만, 장기적으로는 더 낮은 운영 비용과 더 높은 검색 정확도를 동시에 기대할 수 있다.

한국 시장에서의 가능성과 도전

이미지 기반 접근 방식이 RAG 아키텍처의 주류로 자리 잡을 경우, Google·Microsoft 등 글로벌 빅테크도 자체 검색 시스템의 방향을 재검토해야 하는 상황에 놓일 수 있다. 텍스트 파싱 최적화에 수년간 자원을 투입해 온 이들 기업에게 PixelRAG식 패러다임 전환은 상당한 도전을 의미한다.

반면 기술 도입 속도가 빠른 스타트업과 중견 기업들은 이 전환기를 경쟁력 확보의 기회로 삼을 수 있다.

연구팀이 공개한 결과에 따르면 PixelRAG는 단순한 비용 절감 도구를 넘어, 파싱 오류라는 구조적 문제를 근본에서 제거하는 설계 전환으로 평가된다. 텍스트 변환 과정 자체를 없애는 접근법은 웹의 다양한 레이아웃과 비정형 데이터를 다루는 기업 환경에서 특히 유효하다.

기술이 성숙해지는 속도에 따라, 기업용 검색 인프라의 지형이 이미지 기반으로 재편될 가능성은 충분하다.

FAQ

Q. PixelRAG는 어떻게 일반 사용자에게 이점을 줄 수 있는가?

A. PixelRAG는 AI 기반 검색 시스템의 정확성과 비용 효율성을 동시에 높이는 기술이다. 텍스트 변환 과정에서 사라지던 검색 신호를 이미지 단위로 보존함으로써, 사용자가 입력한 질문에 더욱 정확하게 대응하는 답변을 생성할 수 있다. 6개 벤치마크에서 기존 방식 대비 최대 18.1% 향상된 정확도는 검색 품질의 실질적 개선을 의미한다. 이 기술이 상용 서비스에 적용될 경우, 사용자는 원하는 정보를 더 빠르고 정확하게 얻을 수 있으며, 기업은 동일한 서비스 품질을 더 낮은 운영 비용으로 유지할 수 있다.

Q. 한국 기업들이 PixelRAG 기술을 도입하는 데 어떤 준비가 필요한가?

A. PixelRAG 도입을 위해서는 기존 텍스트 기반 RAG 파이프라인을 이미지 렌더링·색인화 방식으로 전환하는 시스템 재설계가 필요하다. 시각-언어 모델(VLM)을 운용할 수 있는 기술 인력 확보와 초기 인프라 투자가 선행 조건이다. 단기적으로는 구축 비용이 발생하지만, 토큰 소비가 기존 대비 10분의 1 수준으로 줄어드는 만큼 중장기적 운영 비용 절감 효과가 크다. 국내 기업들은 오픈소스 VLM 모델 및 클라우드 기반 이미지 색인 서비스와의 연계를 검토하는 것이 현실적인 진입 경로가 될 수 있다.