세일즈포스의 VLM2VEC와 MMEB: 멀티모달 임베딩의 새로운 지평
![[혁신] 세일즈포스의 VLM2VEC와 MMEB: 멀티모달 AI의 새로운 시대 열리다!](https://blog.kakaocdn.net/dna/bSzn8M/btsNv7dDLlI/AAAAAAAAAAAAAAAAAAAAAFzLqR2NKDbOEyJ1Q97-tAwOAX3Ne77yyHDbenyCz5q9/img.gif?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1777561199&allow_ip=&allow_referer=&signature=uMuvR7I7%2BA9UBDbT0y8j8Ht%2BK3E%3D)
2025년 4월, 세일즈포스(Salesforce) 리서치와 캐나다 워털루 대학교(University of Waterloo)의 연구팀이 공동으로 발표한 멀티모달 AI 논문은, 현재 AI 시스템이 갖고 있던 결정적인 한계를 극복하는 혁신적인 프레임워크를 제시합니다. 바로 VLM2VEC와 MMEB입니다. 이 논문에서 소개된 기술은 이미지와 텍스트를 하나의 임베딩(vector representation) 공간으로 통합하여, AI 시스템이 보다 직관적이고 의미 있는 방식으로 시각적 및 언어적 정보를 연관시키도록 설계되었습니다.
멀티모달 임베딩이란?
멀티모달 임베딩(Multimodal Embedding)은 서로 다른 데이터 유형(예: 이미지와 텍스트)을 동일한 벡터 공간에 맵핑해, AI가 두 가지 이상 서로 다른 정보 소스를 동시에 이해하고 해석할 수 있도록 돕는 기술입니다. 이 방식은 예컨대 사진 속 사물을 설명하는 문장을 자동으로 생성하거나, 사용자의 질문에 이미지를 기준으로 답변하는 비주얼 QA(Visual Question Answering) 등에 필수적입니다.
기존 멀티모달 시스템의 한계
지금까지 개발된 대부분의 멀티모달 모델들은 특정한 작업에 초점을 맞춘 '작업 특화형' 모델이었습니다. 대표적인 예로는 CLIP(OpenAI), BLIP, SigLIP 등이 있습니다. 이들은 텍스트와 이미지를 각각 별도의 인코더로 임베딩하고, 그 결과물을 단순히 점수나 유사도 기반으로 결합(score-level fusion)합니다. 그러나 이러한 단순 결합 방식은 복잡한 문맥 이해나 다양한 작업으로의 일반화(generalization)에 한계를 보였습니다. 특히 새로운 도메인으로 확장할 때, 그러니까 훈련되지 않은 데이터에 대해서는 예측 정확도가 급격히 떨어지는 문제가 있었습니다.
VLM2VEC: 범용 임베딩 프레임워크의 등장
세일즈포스 연구팀은 이러한 문제점에 착안해 ‘VLM2VEC(Vision-Language Model to Vector)’라는 새로운 프레임워크를 개발했습니다. 이 시스템은 기존 비전-언어 모델(VLM)들을 임베딩 중심의 유연한 구조로 전환시켜, 다양한 도메인과 태스크에 적응할 수 있도록 설계되었습니다. 핵심은 대조 학습(Contrastive Learning)입니다. 이 기술은 유사한 쌍(예: 이미지와 그에 맞는 설명 문장)을 가까운 벡터로 학습시키고, 불일치하는 쌍은 멀어지도록 학습하는 방식입니다.
MMEB: 36가지 태스크를 아우르는 종합 벤치마크
VLM2VEC의 성능을 공정하게 비교하기 위해 연구팀은 자체 벤치마크인 MMEB(Multimodal Embedding Benchmark)를 새롭게 구축했습니다. 이 벤치마크에는 총 36개의 데이터셋이 포함되어 있으며, 크게 네 가지 주요 태스크로 구성됩니다:
- ① 이미지-문장 분류(Classification)
- ② 시각 질의응답(Visual Question Answering, VQA)
- ③ 이미지/텍스트 검색(Retrieval)
- ④ 시각적 연결(Visual Grounding)
36개 중 20개는 훈련용 데이터셋이고, 나머지 16개는 평가용으로 사용됩니다. 특히 평가 데이터 중 일부는 기존 모델이 한 번도 본 적 없는 out-of-distribution 데이터셋으로 구성되어 있어, 모델의 일반화 능력을 강하게 시험합니다.
모델 구현: LLaVA와 Phi 기반, LoRA 튜닝 적용
VLM2VEC의 백본 모델로는 최근 주목받고 있는 LLaVA-1.6과 Phi-3.5-V를 사용했습니다. 특히 이미지 입력 해상도를 1344×1344까지 높이고, LoRA(Low-Rank Adaptation) 방식의 튜닝을 적용하여 성능과 메모리 사용 간의 균형을 확보했습니다.
LoRA는 완전한 파라미터 튜닝 대신, 일부 중요한 부분에 한정해 선별적으로 조정하는 방식이며, VLM2VEC에서는 이 방식이 전체 튜닝보다 오히려 더 나은 성능을 보여주었습니다.
성능 평가: 전 범주에서 두 자릿수 향상
VLM2VEC는 MMEB 전체 36개 데이터셋에서 평균 Precision@1 62.9%라는 뛰어난 성과를 기록했습니다. 특히 Out-of-distribution 테스트에서도 57.1%를 유지하여 일반화 능력이 탁월함을 입증했습니다. 기존 최고 모델이 44.7%, Fine-Tuned 기준으로도 47.2%였던 것에 비하면 대략 15~18%포인트 이상의 성능 향상입니다.
실용성 강화: 백엔드 최적화 도구 'GradCache'
멀티모달 데이터는 하나의 배치(batch)에 수백 MB의 이미지와 텍스트가 포함되므로, 메모리 문제는 실용성 확보의 관건입니다. 이를 해결하기 위해 VLM2VEC는 GradCache라는 메모리 최적화 도구를 사용했습니다. 이 방식은 큰 배치를 자동으로 나눠 미니 배치로 처리하면서도 전체 그래디언트를 일관되게 누적 학습할 수 있게 해, 메모리 효율성과 학습 품질 간 균형을 이룹니다.
응용 분야: 실시간 검색, AI 비서, 문서 해석까지
VLM2VEC가 가져올 수 있는 활용 가능성은 매우 폭넓습니다. 예를 들어, 전자책이나 문서 PDF에서 이미지와 문장을 함께 해석하거나, 사용자의 음성 지시에 따라 적절한 이미지를 검색해야 하는 AI 비서 시스템에 바로 적용 가능합니다. 현실 세계의 콘텐츠는 텍스트와 이미지가 함께 구성되어 있기 때문에, 이러한 통합적인 임베딩 기술은 차세대 AI의 핵심이라 할 수 있습니다.
향후 확장성 및 전망
VLM2VEC의 구조는 매우 범용적입니다. 이미지-텍스트 외에도 오디오, 영상, 센서 데이터 등을 추가하여 완전한 ‘X모달 AI’를 구성하는 기반 모델로 확장될 가능성이 있습니다. 실제로 OpenAI, Meta AI에서도 유사한 멀티모달 통합 구조에 대한 연구를 지속 중이며, 향후 AGI(인공지능 일반)의 초석으로 여겨질 수 있습니다.
결론: 단일 모델, 수십 개 태스크의 시대가 열린다
이번 연구는 단지 새로운 프레임워크 하나가 등장한 것이 아니라, 다양한 멀티모달 태스크를 하나의 모델로 해결 가능한 방향성을 제시한 데 의의가 있습니다. 이는 향후 생성형 AI나 검색 AI가 보다 현실적인 작업에서 활용되기 위해 반드시 필요한 조건입니다. VLM2VEC와 MMEB는 AI 기술이 “각개 전투”에서 “통합 임무 수행”으로 진화하는 상징적인 전환점이 될 것입니다.
연구 자료 및 프로젝트 페이지는 아래에서 확인할 수 있습니다:
- 논문 원문: arXiv: VLM2VEC
- 프로젝트 웹사이트: VLM2Vec Project Page
- 관련 커뮤니티 소식: Reddit /MachineLearningNews
참고 링크 및 연관 정보
'"세상 한 바퀴"' 카테고리의 다른 글
| [최전선] AI 에이전트의 진화: 사이버 보안 위협과 방어 전략은? (1) | 2025.04.26 |
|---|---|
| 봄 드라이브코스 중 인생샷 건지는 장소는? (2) | 2025.04.25 |
| [분석] 스탠퍼드 2025 AI 인덱스: 인공지능이 바꿀 미래의 모든 것 (1) | 2025.04.23 |
| 만성 피로, 혹시 당신도 모르게 악화되고 있다면? (0) | 2025.04.22 |
| 서울 근교 일출 명소, 새벽 데이트에 딱! 🌅 (0) | 2025.04.21 |