멀티모달 검색
한 줄 정의
텍스트뿐 아니라 이미지·음성·비디오까지 입력으로 받아 답을 찾아주는 검색 방식으로, '사진 찍어 묻는' 사용자 행동이 만든 새로운 인입 채널입니다.
자세히 알아보기
Multimodal Search는 텍스트 키워드가 아니라 이미지·음성·비디오를 입력으로 받아 답을 만들어주는 검색 흐름을 의미합니다. Google Lens·Circle to Search, ChatGPT의 사진 첨부 질문, Perplexity의 이미지 업로드가 대표적입니다. 사용자가 매대 사진, 광고 캡처, 영수증을 찍어 '이게 뭐야?'라고 묻는 행동이 일상화되고 있습니다.
마케팅 관점에서 의미 있는 포인트는 '시각 자산 자체가 검색 진입점'이 된다는 사실입니다. 패키지·로고·매장 사진이 AI에 식별 가능한 형태여야 하고, 식별된 이후 보여줄 정보(공식 페이지, 가격, 구매 링크)가 잘 정리돼 있어야 합니다.
현장에선 멀티모달 검색이 표면별로 동작 방식이 다 다릅니다. 어떤 표면은 이미지에서 글씨를 읽고, 어떤 표면은 객체 인식과 지식 그래프를 결합합니다. 그래서 단일 최적화법이 있다기보다는 주요 표면별로 우리가 어떻게 식별·인용되는지를 점검해 보는 게 현실적입니다.
관련 용어
멀티모달 모델
텍스트뿐 아니라 이미지·오디오·비디오 같은 여러 형식의 입력을 함께 이해하고 다룰 수 있는 LLM을 가리킵니다.
LLM시각·언어 통합 모델
이미지와 텍스트를 함께 이해하도록 학습된 모델로, AI가 우리 제품 사진·로고·매대 이미지까지 분석한다는 사실의 기술적 배경입니다.
LLMRAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
LLM하이브리드 검색
키워드 검색(BM25)과 벡터 검색을 결합해 양쪽의 장점을 함께 쓰는 검색 방식으로, Perplexity·내부 RAG 같은 AI 답변 시스템이 흔히 쓰는 구조입니다.
GEO·AEOAI Overview
구글 검색 결과 상단에 AI가 생성한 요약 답변을 띄우는 기능으로, 클릭 없이 정보가 소비되는 대표적인 표면입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기