LLM모델·아키텍처업데이트 2026.04.28

멀티모달 검색

별칭멀티모달 검색이미지·음성 검색Visual Search

한 줄 정의

텍스트뿐 아니라 이미지·음성·비디오까지 입력으로 받아 답을 찾아주는 검색 방식으로, '사진 찍어 묻는' 사용자 행동이 만든 새로운 인입 채널입니다.

자세히 알아보기

Multimodal Search는 텍스트 키워드가 아니라 이미지·음성·비디오를 입력으로 받아 답을 만들어주는 검색 흐름을 의미합니다. Google Lens·Circle to Search, ChatGPT의 사진 첨부 질문, Perplexity의 이미지 업로드가 대표적입니다. 사용자가 매대 사진, 광고 캡처, 영수증을 찍어 '이게 뭐야?'라고 묻는 행동이 일상화되고 있습니다.

마케팅 관점에서 의미 있는 포인트는 '시각 자산 자체가 검색 진입점'이 된다는 사실입니다. 패키지·로고·매장 사진이 AI에 식별 가능한 형태여야 하고, 식별된 이후 보여줄 정보(공식 페이지, 가격, 구매 링크)가 잘 정리돼 있어야 합니다.

현장에선 멀티모달 검색이 표면별로 동작 방식이 다 다릅니다. 어떤 표면은 이미지에서 글씨를 읽고, 어떤 표면은 객체 인식과 지식 그래프를 결합합니다. 그래서 단일 최적화법이 있다기보다는 주요 표면별로 우리가 어떻게 식별·인용되는지를 점검해 보는 게 현실적입니다.

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기