멀티모달 모델
한 줄 정의
텍스트뿐 아니라 이미지·오디오·비디오 같은 여러 형식의 입력을 함께 이해하고 다룰 수 있는 LLM을 가리킵니다.
자세히 알아보기
멀티모달 모델은 텍스트 외에도 이미지·오디오·비디오 같은 다른 형식(modality)을 함께 처리할 수 있는 LLM입니다. GPT-4o, Claude의 vision, Gemini가 대표적이고, 사용자가 이미지를 올리면 그걸 보고 답하거나 음성으로 대화하는 흐름이 점점 자연스러워지고 있습니다.
마케팅 관점에서 의미 있는 포인트는 'AI가 우리 브랜드의 이미지·로고·제품 사진까지 분석한다'는 사실입니다. 즉, 시각 자산도 GEO 대상이 됩니다. 제품 이미지에 정확한 캡션과 alt 텍스트가 붙어 있는지, 패키지에 텍스트가 잘 보이는지 같은 부분이 새로운 의미를 갖습니다.
다만 멀티모달은 모델·표면마다 지원 정도가 달라서, 우리 브랜드가 시각 검색에 노출되는지는 표면별로 따로 확인해야 합니다.
관련 용어
LLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLMGPT 시리즈
OpenAI가 만든 Transformer 기반 LLM 시리즈로, ChatGPT의 엔진이자 현재 AI 시장의 사실상 기준선입니다.
LLMClaude
Anthropic이 개발한 LLM 시리즈로, 안전성·긴 문맥 처리·도구 사용에 강점을 가지고 있어 기업·개발자 환경에서 폭넓게 쓰입니다.
LLM임베딩
텍스트·이미지 같은 데이터를 의미를 보존한 채 숫자 벡터로 바꾼 결과로, 시멘틱 검색·벡터 DB·RAG의 출발점입니다.
LLMRAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기