스트리밍 응답
한 줄 정의
LLM이 답변을 한 번에 끝내고 반환하는 대신, 토큰이 생성되는 즉시 클라이언트로 흘려보내는 응답 방식입니다.
자세히 알아보기
Streaming Response는 LLM이 답변 토큰을 만들 때마다 클라이언트로 즉시 전송하는 응답 방식입니다. ChatGPT가 글자가 한 자씩 타이핑되듯 보이는 게 바로 이 동작이고, 보통 SSE(Server-Sent Events)나 WebSocket으로 구현합니다.
사용자 입장에서 가장 큰 가치는 체감 지연(perceived latency)입니다. 실제 총 응답 시간은 동일해도 첫 토큰이 빠르게 도착하면 'LLM이 일하고 있다'는 신호가 되고, 이탈률이 눈에 띄게 줄어듭니다. 모바일이나 음성 인터페이스에서는 거의 필수에 가까운 패턴입니다.
에이전트 시스템에서는 스트리밍이 단순 UX 차원을 넘어 '도구 호출 의사결정을 중간 토큰에서 가로채 처리'하는 등 더 복잡한 패턴으로 확장됩니다. 그래서 LLM SDK 대부분이 streaming을 1급 시민으로 다루는 방향으로 진화하고 있습니다.
관련 용어
토크나이제이션
텍스트를 모델이 다룰 수 있는 토큰 단위로 잘게 쪼개는 전처리 단계로, 모델 비용·맥락 길이·다국어 성능에 직접 영향을 줍니다.
LLM인스트럭션 튜닝
베이스 LLM을 '지시문을 따라 답변하는' 형태로 미세조정하는 학습 단계로, 사용자가 자연스럽게 명령할 수 있게 만드는 핵심 과정입니다.
LLM지식 증류
큰 '교사 모델'의 출력을 작은 '학생 모델'이 모방하도록 학습시켜, 성능은 최대한 보존하면서 비용과 지연을 줄이는 압축 기법입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
AI Agent도구 사용
LLM이 외부 API·계산기·검색 같은 도구를 직접 호출해 답변에 활용하는 기능으로, 모든 에이전트의 기본 동작입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기