토크나이제이션
한 줄 정의
텍스트를 모델이 다룰 수 있는 토큰 단위로 잘게 쪼개는 전처리 단계로, 모델 비용·맥락 길이·다국어 성능에 직접 영향을 줍니다.
자세히 알아보기
Tokenization은 텍스트를 모델이 처리할 수 있는 단위(토큰)로 잘게 쪼개는 작업입니다. GPT 계열은 BPE(Byte-Pair Encoding) 변형, 일부 모델은 SentencePiece 같은 방식을 쓰고, 1토큰은 영어 기준 평균 4글자 정도지만 한국어·일본어는 글자당 토큰 수가 훨씬 많은 편입니다.
실무에서 토크나이저가 중요한 이유는 단순합니다. API 비용은 토큰 수로 매겨지고, 컨텍스트 윈도우도 토큰 수로 정의되며, 동일한 한국어 문장이 영어보다 토큰 수가 1.5~3배 더 잡히는 일도 흔합니다. 즉 '같은 메시지'라도 언어에 따라 비용과 가용 길이가 달라집니다.
GEO·LLMO 관점에서는 '우리 콘텐츠가 토큰 단위로 잘릴 때 인용 가능한 짧은 단위로 잘 쪼개지느냐'를 한 번쯤 의식할 만합니다. 너무 긴 문장, 끊기 어려운 표 형식은 모델이 인용에 활용하기 어려워질 수 있습니다.
관련 용어
인스트럭션 튜닝
베이스 LLM을 '지시문을 따라 답변하는' 형태로 미세조정하는 학습 단계로, 사용자가 자연스럽게 명령할 수 있게 만드는 핵심 과정입니다.
LLM지식 증류
큰 '교사 모델'의 출력을 작은 '학생 모델'이 모방하도록 학습시켜, 성능은 최대한 보존하면서 비용과 지연을 줄이는 압축 기법입니다.
LLM스트리밍 응답
LLM이 답변을 한 번에 끝내고 반환하는 대신, 토큰이 생성되는 즉시 클라이언트로 흘려보내는 응답 방식입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLMRAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기