LLM모델·아키텍처업데이트 2026.04.28

토크나이제이션

별칭토큰화Tokenizer

한 줄 정의

텍스트를 모델이 다룰 수 있는 토큰 단위로 잘게 쪼개는 전처리 단계로, 모델 비용·맥락 길이·다국어 성능에 직접 영향을 줍니다.

자세히 알아보기

Tokenization은 텍스트를 모델이 처리할 수 있는 단위(토큰)로 잘게 쪼개는 작업입니다. GPT 계열은 BPE(Byte-Pair Encoding) 변형, 일부 모델은 SentencePiece 같은 방식을 쓰고, 1토큰은 영어 기준 평균 4글자 정도지만 한국어·일본어는 글자당 토큰 수가 훨씬 많은 편입니다.

실무에서 토크나이저가 중요한 이유는 단순합니다. API 비용은 토큰 수로 매겨지고, 컨텍스트 윈도우도 토큰 수로 정의되며, 동일한 한국어 문장이 영어보다 토큰 수가 1.5~3배 더 잡히는 일도 흔합니다. 즉 '같은 메시지'라도 언어에 따라 비용과 가용 길이가 달라집니다.

GEO·LLMO 관점에서는 '우리 콘텐츠가 토큰 단위로 잘릴 때 인용 가능한 짧은 단위로 잘 쪼개지느냐'를 한 번쯤 의식할 만합니다. 너무 긴 문장, 끊기 어려운 표 형식은 모델이 인용에 활용하기 어려워질 수 있습니다.

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기