Working with text data
Aug 11, 2025 · 3 min read · 💡 이 글은 Build a Large Language Model을 읽고 개인적으로 정리한 내용입니다. This chapter covers 대형 언어 모델 훈련을 위한 텍스트 준비 텍스트를 단어와 서브워드 토큰으로 분할 텍스트를 토큰화하는 보다 진보된 방법인 바이트 페어 인코딩 슬라이딩 윈도우 접근 방식을 사용한 훈련 예제 샘플링 토큰을 대형 언어 모델에 입력하기 위한 벡터로 변환 2.1. Understanding word em...
Join discussion



