SJSeunghyeon Jiinjiseunghyeon.com·Aug 11, 2025 · 3 min readWorking with text data💡 이 글은 Build a Large Language Model을 읽고 개인적으로 정리한 내용입니다. This chapter covers 대형 언어 모델 훈련을 위한 텍스트 준비 텍스트를 단어와 서브워드 토큰으로 분할 텍스트를 토큰화하는 보다 진보된 방법인 바이트 페어 인코딩 슬라이딩 윈도우 접근 방식을 사용한 훈련 예제 샘플링 토큰을 대형 언어 모델에 입력하기 위한 벡터로 변환 2.1. Understanding word em...00
SJSeunghyeon Jiinjiseunghyeon.com·Aug 8, 2025 · 4 min readUnderstanding large language models💡 이 글은 Build a Large Language Model을 읽고 개인적으로 정리한 내용입니다. This chapter covers 대규모 언어 모델(Large Language Models, LLM)의 기본 개념에 대한 고수준 설명 ChatGPT와 같은 LLM 모델이 사용하는 트랜스포머 아키텍처에 대한 통찰 LLM을 밑바닥 부터 구현하기 위한 계획 1.1. What is an LLM? 인간이 하는 것과 유사하게 텍스트를 이...00
SJSeunghyeon Jiinjiseunghyeon.com·Aug 19, 2023 · 4 min readMySQL Replication with DockerBoard 서버는 대부분의 애플리케이션 서버에서 그렇듯이 쓰기 연산(음식점 등록하기, 주문하기 등)에 비해 읽기 연산(음식점 리스트 조회, 주문 리스트 조회 등) 비중이 훨씬 큽니다. 따라서 향후 많은 TPS/QPS를 처리하기 위해 Board DB 서버의 다중화가 필요했습니다. 그런데 인터넷에서는 예상보다 docker-compose를 이용한 단방향 복제에 대한 예제가 부족했고, Github에 있는 소스들은 제가 원하는 방식이 아니거나 마운트 과...00
SJSeunghyeon Jiinjiseunghyeon.com·Aug 12, 2023 · 3 min readRefresh Token이 꼭 필요할까?RFC 7519에서 말하는 JWT 스펙은 Access Token이고, Refresh Token은 엄밀히 말하여 JWT와 관계 없는 RFC 6479의 OAuth 2.0 스펙이라고 말할 수 있습니다. 공식 스펙에도 없는 Refresh Token을 구현하여 서버에서 관리하게 된다면 무상태성(Stateless)까지 어기게 되는데, 서비스에 꼭 적용시켜야만 하는 걸까요? 💡Refresh Token이 없을 경우 클라이언트는 인가(Authorizatio...00
SJSeunghyeon Jiinjiseunghyeon.com·Aug 9, 2023 · 2 min readB-Tree 인덱스의 가용성과 효율성💡 이 글은 Real MySQL 8.0과 공식 문서를 읽고 개인적으로 정리한 내용입니다. 쿼리의 WHERE, GROUP BY, ORDER BY 절이 어떤 경우에 인덱스를 사용할 수 있고 어떤 방식으로 사용할 수 있는지 알아야 쿼리의 조건을 최적화하거나, 역으로 쿼리에 맞게 인덱스를 최적으로 생성할 수 있습니다. 이 글에서는 어떤 조건에서 인덱스를 사용할 수 있고, 사용한다면 100% 활용할 수 있는지 일부만 사용할 수 있는지 살펴봅니다. ...00