재밌는 거 잘하고 싶은 개발자입니다
Nothing here yet.
Sep 19, 2025 · 10 min read · 들어가기 전에 전 회사에서는 Databricks와 Delta Lake를 사용하다가, 현 회사에서 Apache Iceberg를 주로 사용 중입니다. 처음엔 익히 들었던 것처럼 “별 다른 점이 없는 스토리지 포맷 아닌가?" 하고 금방 적응할 수 있을 거라 생각했는데, 생각보다 주요한 점들이 달랐습니다. 평소에 학습할 때, 기존에 알고 있는 개념과 연관지어 이해하는 걸 좋아하는 편이라 개념을 정리할 겸 iceberg 와 Delta Lake 에 대해 ...
Join discussionMar 14, 2025 · 5 min read · 시작하면서 데이터 로그 설계에 대해 최근 처음 접하게 되면서 정리한 내용을 공유해보려고 합니다. 아직 초보자의 관점에서 이해한 내용이라 부족할 수 있지만, 천천히 함께 배워가는 의미로 적어봅니다.이후에 추가적으로 로그에 대한 생각이 추가되면 더 추가할 예정입니다. 데이터 로그 설계란 무엇일까? 데이터 로그 설계는 서비스 운영과 사용자 행동을 기록하여 서비스의 성장과 개선을 위한 기반을 마련하는 과정입니다. 즉, 사용자의 모든 행동과 서비스 ...
Join discussionOct 8, 2024 · 3 min read · 시작하면서 매번 executor.memory 설정을 조정할 때마다 최대 메모리 할당 오류가 발생하여, 실제로 Databricks가 워커 노드의 메모리를 어떻게 할당하는지 기록해 두기로 했다. Spark에서의 메모리 관리와 Databricks에서 제공하는 추가적인 최적화 방식을 이해하면, 효율적인 클러스터 관리와 성능 최적화에 큰 도움이 될 것이다. Spark에서 메모리 할당되는 기본 방식 Spark에서 메모리는 여러 요소로 나뉘어 할당된다. 기...
Join discussionJun 2, 2024 · 5 min read · 소개 저는 데이터브릭스에서 raw 데이터를 수집할 때 AWS DMS 를 활용하고 있습니다.AWS RDS 에서 생성된 binary log 를 기반으로 데이터 변경분과 관련된 parquet 파일을 S3에 생성합니다. 그리고 생성된 parquet 파일을 데이터브릭스에서 제공하는 autoloader 의 기능 중 directory listing mode 를 기반으로 CDC 처리를 진행하고 있습니다. 이때 bronze, silver, gold 테이블을 ...
Join discussion