DKDOHEE KIMindebugginglife.hashnode.dev·Mar 7 · 10 min read0에서 1, 1에서 1002025년을 생각보다 정신없이 지내놓고 2026년의 1/4이 벌써 지나간 시점에서 회고를 작성하려니 이게 맞나 싶긴 하다. 그럼에도 이직한 지 곧 1년이 다 되어가는 시점에서 한번쯤 나를 되돌아보는 작업은 늘 필요하기에 좀 긴 서두를 적었다. 몰입이라는 전직 퀘스트 나는 이따금 시간을 되돌릴 수 있는 기회가 주어지더라도 되돌아가고 싶지 않을 만큼 몰입하는00
DKDOHEE KIMindebugginglife.hashnode.dev·Sep 19, 2025 · 10 min readDelta Lake 사용자의 Apache Iceberg 적응기들어가기 전에 전 회사에서는 Databricks와 Delta Lake를 사용하다가, 현 회사에서 Apache Iceberg를 주로 사용 중입니다. 처음엔 익히 들었던 것처럼 “별 다른 점이 없는 스토리지 포맷 아닌가?" 하고 금방 적응할 수 있을 거라 생각했는데, 생각보다 주요한 점들이 달랐습니다. 평소에 학습할 때, 기존에 알고 있는 개념과 연관지어 이해하는 걸 좋아하는 편이라 개념을 정리할 겸 iceberg 와 Delta Lake 에 대해 ...00
DKDOHEE KIMindebugginglife.hashnode.dev·Mar 14, 2025 · 5 min read로그와 데이터를 향한 여정시작하면서 데이터 로그 설계에 대해 최근 처음 접하게 되면서 정리한 내용을 공유해보려고 합니다. 아직 초보자의 관점에서 이해한 내용이라 부족할 수 있지만, 천천히 함께 배워가는 의미로 적어봅니다.이후에 추가적으로 로그에 대한 생각이 추가되면 더 추가할 예정입니다. 데이터 로그 설계란 무엇일까? 데이터 로그 설계는 서비스 운영과 사용자 행동을 기록하여 서비스의 성장과 개선을 위한 기반을 마련하는 과정입니다. 즉, 사용자의 모든 행동과 서비스 ...00
DKDOHEE KIMindebugginglife.hashnode.dev·Oct 8, 2024 · 3 min readSpark 메모리 할당과 Databricks의 워커 노드 메모리 관리시작하면서 매번 executor.memory 설정을 조정할 때마다 최대 메모리 할당 오류가 발생하여, 실제로 Databricks가 워커 노드의 메모리를 어떻게 할당하는지 기록해 두기로 했다. Spark에서의 메모리 관리와 Databricks에서 제공하는 추가적인 최적화 방식을 이해하면, 효율적인 클러스터 관리와 성능 최적화에 큰 도움이 될 것이다. Spark에서 메모리 할당되는 기본 방식 Spark에서 메모리는 여러 요소로 나뉘어 할당된다. 기...00
DKDOHEE KIMindebugginglife.hashnode.dev·Jun 2, 2024 · 5 min readDelta Live Tables에서 CDC 처리: 브론즈, 실버, 골드 테이블 구현 시 dlt.apply_changes 활용 방법소개 저는 데이터브릭스에서 raw 데이터를 수집할 때 AWS DMS 를 활용하고 있습니다.AWS RDS 에서 생성된 binary log 를 기반으로 데이터 변경분과 관련된 parquet 파일을 S3에 생성합니다. 그리고 생성된 parquet 파일을 데이터브릭스에서 제공하는 autoloader 의 기능 중 directory listing mode 를 기반으로 CDC 처리를 진행하고 있습니다. 이때 bronze, silver, gold 테이블을 ...00