Cómo reducir el tamaño de un modelo LLM usando quantization
Aug 21, 2025 · 4 min read · Qué es la quantization y por qué te importa La quantization consiste en representar los pesos y activaciones del modelo con menos bits (8-bit, 4-bit, etc.) en lugar de usar formatos flotantes de 16/32 bits. Al hacerlo se consiguen: Modelos 2-8× más ...
Join discussion































