Cómo reducir el tamaño de un modelo LLM usando quantization
Qué es la quantization y por qué te importa
La quantization consiste en representar los pesos y activaciones del modelo con menos bits (8-bit, 4-bit, etc.) en lugar de usar formatos flotantes de 16/32 bits. Al hacerlo se consiguen:
Modelos 2-8× más ...
kervin.blog4 min read