_大模型压缩与优化技术

模型压缩与优化技术

技术	作用	原理简介	典型工具 / 框架
剪枝（Pruning）	减少不重要的参数或神经元	删除权重值小或不活跃的连接	PyTorch、SparseML、NNI
蒸馏（Distillation）	小模型学习大模型行为	大模型作为“老师”，训练小模型 mimic 其输出	Huggingface `distilBERT`、TinyBERT
量化（Quantization）	减少模型位数，提高运行速度	将浮点数（FP32）转为 INT8/INT4/二值	bitsandbytes、ONNX、TensorRT、BQNN
结构优化（Architecture Tuning）	用更少计算实现更好效果	更轻量的网络设计：MobileNet、EfficientNet、DistilBERT	NAS、LiteTransformer
LoRA / Adapter / Prefix Tuning	微调参数量极少	插入少量可训练模块，冻结主干	PEFT、HuggingFace
KV缓存 & 推理优化	提高推理速度、节省显存	Transformer中缓存历史Key/Value，避免重复计算	vLLM、FlashAttention
张量并行 / Pipeline并行 / 混合并行	实现多卡训练	按层/维度拆分参数并行训练	DeepSpeed、Megatron-LM、Colossal-AI
MII / Triton / ONNX Runtime	模型服务优化	专为推理部署优化计算图和运行效率	Triton Inference Server、ONNX、TorchScript