Pruning & Quantisierung: Gewichte streichen oder Bit‑Breite reduzieren spart Rechenleistung, oft ohne Genauigkeitsverlust.
Distillation: Kleine Student‑Modelle lernen von großen Teacher‑Netzen. So wird Inference auf Edge‑Geräten machbar.
Politische Anreize: Cloud‑Provider könnten Steuervorteile für energieeffiziente Modelle erhalten.