量子化

Google、LLMのメモリ消費を大幅削減する新技術「TurboQuant」を発表

Googleが、LLMのメモリ消費を約6分の1に抑える新技術「TurboQuant」を発表。KVキャッシュを3ビット圧縮し、高速化も期待されます。

2026.03.30 21:20

AI NewsITニュース