量子化

AI News

Google、LLMのメモリ消費を大幅削減する新技術「TurboQuant」を発表

Googleが、LLMのメモリ消費を約6分の1に抑える新技術「TurboQuant」を発表。KVキャッシュを3ビット圧縮し、高速化も期待されます。