Google、LLMのメモリ消費を大幅削減する新技術「TurboQuant」を発表

Googleは、LLMのメモリ消費量を大きく抑えつつ、計算効率の向上を目指す新技術「TurboQuant」を発表しました。今回の技術は、LLMの推論時に重要なKVキャッシュを圧縮し、精度をできるだけ保ちながらメモリ使用量を削減する点が特徴です。

TurboQuantとは何か

TurboQuantは、PolarQuantとQJLを組み合わせることで、KVキャッシュを3ビットまで圧縮する技術です。これにより、従来と比べてメモリ消費をおよそ6分の1まで抑えられるとされています。

メモリ消費が減ることで、同じハードウェアでもより効率的にLLMを動かしやすくなります。Googleによると、NVIDIAのH100上では計算速度が最大8倍向上する可能性があるとのことです。

この技術は、Geminiのような大規模モデルの効率化だけでなく、ベクトル検索の高速化にもつながる可能性があります。大規模なAIサービスや検索基盤では、処理速度とコストの両面で恩恵がありそうです。

TurboQuantは、LLMの性能をできるだけ保ちながら、メモリ消費と計算コストの削減を狙う注目技術です。実運用でどこまで広く使われるかは今後の検証次第ですが、AI推論の効率化に向けた有力なアプローチのひとつと言えそうです。

この記事は国内外のニュースを元にAIが自動生成したプロトタイプです。最新の正確な情報は一次ソースを確認してください。