Amazonのアンディ・ジャシーCEOが、AWSによるOpenAIとの画期的な500億ドル規模の投資契約を発表した直後、Amazonは私を、その契約の中心にあるチップ開発ラボのプライベートツアーに招待してくれた。費用は(ほとんど*)Amazon持ちだった。
業界の専門家たちは、その施設で開発されたAmazonのTrainiumチップが、AI推論の低コスト化にもたらす影響、そしてNvidiaのほぼ独占状態に一石を投じる可能性に注目している。
その日の私のツアーガイドは、ラボのディレクターであるクリストファー・キング(写真右下)と、エンジニアリング担当ディレクターのマーク・キャロル(写真左下)、そしてこの訪問を手配したチームの広報担当者であるドロン・アロンソン(この記事の後半で私と一緒に写っている)だった。
AWSは、AIラボが設立された初期の頃からAnthropicの主要なクラウドプラットフォームであった。この関係は、Anthropicが後にMicrosoftをクラウドパートナーに加えたことや、AmazonとOpenAIとの提携が拡大しているにもかかわらず、存続するほど重要なものだ。
OpenAIとの契約により、AWSはモデル作成者の新しいAIエージェントビルダー「Frontier」の独占的プロバイダーとなる。エージェントがシリコンバレーで考えられているほど大規模になれば、これはOpenAIのビジネスの重要な部分になる可能性がある。その独占が発表通りに維持されるか見守りたい。フィナンシャル・タイムズは今週、マイクロソフトが、OpenAIとAmazonとの契約が、OpenAIのすべてのモデルとテクノロジーへのアクセスをレドモンドが得るという、マイクロソフト自身のOpenAIとの契約に違反している可能性があると考えている、と報じた。
AWSがOpenAIにとってこれほど魅力的なのはなぜだろうか?この契約の一環として、このクラウド大手はOpenAIに2ギガワットのTrainiumコンピューティング能力を供給することに合意した。AnthropicとAmazon自身のBedrockサービスが、Amazonが製造できるよりも速いペースでTrainiumチップをすでに消費していることを考えると、これは途方もないコミットメントである。
同社によると、全3世代で合計140万個のTrainiumチップが展開されており、AnthropicのClaudeは、展開されているTrainium2チップのうち100万個以上で動作しているという。
Trainiumが元々、より高速で安価なモデルトレーニング(数年前はより大きな優先事項だった)向けに設計されていた一方で、現在は推論にも調整され、使用されていることに注目する価値がある。推論(AIモデルを実際に実行して応答を生成するプロセス)は、現在業界で最大のパフォーマンスボトルネックとなっている。
良い例を挙げると、Trainium2はAmazonのBedrockサービスにおける推論トラフィックの大部分を処理している。Bedrockは、Amazonの多くの企業顧客によるAIアプリケーションの構築をサポートし、アプリケーションが複数のモデルを使用することを可能にする。
「我々の顧客ベースは、能力を投入できる限り速く拡大している」とキングは述べた。彼はAWSの巨大なコンピューティングクラウドサービスであるEC2に言及し、「BedrockはいつかEC2と同じくらい大きくなる可能性がある」と付け加えた。
Nvidiaの受注残が多く入手困難なGPUの代替を提供するだけでなく、Amazonは、新しい特殊なTrn3 UltraServerで稼働する自社の新チップが、同等のパフォーマンスに対して従来のクラウドサーバーを使用するよりも最大50%低いコストで稼働すると述べている。
12月にリリースされたTrainium3と共に、このAWSチームは新しいNeuronスイッチも構築しており、キャロルはその組み合わせが変革をもたらすと述べている。
「それがもたらすものは計り知れない」とキャロルは述べた。スイッチは、すべてのTrainium3チップがメッシュ構成で他のすべてのチップと通信することを可能にし、レイテンシーを低減する。「だからこそ、Trainium3はあらゆる種類の記録を破っているのだ」と彼は言い、特に「電力あたりの価格」に言及した。
1日に数兆のトークンが関与する場合、このような改善は積み重なって大きな効果を生む。
実際、Amazonのチップチームは2024年にAppleから称賛された。秘密主義の同社としては珍しい率直な瞬間として、AppleのAIディレクターは、同チームの別のチップ、つまり低電力のARMベースサーバーCPUであり、このチームが設計した最初の画期的なチップであるGravitonをどのように使用したかを公に説明した。Appleはまた、推論用に特別に設計されたチップであるInferentiaを称賛し、当時新しかったTrainiumにも言及した。
これらのチップは、典型的なAmazonの戦略を表している。人々が何を求めているかを見極め、その後、価格で競争できる自社製の代替品を開発するのだ。
歴史的に、チップにおける問題点は移行コストだった。Nvidiaのチップ用に書かれたアプリケーションは、他のチップで動作するように再構築する必要があり、これは開発者が乗り換えるのをためらわせる時間のかかるプロセスだ。
しかし、AWSのチップチームは、Trainiumが現在、AIモデル構築用の人気のあるオープンソースフレームワークであるPyTorchをサポートしていると誇らしげに私に語った。これには、開発者がオープンソースモデルを共有する巨大なライブラリであるHugging Faceでホストされている多くのモデルが含まれる。
キャロルが私に語ったところによると、その移行は「基本的に1行の変更、そして再コンパイル、その後Trainiumで実行」するだけだという。言い換えれば、Amazonは可能な限りNvidiaの市場支配を徐々に切り崩そうとしているのだ。
AWSは今月、Cerebras Systemsとの提携も発表した。これにより、同社の推論チップをTrainiumを実行するサーバーに統合し、Amazonが約束する超高性能で低遅延のAIパフォーマンスを実現するという。
しかし、Amazonの野心はチップ自体にとどまらない。チップをホストするサーバーも設計している。このチームは、ネットワークコンポーネントに加えて、仮想化技術(同じサーバー上で多くのソフトウェアインスタンスを別々に実行可能にする)を提供するハードウェアとソフトウェアの組み合わせである「Nitro」、新しい最先端の液体冷却技術、そしてこの機器を収容するサーバーの「スレッド」(写真下)を設計してきた。
これらすべては、コストとパフォーマンスを管理するためだ。
Amazonのカスタムチップ設計部門は、このクラウド大手が2015年1月にイスラエルのチップ設計会社Annapurna Labsを約3億5000万ドルで買収した際に誕生した。そのため、このチームはAWS向けにチップを設計して10年以上の経験がある。この部門はAnnapurnaのルーツと名前を保持しており、そのロゴはオフィス中にあふれている。
このチップラボは、オースティンの高級地区「ザ・ドメイン」にある、ピカピカのクロム窓の建物の中にある。ここはショップやレストランで賑わう、歩いて回れるエリアで、時にはオースティンのシリコンバレーとも呼ばれる。
オフィスは典型的なハイテク企業の雰囲気で、キュービクル内のデスク、集まる場所、会議室がある。しかし、建物の高層階の奥には実際のラボがひっそりと隠れており、街の広大な景色を望むことができる。
棚がずらりと並んだラボは、大型会議室2つ分ほどの広さがあり、機器のファンのおかげで騒々しい工業空間となっている。エンジニアたちは白衣ではなくジーンズを着ていることを除けば、高校の技術科の授業と高級ラボのハリウッドセットを合わせたような雰囲気だ。
ここはチップが製造される場所ではないため、白い防護服は必要なかったことに注意してほしい。Trainium3は、3ナノメートル製造のリーダーと言えるTSMCによって製造された最先端の3ナノメートルチップであり、他のチップはMarvellによって製造されている。
しかし、ここは「立ち上げ(bring-up)」の魔法が起こる部屋なのだ。
「シリコンの立ち上げとは、チップを初めて手に入れる時のことで、まるで大規模な徹夜パーティーのようです。泊まり込みでここに滞在します」とキングは説明する。18か月の作業の後、チップが設計通りに動作するか検証するために初めて起動される。チームはTrainium3の立ち上げの様子を撮影し、YouTubeにも投稿している。
ネタバレ注意:問題が全くないということは決してない。
Trainium3の場合、プロトタイプチップは以前のバージョンと同様に当初は空冷だった。現在のチップは液冷式になっており、エネルギー面で優れており、かなりの工学的偉業だった。
立ち上げの際、チップが空冷ヒートシンクに取り付けられる際の寸法がずれており、チップを起動できなかった。
動じることなく、チームは「すぐにグラインダーを入手し、金属を削り始めた」とキングは述べた。立ち上げピザパーティーの雰囲気を騒音で台無しにしたくなかったため、こっそり抜け出して会議室で削り作業を行ったという。
一晩中起きて問題を解決することこそが「シリコンの立ち上げのすべて」だとキングは述べた。
ラボには溶接ステーションさえあり、そこでハードウェアラボエンジニアであり熟練溶接工のアイザック・ゲバラが、顕微鏡を通して微細な集積回路部品を溶接する様子を実演した。これは途方もなく難しい作業であるため、シニアリーダーのキャロルは、ゲバラと部屋の他のエンジニアたちの爆笑の中、自分にはできないと公然と認めた。
ラボには、チップの問題をテストおよび分析するためのカスタムメイドおよび市販のツールの両方が含まれている。信号エンジニアのアーヴィンド・スリニヴァサンが、ラボがチップ上の各微細なコンポーネントをどのようにテストするかを実演している様子がこちら:
しかし、ラボの主役は、チームが設計した「スレッド」の各世代を展示する一列の棚である。
スレッドとは、Trainium AIチップ、Graviton CPUチップ、およびサポートボードとコンポーネントを収容するトレイである。これらを、このチームがカスタム設計したネットワークコンポーネントと共にラックに積み重ねると、Anthropic Claudeの成功の核となるシステムが得られる。
12月のAWS re:Inventカンファレンスで披露されたスレッドがこちら:
ツアー中、ガイドたちはOpenAIとの契約について自慢するだろうと私は予想していた。しかし、彼らはそうしなかった。
その沈黙は、前述の、その契約にかかるかもしれない潜在的な法的曖昧さに関連している可能性もある。しかし、私が感じたのは、現場のエンジニアたち(現在、次のバージョンであるTrainium4を設計中)は、まだOpenAIと協力する機会があまりないということだった。彼らの日々の仕事は、これまでのところAnthropicとAmazonのニーズに集中している。
現在、Trainium2チップの最大の塊は、世界の最大級のAI計算クラスターの一つであるProject Rainierに展開されている。これは2025年後半に50万個のチップで稼働を開始した。Anthropicがそれを使用している。
しかし、メインオフィスには、OpenAIがTrainiumをどのように使用するかについての引用文を表示する壁のモニターがあった。控えめではあったが、誇りはそこにあった。
このラボに加えて、チームは品質およびテスト目的で独自のプライベートデータセンターも所有している。車で少し離れた場所にあり、顧客のワークロードは実行しないため、AWSデータセンターではなく、コロケーション施設に収容されている。
セキュリティは厳重である。建物への入場、および建物内のAmazonのエリアへのアクセスには、厳格なプロトコルがある。
データセンターの冷却システムは非常に騒がしいため、耳栓が必須であり、熱せられた金属の刺激臭が空気中に充満している。一般の人がくつろぐには快適な場所ではない。
このデータセンターには、Amazonの最新のカスタムチップ(Graviton CPU、液冷式Trainium3、Amazon Nitro)をすべて統合したスレッドを搭載したサーバーがずらりと並び、すべてが快調に計算処理を行っている。液体は密閉システムで循環し、再利用されるため、環境負荷の低減にも貢献するはずだとエンジニアたちは述べた。
現在のTrn3 UltraServerの様子がこちら:複数のスレッドが上下に配置され、Neuronスイッチが中央にある。ハードウェア開発エンジニアのデビッド・マルティネス・ダローがスレッドのメンテナンスを行っているのが見える:
チームへの注目は常に高かったが、最近になってその精査は本当に高まっている。
Amazonのアンディ・ジャシーCEOは、このラボを注視しており、誇らしげな父親のようにその製品を公に自慢している。12月には、TrainiumはすでにAWSにとって数十億ドル規模のビジネスであり、AWSテクノロジーの中で彼が最も期待しているものの一つだと述べた。また、OpenAIとの契約を発表した際にも、このチップに言及した。
チームもプレッシャーを感じている。エンジニアは、チップを量産しデータセンターに投入できるよう、各立ち上げイベントの前後3〜4週間にわたって24時間体制で働き、あらゆる問題を解決する。
「それが実際に機能することを可能な限り速く証明することが非常に重要だ」とキャロルは述べた。「これまでのところ、我々は非常にうまくやっている。」
*開示:Amazonは航空運賃を提供し、現地ホテルの1泊分の費用を負担した。同社の「倹約」というリーダーシップ原則に則り、これは飛行機の後方座席の中央席と質素な部屋だった。TechCrunchは、Uberや手荷物料金などのその他の関連する旅費を負担した。(ええ、私は一泊旅行のために荷物を預けました。その点では贅沢な人間です。)
積極的に規模を拡大していますか?資金調達中ですか?次の立ち上げを計画していますか?TechCrunch Founder Summit 2026は、戦術的なプレイブックと、構築、支援、および成約を行っている1,000人以上の創業者や投資家への直接アクセスを提供します。
ジェフ・ベゾス氏、AIで古い製造業を買い取り変革するため1,000億ドルを望んでいると報じられる
カリフォルニアのレストランで暴走した踊るヒューマノイドロボットを従業員が拘束しなければならなかった
NothingのCEOカール・ペイ氏、AIエージェントがスマホアプリに取って代わりアプリは消滅すると語る
Nvidia、ひそかに自社のチップ事業に匹敵する数十億ドル規模の巨大事業を構築中
ギャリー・タン氏のClaude Codeのセットアップが、なぜこれほど愛され、そして嫌われたのか
Apple、AirPods Max 2をひっそりと発売
大富豪たちは約束を交わしたが、今や一部は離脱を望んでいる
ソース: 原文記事へ


コメント