• 世界の中心でAIを叫んだだけのもの

Copilot+ PCが発売されたらしい。Microsoftのページを見るに、これは、PC向けのブランドの1つだ。一定の仕様を満たしたPCにブランド名を付け、ユーザーの認知を簡単にするためのマーケッティング上の施策である。昔あったマルチメディアPC(CD-ROMドライブとサウンドカードを装着したPC)なんかと同じである。

Copilot+ PCは、Qualcomm社のSnapdragon Xプロセッサを使った、ARM64版Windowsを搭載したPCだ。これまでのARM64 PCとの最大の違いは40 TOPS(Tera Operation Per Second)のNPU(Neural Processing Unit)を搭載していることだ。Copilot+ PCのAI環境は、「Windows Copilot Runtime」(写真01。以下Copilot Runtimeと表記)と呼ばれている。

  • 写真01: Windows Copilot Runtimeの一番上の部分は、RecallやCoCreateといった、Copilot+PCに付属のアプリやそこでの体験(Experience)を指す。中心になるのは、APIセットである「Windows Copilot Library」と、「On-Device models」つまり、ローカル環境にあるモデル(学習済みニューラルネットワーク)だ。
    Windows Developer Blog Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCsから引用。

簡単にいうと、MicrosoftはCopilot Runtimeで、ローカル推論を普及させようとしている。その中心になるのがCopilotランタイム(前掲の図参照)であり、40 TOPSのNPUである。

いまAIと呼ばれているものの大部分は「ディープラーニング(深層学習)」と呼ばれるもの。ニューラルネットワークを「学習」させて構築する。学習ずみのニューラルネットワークを「モデル」といい、モデルを使って未知のデータの認識や予測、判断、理解を行わせることを「推論」という。

この推論をハードウェアで行うのがNPUである。推論計算は処理が一定なので、比較的ハードウェア化がしやすい。近年は、ニューラルネットワークを構成するパラメーターのビット数を圧縮して、SIMD演算での並列化率を上げ高速計算を可能にする手法が開発されていることもあって高い性能のNPUを低消費電力で動作させることが可能になった。

現在でも、文字認識や音声認識などの一部の処理は、PCだけでなくスマートフォンなどでもローカル推論が行われている。言語モデルや生成モデルのような複雑なモデルもローカル推論させることは可能だが、現在のCPUの計算能力ではリアルタイム性が低い、あるいは消費電力が大きくなってしまう。高性能なNPUを導入することで、これらを低消費電力でローカル実行することが可能になる。

ローカル推論は、先にスマートフォンなどで、俗に言うAIチップ(NPU)で実現されてきた。ただ、スマートフォンでは、メモリ量や計算性能など、推論に利用できる資源に制限があり、NPUが搭載されていても、ローカルでできることは限られていた。発表されたCopilot+PCでは16~32ギガバイトと大量のメモリを搭載している。

Copilot RuntimeでMicrosoftが変えようとしているのは、ローカル推論可能なニューラルネットワークの規模だ。正確な比較は難しいが、INT8(8 bit整数演算)で40 TOPSクラスの推論性能は、7,8年前のデータセンター向けGPUの性能(たとえば2016年のNVIDIA Tesla P40の47 TPOS)に近い性能だ。GPUボードと同じくPCIeの拡張ボード形式で消費電力は250W。現在では、その性能がバッテリ駆動ノートブックマシンのCPU内蔵のNPUで実現できる。

クラウド推論からローカル推論に切り替えることで、クラウド側にデータを送らずに済むため、推論が終わるまでの時間を短縮でき、セキュリティやプライバシーの問題にも関わらずに済む。また、利用者や利用量の増大に対して、データセンター(クラウド側)規模拡大や通信量の増大に対応しなくてもいい。Windowsは、他のプラットフォームとの差別化が可能な上、Microsoftも設備投資コストを下げることが可能になる。

しかし、MicrosoftのCopilotしか動かないというのでは、それほど有難くもない。Copilot Runtimeは、AIモデルの交換を可能にするONNX(Open Neural Network Exchange。オニキス) Runtimeにも対応する。これによりONNXで公開される、Microsoft以外が作成したモデルをCopilot Runtimeで利用できるようになる。

Copilot+PC関連の発表などを見ていると、IntelやAMDのプロセッサも、同程度のNPUを搭載する方向のようだ。つまり、Copilot+PC以後のPCは、それ以前の従来のPCと差別化される。これまでのCPUの順当な進化とは異なり、Copilot Runtimeが動くPCと動かないPCでは、「できること」に違いが出る。現状、無料版Copilotには回数制限などが課せられている。しかし、ローカル推論であれば、こうした制限がなくなる。

従来のPCでクラウド推論を使い続けることができるかは、クラウド運営者の考え次第。誰もクラウド推論を提供する義務を負っているわけではない。Copilot+PCの普及後には、クラウド推論の制限がよりキツくなる可能性だってある。

NPUの推論性能40 TOPSはかなり高く、CPUのマトリクス命令セットやロングベクトル命令セット、あるいはCPU内蔵GPUの汎用演算性能よりも高い。このため従来プロセッサでは、外付けGPUでも併用しない限り、対応がほとんど不可能である。なので、今後登場するCPUには、高性能なNPUが搭載されることになる。これにより、PCハードウェアはCopilot+PC以前と以後に分断される。

もちろん、AIなんて使わないというのなら、既存のPCでも問題はない。ワードで文章を書き、Excelで表計算でき、ゲームもできる。しかし、すでにCopilotやChatGPT、その他生成AIは流行になりつつある。AIを使って仕事でラクしたいと考える人は、AIなんて使いたくないという人より多数派になるだろう。なので、これからはPCだけでなく、どのプラットフォームでも制限を受けない高速なローカル推論が可能なものが主流になる。

世の中、何が流行るかわからない。「いいもの」だけが流行るわけでもない。ダッコちゃんも、アメリカンクラッカーも何の役にもたたなかったが筆者の実家にもあったほど流行った。流行とはそういうものである。

今回のタイトルネタは、ハーラン・エリスンの短編集タイトルであり、同名の短編小説「世界の中心で愛を叫んだけもの」(早川書房、1973年。原題THE BEAST THAT SHOUTED LOVE AT THE HEART OF THE WORLD , 1969)である。今では世界の中心で叫ぶものはいろいろあるが、最初に叫んだのはエリスンである。