Enlarge / AI is behind Apple’s handwashing assistance feature in the Apple Watch. AI is behind Apple’s handwashing assistance function in the Apple Watch.
Enlarge / AI is behind Apple’s handwashing assistance function in the Apple Watch. AI is behind Apple’s handwashing assist function in Apple Watch.
Sam Machkovech
iPhoneには以前から、写真の品質をデジタルかつリアルタイムで向上させるための画像信号プロセッサ (ISP) が含まれていましたが、Appleは2018年に、iPhoneのISPを、同社が最近加えた機械学習を重視するプロセッサ、Neural Engineと密接に連携させることでこのプロセスを加速しました。
私は Giannandrea氏に、最近のソフトウェアと製品でAppleが機械学習を使っているもののいくつかを挙げてもらうよう頼みました。
機械学習によってもたらされる新しい体験が山ほどあります。 言語翻訳、デバイス上での音声入力、睡眠、手洗いなどの健康関連の新機能、心臓の健康関連で過去にリリースしたものなど、さまざまです。 iOS では、機械学習を使っていない場所はますます少なくなってきていると思います。
エクスペリエンスにおいて、何らかの予測を行っていない部分を見つけるのは難しいです。 アプリの予測やキーボードの予測、最近のスマートフォンのカメラでは、舞台裏で大量の機械学習を行って、「顕著性 (saliency)」と呼ばれる、写真の最も重要な部分は何かというようなことを解明しているのです。 また、背景をぼかすことを想像すると、ポートレート・モードを行うことになります。
これらのことはすべて、Apple のコア・プラットフォームに組み込まれているコア機械学習機能の恩恵を受けています。 つまり、「機械学習を使っていないものを探してください」という感じです。
また、Borchers 氏は、重要な例としてアクセシビリティ機能を指摘しました。 “それらは根本的にこれのおかげで利用でき、可能になっているのです。”と彼は言いました。 「音検出機能のようなものは、その特定のコミュニティにとって画期的なものですが、時間をかけた投資と組み込まれた機能によって可能になったのです」
さらに、過去数年間の Apple のソフトウェアおよびハードウェアのアップデートでは、拡張現実の機能が強調されていることにお気づきかもしれません。 それらの機能のほとんどは、機械学習のおかげで実現されています。 Per Giannandrea:
機械学習は拡張現実で多く使用されています。 そこでの難しい問題は、SLAM(Simultaneous Localization And Mapping)と呼ばれるものです。 つまり、ライダー・スキャナーを搭載したiPadを持っていて、動き回っている場合、何が見えるのかを理解しようとするのです。 776>
これは現在、ディープラーニングを使用しており、リアルタイムで実行できるようにするために、デバイス上で実行できるようにする必要があります。 iPadを振り回しながら、おそらくデータセンターでそれを行わなければならないのであれば、意味がないでしょう。 そのため、一般的に、私がこれに関して考える方法は、特に深層学習が、生のデータからそのデータに関するセマンティクスに至る能力を与えてくれるということです。
ますます、Apple は、Apple Neural Engine (ANE) や同社のカスタム設計の GPU (グラフィック処理ユニット) など、デバイス上でローカルに機械学習タスクを実行するようになってきています。 Giannandrea 氏と Borchers 氏は、このアプローチこそが、競合他社の中で Apple の戦略を際立たせるものであると主張しました。
一般に、機械学習は、データが多ければ多いほど、よりよいモデルができ、ひいてはよりよいユーザー体験や製品ができるという考え方に集約されることがあります。 これらの企業は大規模なデータ収集エンジンを運用しており、世界の多くで重要なデジタルインフラとなっているものを完全に可視化していることも理由の1つです。 この尺度では、Apple は、ビジネス モデルが異なり、データ収集を制限することを公言しているため、それほどうまくいかないと考える人もいます。
私がこれらの観点を Giannandrea に提示すると、彼は遠慮なくこう言いました。 実は技術的に間違っているのです。 データを移動させるよりも、データの近くでモデルを実行する方が良いのです。 Borchers と Giannandrea の両氏は、データ センターでこの作業を行うことのプライバシーへの影響について繰り返し指摘しましたが、Giannandrea は、ローカル処理はパフォーマンスにも関係していると述べました。 「データ センターに何かを送信する場合、フレーム レートで何かを行うことは本当に困難です。 そのため、アプリストアには、ポーズ推定、つまり、人が動き回っていることを把握し、足や腕がどこにあるかを特定するようなことを行うアプリがたくさん用意されています。 これは、私たちが提供するハイレベルなAPIです。 766>
広告
彼は、別の消費者向けユースケースの例を示しました。 いつ写真を撮るかという判断に役立てることができます。 もし、その判断をサーバー上で行おうとすると、写真をどう撮るかという判断のために、1フレームずつサーバーに送らなければなりません。 これでは意味がありませんよね。 ですから、エッジ デバイスで行う方が良い構築したいエクスペリエンスがたくさんあります。
Apple がいつオンデバイスで何かを行うかを選択する方法を尋ねられた Giannandrea の答えは単純でした。 「サーバー上で行えることの品質を満たすか、上回ることができたとき」
さらに、Apple の両幹部は、このオンデバイス処理の前提条件として、Apple のカスタム シリコン、特に iPhone 8 および iPhone X 以来の iPhone に含まれる Apple Neural Engine (ANE) シリコンを評価しています。 Neural Engineは、Appleがある種の機械学習タスクを処理するために設計したオクタコアのニューラルプロセッシングユニット(NPU)です。
広告
「5年前にはエッジでこれを行うハードウェアはなかったため、数年の道のりでした」とジャンナンドレア氏は述べます。 「ANE の設計は完全にスケーラブルです。 しかし、私たちのアプリや開発者アプリの CoreML API レイヤーは、製品の全ラインで基本的に同じです」
Apple が Neural Engine について公言したとき、同社は、2018 年の A12 チップにおける 1 秒あたり 5 兆回の演算など、パフォーマンス数値を共有しました。 しかし、チップのアーキテクチャについては具体的になっていない。 Appleのプレゼンテーションのスライドでは、文字通りブラックボックスです。
Apple’s Neural Engine from the presentation stage.
それを考えると、私は、ジャンナンドレア氏がNeural Engineがフードの下でどう動くのかもっと光を当ててくれないかと思っていましたが、あまり詳細には触れなかったそうです。 その代わり、アプリ開発者は CoreML (開発者に iPhone の機械学習機能へのアクセスを提供するソフトウェア開発 API) から知る必要のあるすべての情報を得ることができると、彼は述べました。 そして、PyTorch や TensorFlow などの一般的な機械学習のいずれかから CoreML をターゲットにし、基本的にモデルをコンパイルして、それを CoreML に渡します。 ANE 上でモデルを実行するのが正しいかもしれませんが、GPU 上でモデルを実行するのが正しいかもしれませんし、CPU 上でモデルを実行するのが正しいかもしれません。 CPU にも機械学習の最適化があります。
私たちの会話を通して、両方の幹部は、Apple 自身のアプリと同様に、サード パーティ開発者のアプリを指摘しました。 ここでの戦略は、Apple製のサービスや機能を推進するだけでなく、その機能の少なくとも一部を大規模な開発者コミュニティに開放することです。 Appleは、2008年にApp Storeを初めてオープンして以来、自社のプラットフォームの革新を開発者に頼ってきた。 同社は、自社製のアプリをアップデートする際に、開発者が考え出したアイデアをしばしば借用しています。
もちろん、機械学習チップが組み込まれているのはAppleのデバイスだけではありません。 例えば、Samsung、Huawei、Qualcommはすべて、自社のシステムオンチップにNPUを搭載しています。 そしてGoogleも、開発者向けに機械学習のAPIを提供している。 それでも、グーグルの戦略とビジネスモデルは著しく異なっている。 Android Phone は、ローカルでこれほど幅広い機械学習タスクを実行しません。
Apple シリコンを搭載した Mac
Giannandrea と Borchers とのインタビューでは、数週間前の WWDC で同社が行った大きな発表、つまり Apple シリコン搭載 Mac の差し迫った発売が焦点ではありませんでしたした。 しかし、Apple が自社製チップを中心に Mac を設計する多くの理由の 1 つは、Neural Engine の搭載ではないかと私が推測すると、Borchers は次のように述べました:
私たちがやりたいことと開発者がやりたいことをサポートできる共通のプラットフォーム、シリコン プラットフォームを初めて持つことになります。 その能力により、私たちが考える面白いことがいくつかありますが、おそらくもっと重要なのは、他のデベロッパーが進めていく中で、多くのことを解放していくことです。
Apple シリコンを搭載した最初の Mac、厳密には開発者移行キット。
Sam Machkovech
Giannandrea は、Apple の機械学習ツールおよびハードウェアが Mac でどのように使用されるかの具体例を挙げました:
State of the Union でそのデモを見ているかどうかはわかりませんが、基本的には、ビデオが与えられて、ビデオのフレームまたはフレームごとに調べてオブジェクト検出する、ということです。 そして、レガシー プラットフォームで行うよりも、当社のシリコンで行う方が桁違いに速いのです。
そして、「それは興味深い。 なぜそれが役に立つのでしょうか。 ビデオエディターで検索ボックスがあり、「テーブルの上にあるピザを探してください」と言うことができるとします。 すると、そのフレームにスクラブが入る…。 このような体験は、きっと多くの人が思いつくと思います。 開発者がこれらのフレームワークを使用して、実際に何ができるのか、私たちを驚かせてくれることを強く望んでいます。
Apple は開発者会議で、今年後半から独自のシリコンで Mac を出荷する予定であると述べました。 基調講演やマーケティング資料で何度も取り上げられ、iOSにもそれに関する注意書きが散りばめられていますし、インタビューでもしばしば話題に上ります。 「また、ビル・ゲイツやイーロン・マスクなどの影響力のある人々が、これは危険なテクノロジーだと言っています」
彼は、他の大手ハイテク企業の AI に関する誇大広告は、それらの企業のマーケティング活動にとってプラスではなくマイナスであると信じています。 それは、スカイネットや HAL 9000 のような、ポップカルチャーの悪意ある人工悪役を連想させます。 しかし、応用人工知能のほとんどの専門家は、このような暗い結末は現実離れしていると教えてくれるでしょう。 機械学習によって駆動される技術には、たとえば人間の偏見を継承して増幅させるなど、多くのリスクがありますが、暴走して人類を暴力的に攻撃することは、当面の間ありそうにありません。 この理由とその他の理由により、多くの AI 専門家 (Giannandrea 氏を含む) は、人間の知能との類似性を引き出さない「機械知能」などの代替用語を提案しています。
命名法がどうあれ、機械学習は、ユーザーのプライバシー侵害という非常にリアルで現在の危険を伴うことがあります。 一部の企業はユーザーから積極的に個人データを収集し、それをデータ センターにアップロードし、機械学習やトレーニングを正当化の理由としています。
上述のように、Apple はこの収集と処理の多くをユーザーのデバイス上でローカルに行います。 Giannandrea は、この決定をプライバシーに関する懸念と明確に結びつけています。 「私たちは、この機械学習の高度な技術をできるだけ多くの場合、ユーザーのデバイス上で行うつもりであり、データがユーザーのデバイスから離れることはありません。 私たちのデバイスがより安全で、より優れていて、より信頼されるべきだと考える理由について、非常に明確な声明を持っています」
広告
彼は、この哲学を実行する具体例として、音声合成を使用しました:
“Read me my messages from Bob.” のように言った場合、その内容は、”Read me my messages from Bob.” のように表示できます。 テキストから音声への合成は、デバイス上で、ニューラル エンジンと CPU の組み合わせで行われています。 そのため、ボブからのメッセージの内容を見ることはできません。なぜなら、あなたの携帯電話が読み上げているのであって、サーバーが読み上げているわけではないので。 つまり、そのメッセージのコンテンツは、サーバーに届くことはなかったのです。 しかし、プライバシーに関する話もあります。 実は、これを実現するのはとても難しいんです。 もちろん、多くの場合、機械学習のためにユーザーデータを使用する必要があります。 では、Appleは扱うユーザーデータを具体的にどのように使っているのでしょうか。 Giannandreaは次のように説明しました。「一般的に言って、私たちは2つの方法でモデルを構築しています。 1 つは、データを収集してラベル付けする方法で、これは多くの状況で適切です。 そして、ユーザーにデータの寄付をお願いするケースです。 最も顕著な例は Siri で、iPhone をセットアップするときに、「Siri をより良くするためにご協力いただけませんか」と言うのです。 しかし、ここで話している多くのこと、たとえば手書きなどは、消費者データをまったく使用しなくても、基本的にすべての人の手書きで動作するようにモデルを訓練するのに十分なデータを収集することができます。 昨年の夏、Siri が誤って起動した後にユーザーの発言を録音していたことが報告され、Siri の機能の品質保証を任務とする請負業者がそれらの録音の一部を聞いていました。
Apple は、ユーザーが録音を共有することによって Siri をより良くすることを明示的に選択した後にのみ Siri 関連の音声を保存することを約束し(この行動は iOS 13.2 で展開)、すべての品質保証を社内に導入することによって対応しました。 私は、Appleがこのデータに対して、請負業者が行っていたのとは異なることを行っているのか尋ねました。 Giannandreaは次のように答えました:
私たちは多くの安全策をとっています。 たとえば、音声がアシスタント向けかどうかを識別するプロセスがありますが、これは、実際に音声を確認するプロセスとは完全に別個のものです。
しかし、あなたの指摘するように、機能を実際に QA する気がないなら、偶然の録音をより良くすることはできません。 ご存知のように、機械学習では、継続的に改善することが必要です。 そこで私たちは、機械学習の内製化と同時に、ワークフローとプロセスの多くを見直しました。 プライバシーを保護する方法でアシスタントを改善するための最良のプロセスの1つを持っていると、私は非常に確信しています。 というのも、モバイル空間における Apple の最大の競合は、プライバシーに関してはるかに悪い実績があり、ユーザーが AIのプライバシーへの影響についてますます懸念するようになるにつれ、隙間ができてしまうからです。
私たちの会話を通して、Giannandrea と Borchers は、Apple の戦略の 2 点に戻ってきました:1)機械学習タスクをローカルで行う方がパフォーマンスが高い、2)そうする方が「プライバシー保護」-この特定の語法については、会話の中で何度か Giannandrea が繰り返しました。
Inside the black box
ほとんど闇雲に AI 機能に取り組んできた長い実績の後、Apple の機械学習に対する重点は過去数年間で大幅に拡大されました。 最近、機械学習ブログをリニューアルし、研究の一部を公開しています。 766>
Googleのように研究コミュニティをリードしているわけではありませんが、Appleは少なくとも、機械学習の成果をより多くのユーザーに届けるという点ではリードしていると言えるでしょう。 彼は、それを実現したチームの誕生を見届けに行ったのです。 そして、他のチームと連携して、機械学習による手書きを前進させ、iPadOS 14 の基礎としました。
「Apple には、素晴らしい機械学習の実践者がたくさんいますし、彼らを雇い続けています」と Gianandrea 氏は語ります。 「私たちの製品では、ユーザーのために構築したい体験にとって機械学習が不可欠であることがますます明らかになってきているからです」
少し間をおいて、彼はこう付け加えました。「私が抱える最大の問題は、私たちの最も意欲的な製品の多くは、私たちが話すことができないものであるということだと思います。766>
広告
大手テック企業やベンチャーキャピタルの投資を信じるなら、AIと機械学習は今後数年でますますユビキタスになっていくだろう。 機械学習は現在、Appleがその製品で行うことの多くで、消費者が毎日使用する機能の多くで、その一部を担っているのです。 そして、この秋からMacに搭載されるNeural Engineによって、Appleにおける機械学習の役割はますます大きくなっていくことでしょう。