2026/06/06

【弁理士徹底解説】OpenAIの「動画から学ぶAIエージェント」特許 US 11,887,367 B1（VPT）を読み解く｜Computer Useの作り方

Gemini_Generated_Image_862ths862ths862t 「AIにパソコンを操作させる」には、まず"操作の仕方"を学習させる必要があります。Anthropicの「Computer Use」を支える特許群はこれまで本シリーズで解説してきましたが、ではOpenAIはどうやってAIに画面操作を教えているのか――その答えが、本記事で深掘りする登録特許 US 11,887,367 B1です。

この特許が示すOpenAIのアプローチは、ひと言でいえば「人が操作する動画を大量に見せて覚えさせる」。しかも、操作ラベルのない動画に、独自の手法で自動的にラベルを付ける巧妙な仕組みを使います。AnthropicのComputer Use特許とはまったく異なる道で同じゴールを目指す、対照的な事例です。AI知財に精通した弁理士が、実際のクレームを引用しながら解説します。

💡 要点：本記事は、AIエージェント特許シリーズの一編です。Anthropicの対照的なアプローチはデータフロー特許やComputer Use中核特許で解説しています。

30秒サマリー｜「動画を見て操作を覚える」AI
特許の基本情報
背景｜「画面操作の正解ラベル」を作るのは高くつく
核心技術｜逆動力学モデル（IDM）と疑似ラベリング
最大の工夫｜「非因果的（未来も見る）」予測
どんな操作を出力するのか
独立クレーム1を逐条で読む
クレーム構成｜方法・システム・媒体の3点セット
OpenAI vs Anthropic｜「computer use」への2つの道
学習方法は特許になる？日米欧の審査
自社出願への教訓
よくある質問（FAQ）

30秒サマリー｜「動画を見て操作を覚える」AI

● 何の特許か：AIに「画面の自動操作」を学習させる訓練方法。
● 核心：少量のラベル付き動画で「逆動力学モデル（IDM）」を訓練 → 膨大なラベルなし動画に自動でラベル付け（疑似ラベリング）→ その大量データで操作モデルを訓練。
● 最大の工夫：IDMは未来のフレームも参照できる「非因果的」予測で、操作推定の精度が高い。
● 誰の特許か：OpenAI OpCo, LLC（ChatGPTの開発元）。
● ステータス：米国登録特許（2024年1月30日登録、全20クレーム）。OpenAIが「VPT」と呼ぶ手法。

特許の基本情報

項目	内容
特許番号	US 11,887,367 B1
発明の名称	Using machine learning to train and use a model to perform automatic interface actions based on video and input datasets
登録日	2024年1月30日
出願日／優先日	2023年4月19日
出願人	OpenAI OpCo, LLC
発明者	Bowen Baker、Jeffrey Clune ほか（計9名）
クレーム数	20（独立3：クレーム1・13・20）
通称	VPT（Video PreTraining）
ステータス	登録特許（granted）

背景｜「画面操作の正解ラベル」を作るのは高くつく

AIに画面操作を教える最も素直な方法は、「この画面のときは、このキーを押す」という正解データ（ラベル付きデータ）を大量に用意して学習させることです。しかし、人手で「いつ・どのキー・どのクリックをしたか」を動画に注釈付けする作業は、膨大なコストがかかります。

一方、インターネット上には、人がソフトやゲームを操作する動画が無数に存在します。問題は、それらに操作ラベルが付いていないこと。この「大量にあるが、ラベルがない動画」をどう活用するかが、本特許が解く技術的課題です。

核心技術｜逆動力学モデル（IDM）と疑似ラベリング

本特許の解決策の中核が、逆動力学モデル（Inverse Dynamics Model, IDM）です。

IDMとは：ある時点の前後の画面（観測）を見て、その間に「どんな操作が行われたか」を推定するモデル。通常のAI（方策モデル）が「次に何をすべきか」を予測するのに対し、IDMは「何が行われたかを後から当てる」という、いわば逆方向の推定を行います。

処理の流れは次のとおりです。

【VPT：動画から操作を学ぶ流れ】 ① 少量のラベル付き動画（人が注釈） │ 訓練 ▼ ② 逆動力学モデル（IDM）を訓練 ・前後の画面から「行われた操作」を推定できるようになる │ 適用 ▼ ③ 膨大なラベルなし動画にIDMを適用 ・各時刻の操作を自動推定 ＝「疑似ラベル」を生成 │ ▼ ④ 疑似ラベル付き動画データが大量に完成 │ 訓練 ▼ ⑤ 操作モデル（エージェント）を大規模に訓練

💡 要点：ポイントは、「少量の正解データ」で作ったIDMを"ラベル付けマシン"として使い、膨大なラベルなし動画を一気に教師データ化すること。人手注釈のコストを劇的に下げ、computer useエージェントを大規模に学習させる道を開きました。

最大の工夫｜「非因果的（未来も見る）」予測

クレーム1には、IDMの予測が「過去情報と未来情報の非因果的（non-causal）な組み合わせに基づく」と明記されています。これが技術的なハイライトです。

実際にAIがリアルタイムで操作する「方策モデル」は、過去しか見られません（未来はまだ起きていない＝因果的）。しかしIDMは、ラベル付けのための後処理なので、ある時点の前後＝未来のフレームも参照できます。

💡 要点：「未来も見てよい」という条件のおかげで、IDMは"その瞬間にどの操作が行われたか"を遥かに正確に当てられます。たとえば「カーソルが次のフレームで右に動いた」という未来情報から、「今マウスを右に動かした」と高精度で推定できる。この「非因果性」をラベリングに活用するのが、本発明の知的な核心です。

どんな操作を出力するのか

明細書によれば、モデルが生成する操作（automatic interface actions）には、キー押下、ボタン押下、タッチスクリーン入力、ジョイスティック操作、マウスクリック、スクロール、マウス移動などが含まれます。適用領域として、ビデオゲーム、各種処理アプリ、Webブラウザ、表計算、ファイルエクスプローラ等が挙げられています。

つまり、人間がGUIで行うあらゆる操作を、AIが人間の介入なしに（without human intervention）実行できるようにするのが狙いです。これはまさに「computer use」エージェントの基礎技術です。

独立クレーム1を逐条で読む

US 11,887,367 B1｜Claim 1（原文／英語）

A method for training a machine learning model to perform automated actions, comprising: receiving unlabeled digital video data; generating pseudo-labels for the unlabeled digital video data, the generating comprising: receiving labeled digital video data; training a first machine learning model including an inverse dynamics model (IDM) using the labeled digital video data; and generating at least one pseudo-label for the unlabeled digital video data, wherein: the at least one pseudo-label is based on a prediction, generated by the IDM, of one or more actions that mimic at least one timestep of the unlabeled digital video data, and the prediction of the one or more actions is generated based on a non-causal combination of past information and future information within the unlabeled digital video data, the past and future information being relative to one or more reference frames within the unlabeled digital video data; adding the at least one pseudo-label to the unlabeled digital video data to form pseudo-labeled digital video data; and further training the first machine learning model or a second machine learning model using the pseudo-labeled digital video data to generate at least one additional pseudo-label for the unlabeled digital video.

弁理士による参考訳（日本語）

自動化されたアクションを実行する機械学習モデルを訓練する方法であって、
・ラベルなしのデジタル動画データを受信するステップと、
・前記ラベルなし動画データのための疑似ラベル（pseudo-labels）を生成するステップ（以下を含む）：
　- ラベル付きのデジタル動画データを受信し、
　- 前記ラベル付きデータを用いて、逆動力学モデル（IDM）を含む第1の機械学習モデルを訓練し、
　- ラベルなし動画のための少なくとも1つの疑似ラベルを生成する。当該疑似ラベルは、ラベルなし動画の少なくとも1つの時刻を模倣する1以上のアクションの、IDMによる予測に基づき、当該予測は、基準フレームに対する過去情報と未来情報の「非因果的（non-causal）」な組み合わせに基づいて生成される；
・前記疑似ラベルを付加して疑似ラベル付き動画データを形成するステップと、
・前記疑似ラベル付きデータで第1または第2のモデルをさらに訓練し、追加の疑似ラベルを生成するステップと、を含む方法。

権利化を支える限定の整理

限定	技術的意味	効いている理由
IDM（逆動力学モデル）	前後の画面から操作を推定	具体的なアルゴリズム＝抽象的アイデアからの脱却
非因果的（過去＋未来）な予測	未来フレームも参照して高精度化	本発明の独自性・進歩性の核心
疑似ラベリング	ラベルなし動画を教師データ化	技術的課題（注釈コスト）への解決
さらなる訓練	疑似データで操作モデルを学習	学習方法としての完結した処理フロー

クレーム構成｜方法・システム・媒体の3点セット

本特許は全20クレームで、独立クレームを方法（クレーム1）・システム（クレーム13）・非一時的コンピュータ可読媒体（クレーム20）の3カテゴリで立てる、ソフトウェア特許の王道構成です。これにより、その方法を実施する者、装置を製造・使用する者、プログラムを配布する者という、異なる侵害主体を網羅します。

OpenAI vs Anthropic｜「computer use」への2つの道

同じ「AIにPCを操作させる」というゴールに対し、OpenAIとAnthropicは異なる技術的アプローチで特許を取得しています。本シリーズで見てきた両社の特許を対比すると、戦略の違いが鮮明になります。

	OpenAI（本記事）	Anthropic（既解説）
代表特許	US 11,887,367 B1（VPT）	US 12,430,150 B1 ほか
守る対象	動画から操作を学ぶ訓練方法	エージェントの実行基盤・DSL・データフロー
アプローチ	大量のラベルなし動画＋IDMで自動ラベリング	ランタイム・アーキテクチャと専用言語
技術の出自	自社研究（VPT）	Adept社の買収
たとえ	「教え方（学習法）」を押さえる	「動かし方（実行系）」を押さえる

💡 要点：OpenAIは「どう学習させるか（訓練方法・データ）」を、Anthropicは「どう動かすか（実行アーキテクチャ）」を中心に権利化しています。同じ製品分野でも、各社が自社の強みのレイヤーで特許を取る好例です。自社出願でも「どのレイヤーで戦うか」の見極めが重要です。

学習方法は特許になる？日米欧の審査

米国（USPTO）

機械学習の訓練方法は、抽象的な数学的手法と見なされ得るため、Alice/Mayoテストが論点になります。本件は、IDM・非因果的予測・疑似ラベリングという具体的なアルゴリズムと、キー押下・マウス操作という具体的なアクションを伴うため、「技術的課題への具体的解決」を主張しやすく、現に登録されています。

日本（JPO）

日本でも学習方法・学習済みモデルは特許対象です。ただし特許庁のAI事例では「単に人間の作業をAIに置き換えただけ」は進歩性が否定されます。本件は「非因果性をラベリングに活用する」という技術的工夫と「注釈コストの劇的削減」という効果が明確で、進歩性を主張しやすい構成です。

欧州（EPO）

数学的手法そのものは除外されますが、本件は「ラベルなし動画の効率的な教師データ化」という技術的課題への技術的貢献が明確で、COMVIKアプローチ下でも技術的特徴として評価されやすい構成です。

AIエージェント特許の日米欧の審査実務の比較は、「日本・米国・欧州の特許事例と審査実務」で詳しく解説しています。

自社出願への教訓

① 学習方法・データの作り方を権利化する。モデルそのものだけでなく、「どう訓練するか」「どう教師データを作るか」も強力な特許になります。

② 独自の技術的工夫を前面に出す。「非因果的予測の活用」のような、課題解決に効く具体的アイデアをクレームの中心に据えましょう。

③ 抽象的な数学から脱却する。具体的なアルゴリズムと、具体的な出力（マウス・キー操作など）を記載し、特許適格性を確保します。

④ 自社の強みのレイヤーで戦う。競合と同じゴールでも、自社が得意なレイヤー（学習法・実行系・データ等）で権利を取る戦略が有効です。

自社のAI、学習方法やデータまで含めて権利化しませんか？

IT・ソフトウェア・AI分野に精通した弁理士が、学習方法・データ・モデルを含むクレーム設計、権利化可能性の無料診断、日米欧での出願戦略までトータルでご支援します。

初回無料相談を予約 IT・AI知財サービス

よくある質問（FAQ）

Q. US 11,887,367 B1はどんな特許ですか？

A. OpenAIの米国登録特許で、AIに「画面の自動操作」を学習させる方法を保護します。膨大なラベルなし動画（人がソフトを操作する様子など）を、少量のラベル付きデータで訓練した「逆動力学モデル（IDM）」で自動的にラベル付け（疑似ラベリング）し、その大量データで操作モデルを訓練する技術です。OpenAIが「VPT（Video PreTraining）」と呼ぶ手法に対応し、2024年1月30日に登録されました。

Q. 「逆動力学モデル（IDM）」とは何ですか？

A. ある時点の前後の画面（観測）から、その間に「どんな操作（アクション）が行われたか」を推定するモデルです。通常のAI（方策モデル）が「次に何をすべきか」を予測するのに対し、IDMは「何が行われたか」を後から推定します。過去だけでなく未来のフレームも参照できるため、操作の推定精度が高く、安価に大量のラベルを生成できます。

Q. なぜ「動画から学ぶ」ことが重要なのですか？

A. インターネット上には、人がソフトやゲームを操作する動画が無数に存在します。しかし、それらには「いつ・どのキーを押したか」という操作ラベルが付いていません。本発明は、少量のラベル付きデータからIDMを訓練し、膨大なラベルなし動画に自動でラベルを付けることで、computer use（コンピュータ操作）エージェントを安価かつ大規模に学習させる道を開きました。

Q. Anthropicのcomputer use特許とは何が違いますか？

A. アプローチが根本的に異なります。Anthropic（Adept由来）は「エージェントの実行基盤・DSL・データフロー」を保護します。一方、OpenAIの本特許は「動画から操作を学習させる訓練方法」を保護します。同じ"AIにPCを操作させる"課題に対し、両社が異なる技術的アプローチで特許を取得している点が興味深いところです。

Q. 学習方法（トレーニング方法）も特許になりますか？

A. なります。本特許のように、具体的なアルゴリズム（IDM、非因果的予測、疑似ラベリング）と、それが生む技術的効果（安価な大規模ラベリング）を明確に記載すれば、日本・米国・欧州いずれでも権利化が可能です。データの作り方・学習方法は、AIの競争力の源泉であり、重要な権利化対象です。

本記事の注意事項：本記事は、公開された特許公報に基づく一般的な技術・制度解説です。US 11,887,367 B1は登録特許ですが、実際の権利範囲は各クレームの文言・均等論・経過情報により定まります。引用したクレーム・要約・明細書記載は公開公報データ（FreePatentsOnline等）に基づきますが、法的に重要な用途（FTO・侵害分析・無効・出願等）では、必ずUSPTO正本と最新の経過情報をご確認のうえ、専門家の個別検討をご利用ください。日本語訳は理解のための参考訳であり、正文は英語原文です。

出典

US 11,887,367 B1（Google Patents）：https://patents.google.com/patent/US11887367B1/en
クレーム・明細書（FreePatentsOnline）：https://www.freepatentsonline.com/11887367.html

特許, 外国特許, 知財戦略, AI, ソフトウェア特許, 弁理士, AI特許, 知的財産権, AIエージェント, 特許事務所, OpenAI