AIエージェントが人間の代わりにパソコンを操作する――Anthropicの「Computer Use」を支える特許群のうち、本記事で深掘りするのは登録特許US 12,566,913 B2です。前回解説したUS 12,430,150 B1(実行基盤の特許)と対をなし、こちらは「AIエージェントそのもの」を権利化しています。
この特許のクレームには、カスタムDSL(ドメイン固有言語)、依存関係を持つサブタスク分割、スクリーンショットによるフィードバックループといった現代的なエージェント技術が凝縮されています。さらに明細書には「従来59%→本手法88%」という定量的な信頼性向上が記載されており、進歩性立証の好例でもあります。AI知財に精通した弁理士が、原文を引用しながら徹底解説します。
💡 要点:本記事は、AIエージェント特許シリーズの「個別特許 深掘り編(その2)」です。Anthropicの特許戦略全体は戦略分析編、姉妹特許はUS 12,430,150解説をご覧ください。
目次
| 項目 | 内容 |
|---|---|
| 特許番号 | US 12,566,913 B2 |
| 発明の名称 | Artificial intelligence agents to automate multimodal interface task workflows |
| 登録日 | 2026年3月3日 |
| 優先日 | 2024年3月20日 |
| 出願人 | Anthropic PBC |
| クレーム数 | 15(独立クレーム1+従属クレーム群) |
| 関連 | Anthropic「Computer Use」|US 12,430,150 B1の姉妹特許 |
| ステータス | 登録特許(granted) |
クレーム1によれば、エージェントは次の4つの動作を行うよう構成されます。これがこの特許の骨格です。
この特許の最も特徴的な要素が、「モデル呼び出し(model calls)とアクション実行(action executions)の双方をサポートするカスタムDSL」です。
DSL(Domain-Specific Language)とは、特定領域に特化した言語のこと。ここでは、AIエージェントの「考える(モデル呼び出し)」と「動く(アクション実行)」を、ひとつの言語で記述できるようにしています。AIの判断と実際のUI操作を共通言語で橋渡しすることで、知能を実際のアクションへ変換する仕組みです。
💡 要点:「AIにPCを操作させる」という抽象的アイデアではなく、そのための専用言語(DSL)を設計したという点が、この特許を技術的に具体化し、強い権利にしています。クレームに「custom domain-specific language」という具体的構成を盛り込むことで、抽象的アイデアの拒絶を回避しています。
クレーム1は、ワークフローを「各サブタスクが先行サブタスクの完了に依存する(each sub-task depends on the completion of a preceding sub-task)複数のサブタスク」に分割すると規定します。
単にタスクを分けるのではなく、サブタスク間の「依存関係(順序)」を明示している点が重要です。例えば「①ログイン→②検索→③入力」のように、前の完了を前提に次へ進む、現実的なワークフローの構造を捉えています。
エージェントは「反復的なワークフロー実行・改良のため、画面のスクリーンショットと行動履歴を含むフィードバックを提供」します。
これは、AIエージェントが「実行 → 結果を見る → 修正 → 再実行」という反復ループ(iterative refinement)を回す根拠です。一度きりの実行ではなく、画面を見ながら自律的に軌道修正する点が、単なる自動化スクリプトとの決定的な違いです。
明細書によれば、従来手法の課題は「視覚的UI操作の困難さ、APIカバレッジへの過度の依存、ハルシネーション、低い信頼性」でした。そして本発明は、信頼性を従来の約59%から約88%へ向上させたと記載されています。
59%
従来手法の信頼性
88%
本発明の信頼性
💡 要点:この定量的な効果の記載こそ、特許実務上きわめて重要です。「精度が向上する」という抽象的記載より、「59%→88%」という具体的数値の方が、進歩性(とりわけ日本・欧州)の主張を格段に強くします。日本の審査では「当業者が予測できない顕著な効果」が進歩性の決め手になり得ますが、定量データはその最良の裏付けです。
補足|技術的背景:本特許ファミリーの基礎出願は、マルチモーダル・アーキテクチャ「Fuyu-8B」や、ソフトウェア操作の録画動画・Webページ・エージェントの行動軌跡(agentic trajectories)といった学習データに言及しています。エージェントの「知覚と行動」を支えるデータ基盤まで視野に入れた出願であることがうかがえます。
US 12,566,913 B2|Claim 1(原文/英語)
A system for interface automation, comprising: at least one central processing unit; a memory device storing programming and data constructs that when executed by the at least one processing unit, cause the system to configure an agent; the agent configured to: process an input including multimodal data that specifies an interface workflow including contextual metadata and a state of the interface prior to execution of the interface workflow, wherein the multimodal data includes at least a combination of a natural language description and a prescriptive command; and segment the interface workflow into a plurality of sub-tasks wherein each sub-task depends on the completion of a preceding sub-task; generate an output, responsive to the multimodal input data, that specifies a sequence of actuation commands expressed in a custom domain-specific language (DSL) that supports both model calls and action executions, wherein the sequence of actuation commands triggers one or more machine-actuated actions that replicate user-actuated actions on the interface and cause automation of the interface workflow by translating model instructions into real web or application events, including at least localization; actuate the sequence of multimodal actuation commands by an actuator, wherein the actuator is configured to receive the sequence of actuation commands from the agent, and to perform the machine-actuated actions based on the sequence of actuation commands as synthetic actions that automate the interface workflow; and provide feedback including interface screenshots and action histories for iterative workflow execution and refinement.
弁理士による参考訳(日本語)
| 限定 | 技術的意味 | 効いている理由 |
|---|---|---|
| カスタムDSL(model calls+action executions) | 思考と操作を共通言語で記述 | 技術的実装の核心。抽象的アイデアからの脱却 |
| 依存関係を持つサブタスク分割 | 現実的なワークフロー構造の把握 | 制御ロジックの具体性 |
| localization(要素の位置特定) | 画面上のUI要素を特定 | 視覚的UI操作の技術的要点 |
| スクリーンショット等のフィードバック | 反復改良ループ | 自律性の根拠 |
Anthropicは、同じ「Computer Use」を複数の特許で異なるレイヤーから重層的に保護しています。2件の登録特許の役割分担は次のとおりです。
| US 12,430,150 B1 | US 12,566,913 B2(本記事) | |
|---|---|---|
| 保護対象 | ランタイム・アーキテクチャ(実行基盤) | AIエージェント本体(知能と動作) |
| 焦点 | クライアント/サーバ分担・中間表現 | DSL・サブタスク分割・フィードバック |
| 独立クレーム | 3(システム・方法・媒体) | クレーム1(システム)中心 |
| たとえると | 「舞台(実行環境)」 | 「役者(エージェント)」 |
| 登録 | 2025/9/30 | 2026/3/3 |
💡 要点:1つの製品(Computer Use)を、「実行基盤」と「エージェント本体」という異なる切り口で複数特許化するのは、強い特許網を作る定石です。競合が一方を回避しても他方に抵触し得る構造をつくることで、参入障壁を高めています。自社の主力製品でも、レイヤーを分けた複数出願は有効な戦略です。
カスタムDSL、サブタスク分割、localization、アクチュエータによる実行という技術的実装を備えるため、Alice/Mayoテストにおいて「技術的課題への具体的解決」を主張しやすく、現に登録されています。
CPU・メモリ装置を明示し、具体的なデータ処理(DSL生成・コマンド翻訳)を記載しており、ソフトウェア関連発明として特許適格性を満たしやすい構成です。とりわけ「59%→88%」の定量的効果は、進歩性の「顕著な効果」の強力な裏付けになります。
信頼性向上という技術的効果が明確で、UI自動化(localization含む)という技術的課題への技術的解決と位置づけやすいため、COMVIKアプローチ下でも技術的特徴として進歩性に算入されやすい構成です。
① 効果を定量データで示す。「精度が向上」ではなく「59%→88%」。数値は進歩性の最強の裏付けです。明細書段階で実験データ・評価結果を用意しましょう。
② 機能的概念に「専用の仕組み」を与える。「AIが操作する」ではなく「そのためのDSLを設計した」。抽象的機能を具体的な技術手段に落とし込みます。
③ 制御の構造を記載する。サブタスクの依存関係、フィードバックループなど、処理の構造を技術用語で明示します。
④ 主力製品はレイヤーを分けて複数出願する。実行基盤とエージェント本体のように、異なる切り口で重層的に権利化します。
自社のAIエージェント、強い特許にできるか診断します。
IT・ソフトウェア・AI分野に精通した弁理士が、権利化可能性の無料診断、効果データを活かしたクレーム設計、FTO調査、日米欧での出願戦略までトータルでご支援します。
初回無料相談を予約IT・AI知財サービスQ. US 12,566,913 B2はどんな特許ですか?
A. Anthropic(アンソロピック)が保有する米国登録特許で、マルチモーダルなインターフェースを自動化する「AIエージェント」そのものを保護します。エージェントが、自然言語の指示と画面状態を入力として受け取り、タスクをサブタスクに分割し、カスタムDSL(ドメイン固有言語)で作動コマンド列を生成して、UIを操作する構成です。2026年3月3日登録、全15クレーム。
Q. DSL(ドメイン固有言語)とは何ですか?
A. Domain-Specific Languageの略で、特定領域に特化したプログラミング言語です。本特許では、AIエージェントの「モデル呼び出し(model calls)」と「アクション実行(action executions)」の両方を表現できるカスタムDSLが核心技術です。AIの判断と実際のUI操作を、共通の言語で記述・橋渡しする点に技術的工夫があります。
Q. US 12,430,150 B1とUS 12,566,913 B2は何が違うのですか?
A. 両者はAnthropicの「Computer Use」を支える姉妹特許です。US 12,430,150 B1は実行基盤(ランタイム・アーキテクチャ=クライアント/サーバ分担)を、US 12,566,913 B2はエージェント本体(DSL・サブタスク分割・フィードバック)を保護します。同じ製品を異なるレイヤーで重層的に守る、巧みなポートフォリオ設計です。
Q. 明細書に書かれた「88%」とは何ですか?
A. 本特許の明細書では、従来手法の信頼性が約59%であったのに対し、本発明の手法では約88%に向上したと記載されています。このような定量的な効果は、進歩性(とりわけ日本・欧州)を主張するうえで強力な裏付けになります。
Q. 自社のAIエージェントを特許化するヒントはありますか?
A. 本特許から学べる最大の教訓は「効果を数字で示す」ことです。「精度が向上する」と書くより、「従来59%→本手法88%」のように定量データで示す方が、進歩性の主張が格段に強くなります。あわせて、DSLやサブタスク分割など、技術的な仕組みを具体的に記載することが重要です。
本記事の注意事項:本記事は、公開された特許公報に基づく一般的な技術・制度解説です。US 12,566,913 B2は登録特許ですが、実際の権利範囲は各クレームの文言・均等論・経過情報により定まります。引用したクレーム・要約・明細書記載(信頼性の数値等を含む)は公開公報データ(FreePatentsOnline等)に基づきますが、法的に重要な用途(FTO・侵害分析・無効・出願等)では、必ずUSPTO正本と最新の経過情報をご確認のうえ、専門家の個別検討をご利用ください。日本語訳は理解のための参考訳であり、正文は英語原文です。