コンテンツまでスキップ

【弁理士徹底解説】Anthropicの「AIエージェント」特許 US 12,566,913 B2 を読み解く|DSL・サブタスク分割・88%の信頼性

AnthropicのAIエージェント特許US12566913を弁理士が解説 EVORIX

AIエージェントが人間の代わりにパソコンを操作する――Anthropicの「Computer Use」を支える特許群のうち、本記事で深掘りするのは登録特許US 12,566,913 B2です。前回解説したUS 12,430,150 B1(実行基盤の特許)と対をなし、こちらは「AIエージェントそのもの」を権利化しています。

この特許のクレームには、カスタムDSL(ドメイン固有言語)、依存関係を持つサブタスク分割、スクリーンショットによるフィードバックループといった現代的なエージェント技術が凝縮されています。さらに明細書には「従来59%→本手法88%」という定量的な信頼性向上が記載されており、進歩性立証の好例でもあります。AI知財に精通した弁理士が、原文を引用しながら徹底解説します。

💡 要点:本記事は、AIエージェント特許シリーズの「個別特許 深掘り編(その2)」です。Anthropicの特許戦略全体は戦略分析編、姉妹特許はUS 12,430,150解説をご覧ください。

30秒サマリー|「ランタイム」特許との違い

● 何の特許か:マルチモーダル・インターフェースを自動化する「AIエージェント」そのもの
● 前回特許との違い:US 12,430,150は実行基盤(ランタイム)、本件はその上で動くエージェントの知能と動作を保護。
● 核心技術:①マルチモーダル入力の処理+サブタスク分割、②カスタムDSLによる作動コマンド生成、③アクチュエータによる実行、④スクリーンショット等のフィードバック。
● ステータス:米国登録特許(2026年3月3日登録、全15クレーム)。

特許の基本情報

項目内容
特許番号US 12,566,913 B2
発明の名称Artificial intelligence agents to automate multimodal interface task workflows
登録日2026年3月3日
優先日2024年3月20日
出願人Anthropic PBC
クレーム数15(独立クレーム1+従属クレーム群)
関連Anthropic「Computer Use」|US 12,430,150 B1の姉妹特許
ステータス登録特許(granted)

この特許の核心|4つのエージェント動作

クレーム1によれば、エージェントは次の4つの動作を行うよう構成されます。これがこの特許の骨格です。

【AIエージェントの4動作】 ① 入力処理 + サブタスク分割 ・マルチモーダルデータ(自然言語の記述+規範的コマンド)を処理 ・実行前のインターフェース状態・文脈メタデータを把握 ・ワークフローを「依存関係を持つ複数サブタスク」に分割 ▼ ② 出力生成(カスタムDSL) ・モデル呼び出しとアクション実行の双方をサポートするDSLで 作動コマンド列を生成 ・モデルの指示を実際のWeb/アプリのイベントへ翻訳(要素の位置特定を含む) ▼ ③ アクチュエータによる作動 ・コマンド列を受信し、機械作動アクション(合成アクション)として実行 ▼ ④ フィードバック ・スクリーンショットと行動履歴を提供 ・反復的なワークフロー実行・改良に活用

技術的ハイライト①|カスタムDSL(ドメイン固有言語)

この特許の最も特徴的な要素が、「モデル呼び出し(model calls)とアクション実行(action executions)の双方をサポートするカスタムDSL」です。

DSL(Domain-Specific Language)とは、特定領域に特化した言語のこと。ここでは、AIエージェントの「考える(モデル呼び出し)」と「動く(アクション実行)」を、ひとつの言語で記述できるようにしています。AIの判断と実際のUI操作を共通言語で橋渡しすることで、知能を実際のアクションへ変換する仕組みです。

💡 要点:「AIにPCを操作させる」という抽象的アイデアではなく、そのための専用言語(DSL)を設計したという点が、この特許を技術的に具体化し、強い権利にしています。クレームに「custom domain-specific language」という具体的構成を盛り込むことで、抽象的アイデアの拒絶を回避しています。

技術的ハイライト②|依存関係を持つサブタスク分割

クレーム1は、ワークフローを「各サブタスクが先行サブタスクの完了に依存する(each sub-task depends on the completion of a preceding sub-task)複数のサブタスク」に分割すると規定します。

単にタスクを分けるのではなく、サブタスク間の「依存関係(順序)」を明示している点が重要です。例えば「①ログイン→②検索→③入力」のように、前の完了を前提に次へ進む、現実的なワークフローの構造を捉えています。

技術的ハイライト③|スクリーンショットによるフィードバックループ

エージェントは「反復的なワークフロー実行・改良のため、画面のスクリーンショットと行動履歴を含むフィードバックを提供」します。

これは、AIエージェントが「実行 → 結果を見る → 修正 → 再実行」という反復ループ(iterative refinement)を回す根拠です。一度きりの実行ではなく、画面を見ながら自律的に軌道修正する点が、単なる自動化スクリプトとの決定的な違いです。

技術的ハイライト④|「59%→88%」という定量的効果

明細書によれば、従来手法の課題は「視覚的UI操作の困難さ、APIカバレッジへの過度の依存、ハルシネーション、低い信頼性」でした。そして本発明は、信頼性を従来の約59%から約88%へ向上させたと記載されています。

59%

従来手法の信頼性

88%

本発明の信頼性

💡 要点:この定量的な効果の記載こそ、特許実務上きわめて重要です。「精度が向上する」という抽象的記載より、「59%→88%」という具体的数値の方が、進歩性(とりわけ日本・欧州)の主張を格段に強くします。日本の審査では「当業者が予測できない顕著な効果」が進歩性の決め手になり得ますが、定量データはその最良の裏付けです。

補足|技術的背景:本特許ファミリーの基礎出願は、マルチモーダル・アーキテクチャ「Fuyu-8B」や、ソフトウェア操作の録画動画・Webページ・エージェントの行動軌跡(agentic trajectories)といった学習データに言及しています。エージェントの「知覚と行動」を支えるデータ基盤まで視野に入れた出願であることがうかがえます。

独立クレーム1を逐条で読む

US 12,566,913 B2|Claim 1(原文/英語)

A system for interface automation, comprising: at least one central processing unit; a memory device storing programming and data constructs that when executed by the at least one processing unit, cause the system to configure an agent; the agent configured to: process an input including multimodal data that specifies an interface workflow including contextual metadata and a state of the interface prior to execution of the interface workflow, wherein the multimodal data includes at least a combination of a natural language description and a prescriptive command; and segment the interface workflow into a plurality of sub-tasks wherein each sub-task depends on the completion of a preceding sub-task; generate an output, responsive to the multimodal input data, that specifies a sequence of actuation commands expressed in a custom domain-specific language (DSL) that supports both model calls and action executions, wherein the sequence of actuation commands triggers one or more machine-actuated actions that replicate user-actuated actions on the interface and cause automation of the interface workflow by translating model instructions into real web or application events, including at least localization; actuate the sequence of multimodal actuation commands by an actuator, wherein the actuator is configured to receive the sequence of actuation commands from the agent, and to perform the machine-actuated actions based on the sequence of actuation commands as synthetic actions that automate the interface workflow; and provide feedback including interface screenshots and action histories for iterative workflow execution and refinement.

弁理士による参考訳(日本語)

インターフェース自動化のためのシステムであって、少なくとも1つのCPUと、実行されるとシステムにエージェントを構成させるプログラミング及びデータ構造を記憶するメモリ装置と、を備え、
前記エージェントは以下のように構成される:
① 入力処理+分割:インターフェース・ワークフローを規定するマルチモーダルデータ(実行前のインターフェース状態と文脈メタデータを含み、少なくとも自然言語記述と規範的コマンドの組み合わせを含む)を処理し、ワークフローを、各サブタスクが先行サブタスクの完了に依存する複数のサブタスクに分割する。
② 出力生成:入力に応答し、モデル呼び出しとアクション実行の双方をサポートするカスタムDSLで表現された作動コマンド列を規定する出力を生成する。当該コマンド列は、モデルの指示を(少なくとも要素の位置特定=localizationを含めて)実際のWeb/アプリのイベントに翻訳し、ユーザー操作を再現する機械作動アクションをトリガーする。
③ 作動:アクチュエータがコマンド列を受信し、機械作動アクションを合成アクションとして実行する。
④ フィードバック:反復的な実行・改良のため、画面のスクリーンショットと行動履歴を含むフィードバックを提供する。

権利化を支える限定の整理

限定技術的意味効いている理由
カスタムDSL(model calls+action executions)思考と操作を共通言語で記述技術的実装の核心。抽象的アイデアからの脱却
依存関係を持つサブタスク分割現実的なワークフロー構造の把握制御ロジックの具体性
localization(要素の位置特定)画面上のUI要素を特定視覚的UI操作の技術的要点
スクリーンショット等のフィードバック反復改良ループ自律性の根拠

姉妹特許との関係|US 12,430,150との役割分担

Anthropicは、同じ「Computer Use」を複数の特許で異なるレイヤーから重層的に保護しています。2件の登録特許の役割分担は次のとおりです。

US 12,430,150 B1US 12,566,913 B2(本記事)
保護対象ランタイム・アーキテクチャ(実行基盤)AIエージェント本体(知能と動作)
焦点クライアント/サーバ分担・中間表現DSL・サブタスク分割・フィードバック
独立クレーム3(システム・方法・媒体)クレーム1(システム)中心
たとえると「舞台(実行環境)」「役者(エージェント)」
登録2025/9/302026/3/3

💡 要点:1つの製品(Computer Use)を、「実行基盤」と「エージェント本体」という異なる切り口で複数特許化するのは、強い特許網を作る定石です。競合が一方を回避しても他方に抵触し得る構造をつくることで、参入障壁を高めています。自社の主力製品でも、レイヤーを分けた複数出願は有効な戦略です。

日米欧の審査でどう評価されるか

米国(USPTO)

カスタムDSL、サブタスク分割、localization、アクチュエータによる実行という技術的実装を備えるため、Alice/Mayoテストにおいて「技術的課題への具体的解決」を主張しやすく、現に登録されています。

日本(JPO)

CPU・メモリ装置を明示し、具体的なデータ処理(DSL生成・コマンド翻訳)を記載しており、ソフトウェア関連発明として特許適格性を満たしやすい構成です。とりわけ「59%→88%」の定量的効果は、進歩性の「顕著な効果」の強力な裏付けになります。

欧州(EPO)

信頼性向上という技術的効果が明確で、UI自動化(localization含む)という技術的課題への技術的解決と位置づけやすいため、COMVIKアプローチ下でも技術的特徴として進歩性に算入されやすい構成です。

AIエージェント特許の日米欧の審査実務の比較は、「日本・米国・欧州の特許事例と審査実務」で詳しく解説しています。

自社出願への教訓|「効果を数字で示す」

① 効果を定量データで示す。「精度が向上」ではなく「59%→88%」。数値は進歩性の最強の裏付けです。明細書段階で実験データ・評価結果を用意しましょう。

② 機能的概念に「専用の仕組み」を与える。「AIが操作する」ではなく「そのためのDSLを設計した」。抽象的機能を具体的な技術手段に落とし込みます。

③ 制御の構造を記載する。サブタスクの依存関係、フィードバックループなど、処理の構造を技術用語で明示します。

④ 主力製品はレイヤーを分けて複数出願する。実行基盤とエージェント本体のように、異なる切り口で重層的に権利化します。

自社のAIエージェント、強い特許にできるか診断します。

IT・ソフトウェア・AI分野に精通した弁理士が、権利化可能性の無料診断、効果データを活かしたクレーム設計、FTO調査、日米欧での出願戦略までトータルでご支援します。

初回無料相談を予約IT・AI知財サービス

よくある質問(FAQ)

Q. US 12,566,913 B2はどんな特許ですか?

A. Anthropic(アンソロピック)が保有する米国登録特許で、マルチモーダルなインターフェースを自動化する「AIエージェント」そのものを保護します。エージェントが、自然言語の指示と画面状態を入力として受け取り、タスクをサブタスクに分割し、カスタムDSL(ドメイン固有言語)で作動コマンド列を生成して、UIを操作する構成です。2026年3月3日登録、全15クレーム。

Q. DSL(ドメイン固有言語)とは何ですか?

A. Domain-Specific Languageの略で、特定領域に特化したプログラミング言語です。本特許では、AIエージェントの「モデル呼び出し(model calls)」と「アクション実行(action executions)」の両方を表現できるカスタムDSLが核心技術です。AIの判断と実際のUI操作を、共通の言語で記述・橋渡しする点に技術的工夫があります。

Q. US 12,430,150 B1とUS 12,566,913 B2は何が違うのですか?

A. 両者はAnthropicの「Computer Use」を支える姉妹特許です。US 12,430,150 B1は実行基盤(ランタイム・アーキテクチャ=クライアント/サーバ分担)を、US 12,566,913 B2はエージェント本体(DSL・サブタスク分割・フィードバック)を保護します。同じ製品を異なるレイヤーで重層的に守る、巧みなポートフォリオ設計です。

Q. 明細書に書かれた「88%」とは何ですか?

A. 本特許の明細書では、従来手法の信頼性が約59%であったのに対し、本発明の手法では約88%に向上したと記載されています。このような定量的な効果は、進歩性(とりわけ日本・欧州)を主張するうえで強力な裏付けになります。

Q. 自社のAIエージェントを特許化するヒントはありますか?

A. 本特許から学べる最大の教訓は「効果を数字で示す」ことです。「精度が向上する」と書くより、「従来59%→本手法88%」のように定量データで示す方が、進歩性の主張が格段に強くなります。あわせて、DSLやサブタスク分割など、技術的な仕組みを具体的に記載することが重要です。

本記事の注意事項:本記事は、公開された特許公報に基づく一般的な技術・制度解説です。US 12,566,913 B2は登録特許ですが、実際の権利範囲は各クレームの文言・均等論・経過情報により定まります。引用したクレーム・要約・明細書記載(信頼性の数値等を含む)は公開公報データ(FreePatentsOnline等)に基づきますが、法的に重要な用途(FTO・侵害分析・無効・出願等)では、必ずUSPTO正本と最新の経過情報をご確認のうえ、専門家の個別検討をご利用ください。日本語訳は理解のための参考訳であり、正文は英語原文です。

出典