PR

画像からプロンプト(呪文)を解析する方法を解説

画像からプロンプトを解析する
この記事は約13分で読めます。
らん
らん

前に作った画像のプロンプトがわからなくなっちゃった…😭

るん
るん

Stable Diffusion WebUIで画像を解析してプロンプトを推定することができますよ

Stable DiffusionやNovelAIで生成した画像ファイルには、プロンプト情報が自動で付与されています。このように画像データそのものとは別に、画像を説明するデータのことを「メタデータ」といいます。

画像ファイルにはメタデータが付与できる
画像ファイルは、画像そのものである「画像データ」と、画像を説明する「メタデータ」から構成される

Stable Diffusion WebUIであれば、「PNG Info」でプロンプト情報を見ることができます。
NovelAIであれば、NovelAIに画像をドラッグ&ドロップして読み込めば確認できます。

ただし、画像ファイルをたとえばjpgに変更して保存したりすると、付与されていたプロンプト情報は消えてしまいます

なので、画像はあるけど、元々のプロンプトがわからなくなってしまったということがあります。

画像ファイルからメタデータが失われる

それとは別として、他の人の描いた絵を見たときに「この絵はどういうプロンプトから生成したんだろう?」と知りたいこともありますよね。

そんなときに役立つのがStable Diffusion WebUIに搭載されている「Interrogate CLIP」と「Interrogate DeepBooru」です。
これは、画像から適切なプロンプトを推定することができる機能です。

本記事では、「Interrogate CLIP」と「Interrogate DeepBooru」で画像からプロンプト抽出する方法や、どこまで適切にプロンプトを推定できるのかについて解説します。

この記事はこんな人にオススメ
  • 過去に生成した画像のプロンプトがわからなくなってしまった
  • 参考にするために、他の絵のプロンプトを知りたい

Interrogate CLIP/DeepBooruとは

通常であれば、プロンプトから画像を生成します。
「Interrogate CLIP」や「Interrogate DeepBooru」は逆方向、つまり画像からプロンプトを推定する機能です。

通常の画像生成は「プロンプト→画像」
画像からプロンプトを抽出(推定)

このとき解析対象とする画像は、Stable Diffusionで生成した絵である必要はありません。どのような絵・写真であってもOKです。

Interrogate CLIP/DeepBooruの使い方

Stable Diffusion WebUI(AUTOMATIC1111)での「Interrogate CLIP」「Interrogate DeepBooru」の使い方はとても簡単です✨

Interrogate CLIPとInterrogate DeepBooru

まず、「Interrogate CLIP」と「Interrogate DeepBooru」の違いについて説明します。

どちらも画像からプロンプトを推定するという意味ではほぼ同じ機能です。
「Interrogate DeepBooru」では特にアニメ系の画像生成に役立つ「Danbooruタグ」でプロンプトを抽出してくれるという特徴があります。

らん
らん

「Danbooruタグ」??

るん
るん

具体例で見てみましょう♪

たとえば、下の画像は「girl, long hair,kimono, from side,wind, autumn,temple」というプロンプトを元に、NovelAIで生成した画像です。

この画像を「Interrogate CLIP」と「Interrogate DeepBooru」のそれぞれで解析した結果を比べてみましょう。

プロンプトを解析する画像
プロンプトを解析する画像
元のプロンプト

girl, long hair, kimono, from side, wind, autumn, temple

まずは、「Interrogate CLIP」で解析してみます。

「Interrogate CLIP」で解析した結果

a woman in a red dress standing in front of a pagoda with long hair in the wind and a tree in the background, Ayako Rokkaku, flowing hair, a manga drawing, romanticism

「Interrogate CLIP」の解析結果は、基本的に「」になります。
「風になびくロングヘアの女性が赤い服を着て仏塔の前に立っている。背景には木がある。」ということなので、確かに絵のプロンプトとしてはいい感じですね。

では、「Interrogate DeepBooru」で解析するとどうなるでしょうか?

「Interrogate DeepBooru」で解析した結果

1girl, autumn leaves, bangs, bare tree, black hair, bow, branch, brown eyes, building, floating hair, from side, japanese clothes, kimono, long hair, long sleeves, obi, orange sky, outdoors, profile, red bow, red kimono, sash, sky, solo, sunset, tree, very long hair, wide sleeves, wind

「Interrogate DeepBooru」で解析すると、プロンプトはカンマ区切りの「タグ」になります。
アニメ系の絵を生成している人にとっては、こちらの方が見慣れた形式かもしれません。

この「タグ」は「Danbooruタグ」と言われるもので、Danbooruという海外の画像投稿サイトで使われているタグです。

画像生成AIのモデルを作るときには、大量の学習データが必要となります。そのときには、「画像」と「それを説明するテキスト」が組みになっていなければなりません。
Danbooruというサイトでは、ユーザーが画像を投稿するときに、「画像」とその画像にふさわしい「タグ」をつける仕組みになっているため、学習データとして好都合でした。

らん
らん

それが「Danbooruタグ」ってわけね💡

そうした背景から、NovelAIやStable Diffusionのアニメ系モデルなどでは、プロンプトは「Danbooruタグ」で指定した方が精度がよくなると言われています。

なので、アニメ系の画像に対して解析するときには「Interrogate DeepBooru」を使う方がベターです。

Interrogate CLIPの使い方

img2imgタブを開き、画像をアップロードします。
そして、プロンプト入力欄の右にある「Interrogate CLIP」ボタンをクリックします。

Interrogate CLIP/DeepBooruの手順

少し待つと解析が終わり、プロンプト入力欄に推測したプロンプトが表示されています。

Interrogate CLIPの手順

Interrogate DeepBooru

Interrogate CLIPと使い方はほぼ同じです。
img2imgタブを開き、画像をアップロードします。
そして、プロンプト入力欄の右にある「Interrogate DeepBooru」ボタンをクリックします。

Interrogate CLIP/DeepBooruの手順

少し待つと解析が終わり、プロンプト入力欄に推測したプロンプトが「Danbooruタグ」形式で表示されています。

Interrogate DeepBooruの手順

イラストと実写からのプロンプト抽出

プロンプトの解析は「アニメ系イラスト」からでも「実写(写真)」からでも可能です。

アニメ系イラスト

このようなアニメ系イラストからプロンプトを抽出してみましょう。
ここでは「Interrogate DeepBooru」を使ってみます。

アニメ系の画像(Stable Diffusionで生成)
抽出されたプロンプト

1girl, bangs, beach, bird, blonde hair, blue bow, blue eyes, blue neckwear, blue ribbon, blue skirt, blue sky, blush, breasts, cloud, cloudy sky, day, floating hair, flower, horizon, lake, long hair, long sleeves, looking at viewer, medium breasts, mountain, ocean, outdoors, ribbon, seagull, shirt, shore, skirt, skirt hold, sky, smile, solo, very long hair, water, white shirt

ちょっとわかりにくいので、「人物」「服装」「背景」に分解してみましょう。

人物に関するプロンプト

1girl, bangs, blonde hair, blue eyes, blush, breasts, floating hair, long hair, looking at viewer, medium breasts, smile, solo, very long hair

女の子、金髪のロングヘア、青い瞳、笑顔などの特徴がうまく抽出できています。

服装に関するプロンプト

blue bow, blue neckwear, blue ribbon, blue skirt, flower, long sleeves, ribbon, shirt, skirt, skirt hold, white shirt

白い長袖シャツに青いリボン、青いスカート、腰元の花、髪に結んだリボンなど、ほぼ完璧です。

背景に関するプロンプト

beach, bird, blue sky, cloud, cloudy sky, day, horizon, lake, mountain, ocean, outdoors, seagull, shore, sky, water

青い空と白い雲、海辺(水辺)に関連するプロンプトがちゃんと抽出できていますね。

かなり的確にプロンプトを推定できていることがわかります。

実写(写真)

では、今度は実写ではどうでしょうか?「ぱくたそ」の画像を使ってみましょう。

実写系の画像(「ぱくたそ」)
抽出されたプロンプト

1girl, beach, black hair, braid, cowboy shot, day, footprints, horizon, long hair, ocean, open clothes, open mouth, outdoors, sand, shore, short sleeves, skirt, sky, smile, solo, twin braids, water, waves

人物」「服装」「背景」のプロンプトに分解してみます。

人物に関するプロンプト

1girl, black hair, braid, cowboy shot, long hair, open mouth, smile, solo, twin braids

表情(笑顔)や髪型(三つ編みのお下げ)まで抽出できているのは見事です。

服装に関するプロンプト

open clothes, short sleeves, skirt

服装のプロンプトは少なめですが、半袖+スカートという基本的特徴は押さえていますね。

背景に関するプロンプト

beach, day, footprints, horizon, ocean, outdoors, sand, shore, sky, water, waves

ビーチ、砂浜という特徴をとらえることができています。footprints(足跡)まで抽出できているのには驚きました。

実写の画像でも適切なプロンプトを推定することができているようです。

らん
らん

こりゃすごいわ!

プロンプト解析の正確性

らん
らん

確かにすごいけど、どこまで正確にプロンプトを抽出できるの?

特に「髪型」や「表情」に関しては、画像を見てもなんと表現していいのか難しいこともあります。
もし画像から適切に「髪型」や「表情」のプロンプトを抽出できると創作にも役立ちそうですね。

実際に試してみたので、結果を見てみましょう!

るん
るん

実力拝見です!

髪型

画像はこちらの記事で使用している私がNovelAIで生成した画像を使います。

最初はこちら。いわゆる「お団子(2つ)」です。「double bun」といいます。

髪型-お団子(double bun)
髪型-お団子(double bun)

推定されたプロンプトはこちら。

推定されたプロンプト

1girl, bangs, bare shoulders, black hair, blush, collarbone, double bun, eyebrows visible through hair, grey background, hair bun, looking at viewer, sidelocks, simple background, smile, solo, upper body

ちゃんと「double bun」を推定できています👏

ではこれはどうでしょう?いわゆる「おさげ」です。「low twintails」といいます。

髪型-おさげ(low twintails)
髪型-おさげ(low twintails)
推定されたプロンプト

1girl, bangs, black hair, blunt bangs, blush, collarbone, eyebrows visible through hair, green eyes, green shirt, long hair, looking at viewer, low twintails, shirt, short sleeves, short twintails, simple background, smile, solo, t-shirt, twintails, upper body, white background

すばらしい!「low twintails」と推定できています。ついでに、前髪に関しても「パッツン(blunt bangs)」を推定できています。

他の髪型についても試してみたところ、かなりの精度で正しく推定できています。

Interrogate DeepBooruで抽出した髪型プロンプト①
Interrogate DeepBooruで抽出した髪型プロンプト②

「Interrogate DeepBooru」は女性の髪型の推定は得意と言えそうです。

表情

表情に関してはかなり難易度が高いです。
実際に試してみたところ、「smile(笑顔)」や「crying(泣く)」といった特徴的な表情はうまく推定できましたが、「scared(おびえる)」「sleepy(眠たそう)」という微妙な表情に関してはプロンプトを推定できませんでした。

Interrogate DeepBooruで抽出した表情プロンプト①
Interrogate DeepBooruで抽出した表情プロンプト②

表情に関しては「Interrogate DeepBooru」での解析は難しいかもしれません。
表情のプロンプト(呪文)は以下の記事を参考にしながら、ご自身で推定する方が確実かと思います。

>> 【NovelAI・Stable Diffusion】表情呪文の総まとめ!

まとめ

Stable Diffusion WebUIの「Interrogate CLIP」や「Interrogate DeepBooru」で、画像からプロンプトを抽出することができます。
特にアニメ系イラストに関しては「Danbooruタグ」でプロンプトを抽出してくれる「Interrogate DeepBooru」がおすすめです。

✅大量のAIイラストの整理にお困りなら

Eagle」という画像管理ソフトを使うと、大量の画像もスマートに管理することができます。
特にStable Diffusionとは相性バツグンで、画像生成と同時に「プロンプト」も含めてEagleに保存してくれるので、後から画像を見つけるのがとても楽になります✨

✅基本的なタグ(呪文)も抑えておこう!

基礎的なタグ(呪文)は身につけておいた方が役立ちます。以下の記事を参考にしてみてくださいね。

その他の当サイトの呪文系記事はこちらです。

プロフィール
この記事を書いた人
千鳥 るん | Chidori Run

画像生成AIで思い通りのイラストを描くためのノウハウを試行錯誤で模索しています。IT企業でAI戦略に関わっていたこともあるAIエンジニアです。大学生の頃から趣味でイラストを描いていましたが、仕事が忙しくなり一旦筆を置きました。最近、NovelAIと出会ってまたお絵描きへの情熱を取り戻しています。

千鳥るんをフォローする
Stable Diffusion
スポンサーリンク
シェアする
千鳥るんをフォローする

コメント