話題の画像生成AI「Stable Diffusion」を初心者が試してみた

その他

2023.04.29

1 Stable Diffusion（Webブラウザ版）
2 Stable Diffusion web UI
- 2.1 Stable Diffusion web UIを早速使ってみた
3 終わりに

ブログをとても久しぶりに更新しますね、そして普段書かないなっしーが担当です！

いきなりですが、今話題の“Stable Diffusion”とやらに触れてみました。
私は普段イラストを描くのですが、もしもAIに自分のイラストを学習させることができたら、今後の制作に役立つのではないかと思ったことがきっかけです。

Stable Diffusion（Webブラウザ版）

さてさて…？公式サイトで見てみると、何やら手軽に生成してくれるみたい！
https://stablediffusionweb.com/

このURLに飛び、最初に“forest”と入力し、試作してみます。

しかし…
Stable Diffusionを起用したアプリやWebサービスは、手軽に画像生成できる代わりに有料だったり、細かい制御は行えないといったデメリットが。
所々崩れていたり、あまり実用的ではありません。
狙った画像を生成できない…！

Stable Diffusion web UI

調べてみるとどうやら、自分のパソコン（ローカル環境）にStable Diffusionをインストールする方法があるようです。

ですが導入の壁がとても高く、初めて触る黒い画面のコマンドにインストールに必要な英語をポチポチ打ち込んでいく方法で、何もわからないためブログを参考にインストールをすることに…

今回は次のブログを参考にインストールを行いました。
PCに疎い私ですが、とても分かりやすく助かりました…！

参考ブログ
https://kurokumasoft.com/2023/02/06/stable-diffusion-web-ui/

今回インストールしたのは「Stable Diffusion web UI」というツールで、これは有志の方が更に使いやすくしてくれたものらしいです。ありがとうございます！

Stable Diffusion web UI
https://github.com/AUTOMATIC1111/stable-diffusion-webui

今回は手順の紹介は省きます。
ご興味ある方は参考サイトをご覧ください。

エラーが発生

困ったことに、インストール中に次のエラーが発生してしまいました。

エラーメッセージ
RuntimeError: Cannot add middleware after an application has started

エラーメッセージで検索してみると次のサイトが有用で、なんとか修正できました！感謝っ！！

参考ブログ
https://wikiwiki.jp/sd_toshiaki/%E3%82%A8%E3%83%A9%E3%83%BC%E8%A7%A3%E6%B1%BA%E3%83%A1%E3%83%A2#f6334aac

update.batをダブルクリックし、実行する。
ファイルの更新が行われ、「続行するにはなにかキーを押してください」と表示されるので指示に従う。
最後に、run.batを実行することで解決！

Stable Diffusion web UIを早速使ってみた

まず最初にUI設定を日本語に変更

「Extensions」タブを開く
「Available」の「localization」チェックを外す
オレンジ色の「Load from」ボタンを押す
「ja_JP Localization」を検索し「Install」ボタンを押す
「Settings」タブの中の「User Interface」から「Localization」をNone→ja_JPに変更し、再読み込み

生成した画像は
sd.webui/webui/outputs/txt2img-images
の階層に生成した日付のファイルができており、その中に自動保存されていたので安心して大丈夫です！

日本語での生成に挑戦

最初は単語入力をするだけで画像生成をしてみようと、日本語で
メイド服、黒髪、ショートヘア、白い肌、青い目
と入力しましたが、全然関係ない画像が生成されてしまいました。

可愛い女の子を書いてほしかったのに…

日本語を直訳した英語入力で挑戦

次に英文で先ほどの日本語を直訳した単語を入力してみることに。
Maid’s uniform, black hair, short hair, white skin, blue eyes
と入力したら近い画像が生成できました！
どうやらUIが日本語になっただけで、プロンプト自体は現段階では英語で入力しないといけないようです。

成果物の精度をさらに高める

さらにプロンプトは具体的に指示したほうが制度が上がるらしいので、ライティングや顔立ちについても追記しました。
shiney sun lighting,highly detailed beautiful face and eyesなど

次に、精度を上げるためにネガティブプロンプトを追記していきます。
worst quality,missing fingersなど

ネガティブプロンプトは、低品質なもの、指の違和感など、除外したい項目を記述します。

更に出力すると次の3枚が仕上がりました。

構築に1時間、出力の試行錯誤に3時間ほどかかりましたが、思い描いているものに少しずつ近づいてきて面白い！

今後の課題

ポーズの指定がしたい
手や表情など、部分的な修正がしたい
高画質の書き出しがしたい

…といった課題もあるので、もっと挑戦しなくちゃですね。

終わりに

環境構築に手間がかかるものの、導入後は英単語を羅列するだけで様々なイラストを生成してくれて、とにかく楽しかったです！
同じプロンプトでも生成される画像は都度異なるので、ガチャを回すようなワクワク感があります。

噂では「誰でも簡単に綺麗で迫力のある絵が描ける！」「イラストレーターの危機！」
…みたいな盛り上がりだったので焦っていましたが、狙った絵を生成するのはまだまだ難しく、簡単に代替できないのでは？と感じました。

（ひとまず小さな安心です…）

今回参考させていただいたブログが無ければ何もできなかったので、現段階ではAI画像生成における専門スキルが必要だと感じました。
もしかしたら、将来AIプロンプトクリエイター的な新たな職種が生まれるかもしれないですし、AI画像生成については今後の展開が気になります！

また、現段階では美少女系やゲームに特化したモデルが多いので、今後アートやデザイン領域に特化した技術も増えてくれたらいいなととても期待しています！