2023.06.12
最近いわゆる画像生成AIのStable Diffusionを触っているので、ちょっとした小ネタとして書かせていただきます。
環境構築は公式サイトを見れば基本的にはすんなりできると思います。解説サイトもいまや大量にあるので調べれば一瞬ででてきますので解説についてはそちらに譲ります。
チャレンジされる方はVRAM12GB以上のNvidia製グラフィックスボード(まずは3060がおすすめ)と根気があれば動かすまではできるかと思います。
6か月前ぐらいにHugging face Diffusersを知り、触るようになりました。
最初の1か月目は右も左もわからない中、そもそも日本語情報もあまり存在しないDiffusersの世界で、数少ない解説サイトを見つつ、公式サイトの説明を読み解きつつ、アレンジして環境構築をして、Prompt一本で画像生成を楽しんでいました。
しばらくしてモデルが色々あることを知り、いろんなモデルをいれるようになりました。また、2月ぐらいから話題になり始めたのですが、Stable Diffusion WebUI(Automatic1111)というものがリリースされ、かなり手軽に使えるようになりました。
こちらに関してはDiffusersの比ではないぐらい解説サイトがあります。
とんでもない勢いで変化する世界なのでついて行くのは至難の業ではありますが、普通に使って楽しむ分にはまったりしても良いとおもいます。
今の流行りはControlnetなんでしょうか…革命的な機能です。
Stable Diffusionの動き(T2I)を簡単にお話しすると、入力された文字列(Prompyや呪文と呼ばれるもの)と学習データを照らし合わせて、ノイズまみれの画像から徐々にノイズを取り除いていき、その結果を出力するというものだそうです。
DifussersもWEBUIについてもそのあたりは一緒ですが、ざっくり言うと「味付け」の部分や「拡張機能」の存在など、WEBUIのほうが拡張性といじりやすさが格段に良いです。
個人的にはDiffusersから始めたので簡単にDiffusersを紹介します。
DiffusersはPythonから呼び出して使います。
公式だったり解説サイトを読んで環境を構築して、よくあるテンプレを使えば簡単に画像が生成できます。
こんな感じです
♯プロンプトのところに書かれている文字列が今回生成してほしい画像についての文字列です。
きちんと火星っぽいところにいる猫の画像が生成されました。
ただ、どことなく非実在猫感があります。なんだか浮き上がっているかのような…
表現はし辛いですが、どことなく生成された感がある妙な画像になるのはしょうがないです。
でもちゃんと火星っぽいところになぜか生身ですが猫がちゃんといます。ねこはいます。
画像生成AIの良さは人間がやろうと思わないもの、どう考えても作らないもの、またはありえない情景をさも当然の如く作り出すところだと思います。
手がぐちゃぐちゃしていたり、素手でラーメンを食べる円香なんかが話題になりましたが、いまではちゃんとした手で箸で食べたりしてくれるようになりました。
しかし意味が分からないスピードで行われる日々の進化でそれもまた遠い昔のように感じます。
いろいろ言われている世界ですが、個人で楽しむ限りはいいんじゃないかなと思っています。
ところで、「イラストを生成していると描きたくなる」といわれることがあります。
確かにそうで、描きたいものを生成するとなると大変な苦労を強いられるので、「描いたほうが早い」ということになりかねないです。
また、いわゆるAI顔やマスピ顔というものが気に入らないという人もいらっしゃいますので、そういう人には向かないです。
AIも所詮は道具なのでAIを使って何かをしたいという漠然なものがあって、たまに回すガチャのように趣味程度に使うのであれば良いのだと思います。
夏場は暑くなるし電気代も高くなるのでやりすぎには注意ですが…。
最近は相談を受けてプロンプトを書いて生成した画像が思いのほか良い感じで壁紙にしてしまいました。WEBUIで生成しました。
以上、画像生成AIのお話でした。
技術 真間