CNNで浮世絵画風変換はできるのか――Ukiyolator開発ストーリー Vol.2

こんにちは、秋元です。前回は浮世絵画風変換の取り組みについてのご紹介をしました。

今回は現在でも色々なところでも取り上げられる「AI×アート」の最初期のステップがどのようなものだったのか、またそのアイデアが現在ではどのようなところで活用されているのかご紹介するとともに、「Convolutional Neural Network」（日本語では「畳み込みニューラルネットワーク」、以下CNN）で浮世絵画風変換を実現しようとした際に直面した問題点などを紹介していきたいと思います。

「AI×アート」の最初期のステップ

芸術分野では、アーティストによって作り出された作品はContent（内容）とStyle（スタイル）に分解できるとされています。Contentは書かれているものが何かを表しており、例えば猫や人など具体的なものです。Styleは画風などを表しており、例えば新印象派の画家が用いる点描法などその絵を描くために用いられた技法や様式などを表します。

特定のStyleでContentを描きたい場合、古くからStyleを模倣しながらContentを描く、いわゆる「～風」に描くということが行われてきました。しかし、近年では描きたいStyleとContentの情報を含む画像をそれぞれ準備すれば、そのStyleでContentを描いた画像を自動で作り出せる画像AI技術が出てきています。このような画像AI技術と芸術の融合を行う「AI×アート」の最初期の技術が「A Neural Algorithm of Artistic Style」という手法です。

「A Neural Algorithm of Artistic Style」とは

「A Neural Algorithm of Artistic Style」はLeon A. Gatysらによって2016年に提案された画像AI技術の有名手法です[1]。この手法では、ある画像からContentを、別画像からStyleをそれぞれ分離し、一つの画像として再構築することで新しい画像を生成することができます。

ContentとStyleの分離と再構築には画像分類で広く用いられるVGG19というアーキテクチャが使用されています[2]。Content情報とStyle情報の分離と再構成について説明します。まずContent情報は、VGGの深い層にある情報を用いることで分離します。この深い層の情報は画像分類で最終的に必要とされる何が映っているかの情報であり、まさにContent情報に相当します。一方でStyle情報は浅い層から中間の層までの活性化関数の相関から得られる情報を用いることで分離しています。複数の層からの情報を用いるため、Styleの多様な特徴を取り入れることができます。このように分離したContent情報とStyle情報を指定した割合で満足する画像を最適化でみつけることで一つの画像として再構築します。

実際にこの手法を適用するとどのような結果になるのか、私の学生時代の履歴書の写真をContentとし、この手法の実行例でよく使われるゴッホの星月夜をStyleとして画像を生成した例を紹介します。

Contentである私の顔が維持されたまま、Styleがゴッホのものに変換されていることがわかりますね。このようにStyleの変換を行うことを、生成系AI分野ではStyle Transfer（画風変換）と呼ぶことが多いです。この手法の登場によって、誰でも簡単にStyleを変換できるようになり、様々なところで活用されていくことになりました。

Style Transfer（画風変換）の活用事例

「A Neural Algorithm of Artistic Style」が発表された直後の2016~2017年頃から画風変換を行うアプリケーションやWebサイトも急増していきました。実際にはどのような分野で活用されてきたか、当時の例をご紹介します。

1. アーティストやクリエイター

画風変換はアーティストやクリエイターの制作活動に活用されてきました。例えば、写真を有名な画家のスタイルで描き直すことで、新しい視覚的な表現を創造することができます。この手法が登場したことによって、異なる芸術家のスタイルを自分の作品にとり入れることが簡単にできるようになりました。このような画風変換は詳細なスタイルのコントロールが可能なため、クリエイターは自分のアイデアをより深く具現化できるようになりました。

2. 映画やゲーム

映画やゲーム制作においても、この手法は視覚効果の創造に活用されていました。特定の芸術家のスタイルを映像に適用することで、映画の雰囲気やゲームの世界観を強調することができます。これにより、視聴者やプレイヤーはより没入感を持って作品を楽しむことができます。

例えば、フランスのGrindCoreバンドがMVで画風変換を用いていました。GrindCoreはメタルのサブジャンルでありテンポの速さと攻撃性に重きを置いたジャンルです。このバンドは電子音楽とも融合しており、この画風変換を用いたことによって人間味のなさやおどろおどろしい音楽性を強調している反面、何処か神秘的で近寄り難い空気を作っているように感じます。

3. デザインと広告

独自のStyleやイメージを表現するために、ブランドや企業にもこの手法は活用されています。例えば、商品の広告やパッケージデザインに芸術的な要素を取り入れることで、魅力的なビジュアルを提供し、顧客の関心を引き立てることができます。

調和技研では、ロゴをContetに葛飾北斎の神奈川沖浪裏の浮世絵をStyleにして変換したデザインの玄関マットを現在も使っています。このマットは調和技研のオフィスに訪れたお客様に対して、「AI×アート」の分野も取り組んでいることのアピールや話の種になっています。ちなみに東京オフィスには調和技研ロゴと電子基盤画像をスタイルにして生成したデザインの玄関マットが置いてあります。

これらの事例からも分かるように「AI×アート」の分野の発展は画風変換の登場によって加速していきました。

浮世絵画風変換の挑戦

2017年当時の私は学生で、AIを扱う研究室に所属している一方で、趣味で芸術にも興味をもっていたため、「AI×アート」で何かできないか模索していました。そこで先程の「A Neural Algorithm of Artistic Style」という手法があることを知り、色々な画像で試そうと画風変換ができるWebサイトやアプリケーションを試したり、コードを実装したりしていました。

色々と試していくうちに、あらかじめ準備されているStyle画像として用いられるものが西洋画かつ油絵であることが多いことに気が付きました。浮世絵などの日本の芸術に対してあまり適用されている例がなかったため、浮世絵に変換するとどのような結果が得られるかを確認しました。画像は先ほどと同様に私の学生時代の履歴書の写真を用い、浮世絵側にはみなさんが一度は見たことがある東洲斎写楽の描いた三世大谷鬼次の奴江戸兵衛（さんせいおおたにおにじのやっこえどべえ）を用いて同様に変換を行いました。