はじめに
2023/01 に Google が発表した音楽生成 AI の MusicLM について、紹介する。 beta ver のテストが、順番待ち形式で利用可能になっており、自分の番が来たのでそれを使ってみた感想を伝える。
MusicLM の概要
簡単に言うと、
- Stable Diffusion の音楽生成 version
である。 本ブログでも触れてきたように、大量の学習データを利用する生成 AI は、その生成コンテンツの著作権上の問題を無視できない。
Stable Diffusion の問題を理解しているので、開発元である Google は学習済みモデルの公開を先送りにしている。 フレームワークの公開は問題なく、github に実装したコードがおそらく Google 外の人が公開している。十分に大きな学習データがあれば、高い精度で音楽を生成してくれるだろう。
SD では、学習済みデータを公開し、コードを local で扱えるようにしてしまっていたことや、LoRA で追加学習が容易になってしまい、著作権の侵害が著しかった。そのことを考慮すると、天下 Google 様が著作権侵害のリスクをとってまでモデルの公開をするとは到底思えない。
良い判断だと思う。
Music LM の論文
https://arxiv.org/pdf/2301.11325.pdf
Stable Diffusion 周りの記事
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
MusicLM を使ってみた。
準備
次のページにアクセスし、登録する。 アンケートに答える必要があるので、真面目に答える。
登録が完了すると waiting list に登録される。僕の場合は、一日後にアクセスすると、利用可能になっていたので、今(2023/08)はあまり混んでいないかも。
登録して、時間が経ったら
注意
MusicLM の注意書きにもあるのだが、
- 特定の人名、特定の作品名を指定したプロンプトは実行時エラーとなる
- NSFW に該当する単語を含むプロンプトは弾かれる
となっているので、 モーツァルト風というプロンプトも僕が試したときはエラーになった。ショックだが、仕方ない。(モーツアルトは著作権どうなってるんだろう。どこかの団体が持ってたりするの?)
実際に prompt を入力してみた
一つのプロンプトに、二つの候補となる音楽が出力される。
以下の三つを prompt として入力した。
- 恐ろしいお化けから必死に逃げる時のような緊迫感・臨場感のある音楽
- Music that conveys the tension and presence akin to desperately fleeing from a terrifying ghost
- 晴れた空の下で海で大はしゃぎしている幸せな家族の様子を表す音楽
- A happy family joyfully frolicking by the sea under the clear sky
- 日本の武士が真剣勝負をしているような雰囲気の音楽
- Music that evokes the atmosphere of Japanese samurai engaged in a serious duel
そして、youtube の画像のサムネイルは、Stable Diffusion で同じプロンプトを入れて生成したものである。
恐ろしいお化けから必死に逃げる時のような緊迫感・臨場感のある音楽
結構怖い感じかも、、?けどよくわからない。 あまりホラーっぽくはない。
Stable Diffusion の画像は、結構ホラーっぽさが出ていて素晴らしいね。
晴れた空の下で海で大はしゃぎしている幸せな家族の様子を表す音楽
日本の武士が真剣勝負しているような雰囲気の音楽
この頭から生えている赤い棒はなんだろうか。よくわからんが、一枚目だけ <japanese-doll-likeness> を LoRA として使ったので、東洋人差別っぽい平たい顔武士が生成されなくて済んだ。(冗談です)
ポコポコポコポコ鳴らしているだけで、真剣勝負な感じは伝わらないが、音楽に才能のある友達曰く、
- 使っている楽器が、臨場感を出すために使うものに一致している
とのことであり、きちんと重要なポイントを学習できていそうだとのことである。
まとめ
3種類のプロンプトを使って、3 x 2 = 6 通りの音楽を作成した。 曲の素晴らしさでいうと、Stable Diffusion の生成する画像のインパクトには劣るが、それでもなかなかのレベルである。
正直、LoRA なるものを使って、
- 特定のアーティストの曲調を学習
- 特定の文化の曲を学習
などして、そういったコンテクスト依存で面白い曲ができたらいいなと思う。 あるいは、
- 自分が作った曲
を複数学習させ、それによって、自分が未来思いつきそうなタイプの音楽をテキストベースで生成できるとなったら、面白い。 ただ、Stable Diffusion の学習に必要な画像枚数は 10 ~ 20 枚程度であるのだが、MusicLM ではどれくらいなのかわからないので、学習可能性については知識をつけないとあれこれ議論できない。
最後に
Stable Diffusion と同じく、権利の問題が難しい。 人類の芸術の発展のためには、人類が芸術をやりたいと思えるような社会である必要があるのは当然である。 もし生成 AI が作品の権利を奪うようであれば、それは人類の芸術の進化を妨げることになることと同値であり、適切に制限しなくてはならないだろう。
Stable Diffusion で勃発した問題を教訓にしながら、音楽生成 AI MusicLM はうまく立ち回って欲しいと願う。
関連記事
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp
ut-bioinformatic.hatenablog.jp