《初心者でもわかる!》音楽×AI Inspiart事業本部エンジニアインタビュー(前編)

みなさん、こんにちは!EYS-STYLE広報の泉です。

EYS-STYLEにはInspiart事業本部という、テクノロジー系の部署があることをご存知でしょうか?そこでは、音楽とAIを組み合わせたソフトやアプリの開発を行っています。あらゆることがAIと組み合わされ、新しいサービスが生み出されていく現在。しかし「音楽×AI」と言われても、どのような研究をするのか、どんなことができるようになるのか…漠然としたイメージしか持てない方が大半ではないでしょうか。

そこで今回は、Inspiart事業本部の事業本部長九頭龍氏とエンジニアのキム氏に、私のような超文系人間でも分かるように、音楽×AIの技術や今後の展望についてインタビューに答えてもらいました。

2回にわたってお届けする本インタビュー、前編は「そもそもAIってなんだ?」という基本から、音楽におけるAIの活用の歴史を聞いていきます。「音楽は好きだけど、AIとかテクノロジーは無理!」という方にもぜひご一読いただき、音楽とAIの可能性を知っていただければ幸いです。

そもそもAIって何だ?

最近では、AIに人間の仕事が取って変わられるという話題も出ていますが、そもそもAIとは何なのか、改めて確認させていただけますか?

キム:

AIは「人工知能」です。よく間違われるのですが、AIはここ10年くらいで急激に伸びてきたものだと捉えている人もいるのですが、それは「機械学習を用いたAI」の話。

AI自体は、人工知能の父と言われるアラン・チューリングから始まり、1950年代から研究が続けられてきました。その間、人間が作ったルールに基づいたAIも開発されていて、これらもAIです。そして、本日お話しするのは、「機械学習を用いたAI」が中心になります。

また、「機械学習=AI」と捉えている人も多いですが、これも勘違いのもとです。わかりやすく言うと、AIはアプリケーションと捉えてみてください。機械学習はそのアプリケーションを構成する、様々な部品です。

これまでは、この部品は人が作ったルールであったりしたわけですが、ここに機械学習が用いられているわけです。

音楽と機械学習の研究

まず音楽の話に入る前に、音と機械学習という技術が前提にありますよね。

今年の4月〜6月で、キムさんが音×機械学習というテーマで、エンジニア向け勉強会を開催していました。最近の音×機械学習がつかわれている分野では、ボイスUI、異音検知、自然言語処理、コールセンターやインフラでの活用を紹介されていました。

キム:

今、最も一般的に使われているのは、Alexaやグーグルホーム等の「ボイスUI」ですね。異音検知はまだ研究段階で、大学の研究レベルを一歩出たところ。企業が実際に応用できるレベルを目指して、開発に取り組んでいるケースが多いです。

もうひとつが音楽系。信号処理的なものに、音楽の要素を追加したもので、昔であればコードディテクションや、既存の式でクローマを出して、パターン化していましたが、それをニューラルネットワークに落とし込むことによって、より精度が上がりつつあるようです。

そもそも、機械学習で音楽を扱うというのは、どんなことをするのでしょうか?

キム:

まずは、機械学習のイメージから説明しましょう。機械学習は、丸とそれをつなぐ線があり、それらのつながりのネットワークがニューラルネットワークです。

その丸の、一番最初の層(入力層)に入れるデータは、もとの音がそのまま入っているわけではありません。いろいろな式を使って、形を変えて入力します。その形を変える過程が「特徴量を出す」という工程にあたります。つまり、シグナル(波、波形)から情報を抜き出すことで、音楽の中にはいろいろな特徴量(求めたいものを特徴づける情報の要素)があります。

例えば、声の情報を持った特徴量は「MFCC(メル周波数ケプストラム係数)」というものがよく使われています。声の分野では精度が高く、声のデータを検出しやすい特徴量です。

ところが、音楽になってくると、ピッチやコードなど、倍音(オクターブごとの周波数)の特性情報を取り出さないといけないので、MFCCではうまくいかないことが多いです。そこで色々な特徴量が試されてきました。現在は音楽分野では「クローマ」というピッチをよく表した特徴量を使う(または特徴量の一部として使う)のが一手法として有名です。精度も、昔ながらの手法と比較した時に同水準のところまできたと言われています。(※1:次項目にて補足説明)

クローマは基本的に12次元ベクトル、要するにひとつの入力層が12個の数字で成り立っているインプットです。それを入力して、例えば楽器やメロディーラインを識別します。基礎の基礎の解析では、これがよく使われていますね。クローマだけでなく、別の特徴量を重ね合わせることもあります。

これが、音楽の特徴量抽出のざっくりした現状です。

音楽とAI(人工知能)の研究は、、、意外にも古い歴史

先ほど「昔ながらの手法と比較した時に同水準まできた(※1)」というご説明がありましたが、昔ながらの手法とはどういうことでしょうか?

九頭龍:

昔は同じことをルールベースのAIでやっていたけど、機械学習のAIに置き換わっても同じ水準の精度が出せるようになってきたということですね。ルールベースとは、非常に噛み砕いて説明すると、いわゆる経験則に基づいて、人間が自分で式を作って検証し、うまくいけば成功!という感じの進め方でした。

でもそれを機械学習に置き換えようという動きが始まり、ようやく過去の優秀な人たちが考えた数式と機械学習が同水準まで来たかな、という段階です。

ルールベースのAIでやっていたことでいうと、昔流行ったのは「ピアノの自動演奏」でしょうか。BGMでピアノの自動演奏が使われ始めた頃に、クラシックの名曲をいくつもインプットしたところでおもしろくないので、このピアノが自動で動いたらかっこいいじゃん!という発想がありました。ある程度のルールとランダム性があって、その場で作曲しているように見えるけど、実はどこかで頭の良い設計者があれこれ考えた設計図通りに弾いている…みたいなところに使われていましたね。

あとはランニング用アプリもありました。速く走っていたら軽快なテンポ、ゆっくり走っていたら穏やかなテンポにして、その間をうまくつないで良い感じに音楽を流すというのを自動生成で作っていました。

こういったものがAIに置き換わってくるんでしょうけど、正直、完成度はまだイマイチです。

人間から機械学習に置き換わることによって、これまでと何が変わるのでしょうか?

キム:

人間が作ってきたものよりも、精度の高いものを目指せるということだと思います。より自然な音が出てくるとか。

例えばMIDI(音楽の演奏情報をデータ化して、電子音楽として再生できるようにしたもの)の音って機械くさいんです。これらに機械学習の変換モジュールを使うことによって、より人らしい演奏に近づけられたりすると思います。MIDIは、指示された通りの強さでしか音が出せないので、正確ですが人間味がなくて面白くない演奏になってしまう。しかし、機械学習なら、擬似的にグルーヴ感を出したりすることもできます。

九頭龍:

多分、人間が気づいていなくて言語化できていないものを、自動で作ることができるというのが機械学習の素晴らしいところなんです。音楽の分野に限らず、機械学習の凄さはそういうところにあります。

機械学習によって、人間らしさを分析して作るというのは、とても興味深いですね。

後編は「現在使われている音楽×機械学習の技術」や「今後の展望」についてお聞きします。引き続きよろしくお願いいたします。

いかがでしたでしょうか?

私(泉)自身、AIと機械学習を同じものと混同していた部分があったのですが、今回のインタビューを通して認識が明確になりました。また、音楽と機械学習の組み合わせによって、人工知能でも人間らしい音楽表現を追求できるというのが興味深かったです。インタビュー後編も近日アップの予定ですので、楽しみにお待ち下さい!

EYS-STYLEでは、これまでも音楽教室や楽器開発等、様々な角度から音楽業界を盛り上げたいと取り組んできました。Inspiart事業本部では、AIや機械学習といった、最新のテクノロジーを活用して、また違う角度から音楽業界を発展させていきたいという考えのもと、日々開発に取り組んでいます。ご興味を持っていただいた方は、ぜひInspiart事業本部のWEBサイトや、エンジニアのブログも(とっても専門的ですが読み応えばっちりです)ご覧になっていただければと思います。お待ちしております!

EYS-STYLE広報
EYS-STYLE 広報
株式会社EYS-STYLE の広報です。最新ニュースやプレスリリースを更新します。

Share

facebook twitter