朝日新聞における文化と先端技術の交差点-AI短歌
(本記事は朝日新聞テックフェス2024のテクノロジーショーケース第1部の採録です。当日の様子はこちら↓からご覧いただけます)
浦川です。少し大げさなタイトルを用意していますが、「朝日新聞における文化と先端技術の交差点-AI短歌」というテーマでお話します。
私はもともとメディアアートや広告の制作をやっており、2019年から朝日新聞社に来て自然言語処理などの研究開発を始めました。
AI短歌とは、機械学習モデルを使って短歌の研究をし、そこから企画に発展させるという取り組みです。これまでに論文・社内コンテンツ・広告企画というかたちで発表してきました。入力された内容からそれに続く短歌を生成するのが短歌AIです。
ここに例がありますが、例えば「揺れている」を入れると、
と一応、短歌と同じ五・七・五・七・七になります。入力によって出力される内容も変わるので、「揺れている」に「光の中で」と加えてみます。
と、最初のものより詩的になりました。さらに「車たち」を入れると、
少し比喩を使ってきたりします。短歌AIはこのようなモデルです。
この学習データは、日本語ウィキペディアから疑似的に短歌になっている文字列を抽出したものです。これは、別の方が「偶然短歌」という名前で書籍を出されていますが、ウィキペディアの記事で偶然その本文が短歌の形式になっているものです。例えば、
と、一応短歌(五・七・五・七・七)になっているものを集めてきています。このAIの言語モデルの中で、日本語の音の数え方「モーラ」を内部処理して、短歌を生成しています。この「モーラ」、例えばチョコレートだったら「チョ・コ・レ・ー・ト」で5モーラ、新聞紙だったら「し・ん・ぶ・ん・し」で、これも5モーラという数え方をします。
今日のために短歌AIで歌を詠んできました。入力が必要なので「雨が降る 配信向きの この部屋で」と上の句を用意してきました。今日雨なんですよね、そして素敵な部屋でしょう?この部屋(会場)が、ということで、この句を用意してきました。
これにどういう下の句を生成したかがこれです。AIなので入力するとたくさん出てきます。「大いに座れば」というフレーズが出てきて、大いに座れば「十分である」「月も輝く」「あなたは伝説」などと続きます。これが1秒間に100首くらい出てきます。「雨も降らない」もあって、雨が止んだのかはわからないですが、こういう下の句がたくさん出てきます。
私はもともとメディアアートをやっていて、その流れでメディアラボ(現所属のメディア研究開発センターの前身)の時代から、記事の生成、ラップの生成、ことわざを生成するなどといった応用案件にいくつか携わっていました。そこから何か新しいネタがないか探していたところ、そういえば昔から短歌好きだったな、という事で短歌を作るAIを作ろうとなりました。デモを作ってみると、意外とそれなりにできることが分かり、テックブログなどで紹介していきました。
2022年に最初に発表した論文では、言語モデルの中に日本語の音(モーラ)の情報を入れた、短歌生成モデルになっていることを書いています。
同じ頃、文化部からテクノロジーを使った企画をやりたいという話がきました。朝日新聞には歌壇俳壇など短歌もしくは俳句の投稿欄があり、非常に長い歴史を持っています。朝日歌壇の初代選者は石川啄木で、100年以上続いています。そこで短歌生成モデルを文化部に紹介しました。短歌検索デモについてはこの後お話しますが、これがプレミアムAというリッチなコンテンツになって朝日新聞デジタルで配信されました。
1つが俵万智さんとのコンテンツです。俵万智さんなど歌人の方に、先ほどのAIをお見せして、創作とAIについて話をするというコンテンツを作りました。この時は俵さんから「今までの歌集を全部使っていいですよ」、と言っていただき、それを学習データにして「AI万智さん」というものを作りました。記事はまだ公開されているので、ぜひご覧頂けたらと思います。
俵さんの歌を学習した短歌AIは、先ほどのモデルとは全く違うものになりました。「一人称 あまり使わぬ 日本語に」と入力すると、
「君の心を 隠しているか」と下の句を出してきました。俵さんが驚いている画像がありますが「これうまくない?」と。日本語は英語などに比べて一人称を使わない言語ですが、そこにあなたの心が隠れているのではないか、という歌を生成してきました。先ほどの疑似短歌、偶然短歌を学習していたモデルとは全く結果が違うということが分かります。やはりプロの歌人の、本当の歌を詠むことが大事だということがここからも分かりました。AIの動きを見ながら、人間にとっての短歌とは何だろう、というようなことを考えていくコンテンツになりました。
もう1つが短歌を検索する、朝日歌壇ライブラリです。投稿されてくる大量の短歌を検索できるシステムを作っていて、その中にAI検索という機能を入れています。
普通の検索で、例えば「マスク」という単語で検索すると、1990年代の短歌でヒットするものが今のところありません。
一方で、2020年代の投稿短歌から「マスク」を検索するとたくさん出てきます。これはコロナの影響で、マスクというものがこれまでと違うものになってしまい、それが投稿される短歌に詠まれているということだと思います。そういった様がこの検索から見えてきます。
これとは別に、AI検索は入力したクエリに意味的に近い短歌を検索するものです。「エンジニア同士の交流」と、今日のイベントに絡めて検索してみると、
などと出てきます。
例えば短歌で「寂しい」気持ちを表現しようとする際、歌の中に「寂しい」という言葉をそのまま入れることはほとんどないと思います。そのため寂しい短歌を検索したいけれど「寂しい」と入れても出てきません。それがこのAI検索を使うと、そういう気持ちに寄り添うような短歌が検索できます。短歌の表現形態に沿った検索としてAIを使っているという事例です。
手紙を自動生成して贈るという企画から、先ほどの短歌AIを使った広告案件「花と歌」が生まれました。当時はChatGPTが登場する前で、長い手紙を生成することは難しかったのですが、短歌であれば生成できるということで、先ほどのモデルを使った企画になりました。
短歌と花のイラストを送るという企画で、「思い出に残っていることは」などの贈りたい相手に関するアンケートが出てきてそれに答えます。その結果を反映しつつ、贈りたい花を選ぶと、花言葉も入れて短歌を生成するというシステムになっていて、実際に広告案件として使われました。
これまでもたくさん研究をして論文を書いてきましたが、今年6月に、ここ2、3年の取り組みをまとめた書籍『AIは短歌をどう詠むか』を講談社現代新書より刊行しました。ご興味ありましたらぜひお読みください。
短歌の例でいうと、100年を超える歴史を持つ朝日歌壇があり、様々な蓄積があります。ChatGPTを何かに使おう、創作的なものに使おうという議論はおろか、もう実用が始まっている世の中で、一度立ち止まって文化との関わりを考える、そういうことを我々がやってもいいと思っています。これは私だけが言っていることですが、かつては二葉亭四迷とか夏目漱石が在籍していたこの朝日新聞社で、彼らは言文一致と呼ばれる口語と書かれている言葉を合わせるようなことをやった人たちで、新しい言葉との向き合い方を作った人たちだと思います。今、その言葉を上手く扱う生成AIがある中で新しい見方というものを我々も考えていけたらと思っています。
最後に告知です。茨城県の水戸芸術館で、田村友一郎さんという現代アート作家さんの展示がありまして、我々は技術協力をしています。アルファベットを3文字入れると、それに応じた物語が出てくるというもので、詳細は割愛しますが、これは言語モデルのハルシネーションとよく言われる、嘘を言ってしまう、みたいなものの価値についてあらためて考えるような展示になっています。
私はこのあとすぐ水戸に行ってきます。ありがとうございました。