マガジンのカバー画像

メディア研究開発センター

23
朝日新聞社の研究開発チーム(メディア研究開発センター)のテックブログです
運営しているクリエイター

#自然言語処理

EMNLP 2024 に参加してきた話

こんにちは。メディア研究開発センター (M研) の川畑です。 昨年11月にアメリカのマイアミにて開催された EMNLP 2024 に論文が本会議採択され現地参加してきました。今回の記事では採択論文と個人的に面白かった論文の内容紹介を行います。 EMNLP とは自然言語処理 (NLP) 分野のトップカンファレンスの一つです。採択率は本会議が2024年で20.8%、findings まで含めると37.7%だったようです。Findings というのは本会議には一歩届かなかったけれ

LLMによる日本語タイポ修正ベンチマーク

こんにちは。メディア研究開発センター(通称M研)の田口です。 昨年6月末にこんな記事を書きました。このときはgpt-35-turbo、text-davinci-003を使っていて今読み返すと隔世の感ですね… 現在も要約関連のことをやっているのかというと、最近のメインの業務は「Typoless」という校正支援AIサービスの開発に従事しています。AI校正機能からその他解析API群の整備・運用まで幅広くやっています。Typolessについては昨年末にPdMがnoteを書いている

LLMを使ったかな漢字変換

こんにちは。メディア研究開発センターの山野です。私は普段は音声処理や自然言語処理やそれらの技術を使ったプロダクト開発などに従事しています。 さて今回は朝日新聞記事データを使ったニューラル仮名漢字変換について簡易な実験をしたのでその結果を共有します。 はじめに多くの問題を解くことができるLLMですが、ひらがな列Xをかな漢字混じり文Yへ変換する仮名漢字変換については、単語の読み方とその表記の関連性を学習する必要があり、現時点(2024年7月8日)ではLLMでもうまく解くことがで

【LLM】Few-shot推論は言語化の壁を越えられるか

こんにちは。メディア研究開発センターの川畑です。 みなさん ChatGPT 使ってますか?便利ですよね。何か訊いたら大概のことは正確に教えてくれますし、論文等の文書もわかりやすくまとめてくれたりと万能な存在です。 そんな便利な ChatGPT もとい LLM (large language model) ですが、その知識を引き出すためには質問や指示をキチンと言葉にしなければいけません。ちゃんと指示を言葉にする、というのは一見すれば簡単なことですが、何度もチャットしていると

『AIは短歌をどう詠むか』という本

はじめにみなさん、こんにちは。メディア研究開発センター(M研)の浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本日は6月20日に講談社現代新書として発売される『AIは短歌をどう詠むか』という本についてご紹介します。 こんな本です本書は、〈短歌AI〉が短歌を

LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

朝日新聞社メディア研究開発センター 田森です。 ゴールデンウィークがいよいよ始まりますね。メディア研究開発センターも4月には新年度を迎えワチャワチャしていましたが、月末になりようやく落ち着きを見せてきました。 ようやく、ようやく、要約。ということで、今回のテックブログは自然言語処理における要約タスクとLLMの最近について書いてみたいと思います。このブログは、NLP2024のワークショップ「生成AI時代の自然言語処理における産学官の役割と課題」で発表するにあたり、調査した内