朝日新聞社、新聞記事から作成した「単語ベクトル」公開

　朝日新聞社は、2017年7月よりレトリバと進めている共同研究の成果の一部を「単語（埋め込み）ベクトル」（単語ベクトル）として研究者向けに原則無償で公開する。日本語処理研究の活性化などを図ることを目的としている。

教育ICT 先生

2017.11.7 Tue 17:45

　朝日新聞社は、2017年7月よりレトリバと進めている共同研究の成果の一部を「単語（埋め込み）ベクトル」（単語ベクトル）として研究者向けに原則無償で公開する。日本語処理研究の活性化などを図ることを目的としている。

　単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化（ベクトル化）したもの。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなる。

　世界では、単語ベクトルを利用することで自動翻訳や要約、音声認識など自然言語処理の研究が加速しており、朝日新聞社でも、メディアラボと情報技術本部が中心となり、AIを利用した新規事業開発・業務改革を進めている。レトリバとの共同研究では、朝日新聞社から若手エンジニアを数人レトリバへ派遣し、両社でノウハウを積極的に共有している。

　今回公開された単語ベクトルは、1984年8月～2017年8月の朝日新聞の記事データ約800万件（延べ約24億単語）から獲得。米グーグルと米スタンフォード大学の研究チームが提案したそれぞれの手法で生成したものを、研究者が使いやすいフォーマットに整え、約75万語の単語ベクトルを公開した。さらに、同義語同士が似た単語ベクトルの関係にあるように調整した、別の単語ベクトルに関する論文も公開されている。

　朝日新聞社は、今回の単語ベクトル公開を契機に、日本語処理研究の活性化とほかの研究者からのフィードバックによる共同研究の加速を図ることを目指すとしている。

《外岡紘代》