研究テーマ
計算言語学
コンピュータを用いて言語の意味がどのように理解されるか、ということを明らかにする研究に取り組んでいます。
言語の通時的な意味変化のモデル化
日本語や中国語の古文の現代語への翻訳
多言語モデルの転移学習
多言語ニューラル句構造解析
人工データを用いた言語モデルの事前学習
言語資源構築
自然言語処理や言語学・国語学、言語教育・言語学習などのための言語資源(ツール、コーパス、辞書)構築に取り組んでいます。
言語学習者コーパスの構築
テキスト平易化コーパスの構築
マルチモーダル機械翻訳コーパスの構築
言語生成と評価
大規模言語モデルなどを用いた言語理解・言語生成とその評価に関する研究に取り組んでいます。
事前学習モデルを用いた文法誤り訂正
文法誤り訂正の品質推定
マルチモーダル機械翻訳とその評価
非自己回帰モデルを用いた機械翻訳
研究プロジェクト
2023年現在、以下のような研究プロジェクトに取り組んでいます。
JST さきがけ「意思決定のための自然言語処理による未来予測」
JST さきがけ「文理融合による人と社会の変革基盤技術の共創」領域で、自然言語処理と社会科学の交差点を目指して大規模言語モデルで社会科学がどう変わるかの研究に取り組んでいます。(2027年3月まで)
科研費基盤 B 「深層学習による言語生成の評価データセットの構築と品質推定」
一橋・NAIST・愛媛大のグループで、言語生成の評価データセットの構築や品質推定手法の研究に取り組んでいます。言語処理学会年次大会でテーマセッションの提案をしたりしつつ、国内の研究コミュニティを形成していこう、と考えています。(2025年3月まで)
科研費国際 A「言語学習者の誤用に注目した単語と文の分散表現の獲得と分析」
言語学習者の書いたテキストに関する計算言語学的な内容で、ケンブリッジ大学にて2023年6-7月から2024年2月まで在外研究を行いつつ、研究する予定です。2020年夏に渡英する予定でしたが、コロナのために延期を重ねており、今年度ようやく行けることになりました。(2024年3月まで)
NICT 委託研究「マルチモーダル情報理解と制御可能なテキスト生成の研究開発」
東工大岡崎研究室が代表となっているマルチモーダルな言語生成のプロジェクトについて、分担として日本語のテキスト平易化タスクのデータセット作成と手法の研究に取り組んでいます。作成したデータセットを使った共通タスクの開催を検討しています。(2024年3月まで)
内閣府委託研究「エビデンスに基づく重要科学技術領域の調査分析」
一橋大学が代表となって、重要な科学技術領域がどこにあるのかを論文だけではなく特許やニュース等を活用しながら分析し、エビデンスに基づく政策決定ができるような基盤技術を開発しています。(2024年2月まで)