学生募集
修士課程の学生を募集しています。大学院生(修士課程)の出願は8月、試験は9月です。大学院生(博士課程)は設置が認められたので、2025年4月入学の学生から受け入れ可能です。興味のある方は出願期間より前に小町 <mamoru.komachi@r.hit-u.ac.jp> までご連絡ください(※研究計画書に関するコメントはしません。)。一橋大学ソーシャル・データサイエンス研究科 (SDS) では、欅研究室と一緒に研究グループを構成し、多様な人と広く深く研究したいと考えています。うちの研究室では、以下のような学生を募集しています。
人文社会科学系出身で、データサイエンスの手法を用いた分析や機械学習の手法を用いた研究がしたい人。
情報系を含む理系出身で、人工知能やデータサイエンス分野の研究者になりたい人(必ずしも大学の教員になりたいという意味ではありません。もちろん、大学の教員になりたいという人も歓迎しています。)。または、最先端の技術をベースに起業してみたい人(既にインターンシップやアルバイト、OSS 開発等で実績がある人歓迎。)。
社会人経験者(在職のまま通いたいという人を含む)で、社会科学やデータサイエンスの知識を広く学びたい人。(社会人経験はソフトウェア開発やデータ分析に限りません)
昨年度の募集要項はこちらです。FAQ もあります。FAQ の中に、それぞれの選択科目の教科書が記載されているので、ご覧になってください。合格者には、社会科学・データサイエンスの基礎を学ぶための事前学習(ブートキャンプ)が提供され、1年前期には全学生必修のそれぞれの特論の授業が開講されるので、入試段階で両方の分野で学部3-4年生レベルの知識が必須とされるものでありません。社会科学(経営学・経済学・法学・政治学から1問選択)・データサイエンス(統計学2問+情報学2問の合計4問から2問選択)のうち、どちらか得意な領域では学部3-4年生レベルの知識が必須であり、得意でない領域では学部1-2年生レベルの知識があれば良い、という位置付けです。過去の入試問題も公開されています。体験記を書いている人もいます(@ABC123 さん, ジョージア14さん)。
研究室について
欅研究室との違いはなんでしょうか?
小町研と欅研は同じ研究グループで、基礎勉強会や論文読み会、全体ゼミなどは合同で行なう予定です(2023年度は基礎勉強会を合同でスタートしました。2024年度も継続しています)。計算機環境もシェアする予定ですし、どちらの研究室に配属されても、そこまで大きな違いはありません。
一方、研究に関するミーティング(進捗報告)は個別に実施しています。2024年度は都立大にも研究室があるため、研究ミーティングは都立大の学生と合同で開催しています。また、共同研究や受託研究に関してはプロジェクトごとに(必要に応じて他組織のメンバーと)チームを組みますので、欅研とは別に行っています。
実際の配属は研究テーマや研究室のバランスなどを加味して、受験後に合否とともに通知されます。また、副指導教員としてはお互いの研究室の学生の副指導教員には入り合っているので、学位論文の研究に関してはどちらの研究室に配属になっても、共同で指導に当たっています。
また、株価(あるいは離職率等々何かの)予測がしたい、それにオルタナティブデータとしてテキストの情報を使いたい、というような研究をしたいという問い合わせを受けますが、そういう方はそれぞれの予測したい対象の分野の先生を指導教員として入学していただき、副指導教員として小町を希望していただく(必要があれば「副演習」という制度を使ってうちの研究室のゼミ等にも出てもらう)ほうが良いと考えています。というのも、やりたいのが予測の場合、必ずしもテキストデータが効果的であるという保証はないので、取り組んでみてテキストデータを使う効果が薄いとわかったときに研究を続けるのが悩ましくなるためです。一方、有価証券報告書のような文書に含まれるテキストデータを解析したい(それがどのように役に立つかはともかく、興味があるのはテキストの方である)という場合はうちの研究室や欅研究室を希望されると良いかと思います。
都立大で学生を受け入れていますか?
いいえ、都立大では新規の学生は受け入れていません(研究生も受け入れません)。小町が一橋に着任する前に研究室に配属されていた学生は、全員卒業するまで都立大にも小町は籍を置いて一緒に研究をするつもりですが、今後小町と一緒に研究をしたい学生は、都立大の学生でも一橋 SDS を受験してもらう予定です。
博士後期課程の学生は受け入れていますか?
2025年4月以降に進学する人は一橋で受け入れます。また、博士課程に進学希望の修士の受験生は歓迎しておりますので、気軽にお問い合わせください。
博士後期課程に進学する人については、必ずしもアカデミアに残りたい(研究を続けたい)という人のみに来てほしいとは思っていません。データサイエンスを活かすことのできる様々な職場(企業、官公庁等)で国際的に活躍してほしいと思っています。一方、データサイエンスの教育を受けた人が大学でデータサイエンスを教えるようになる時代が来る、ということも期待しているので、大学教員になりたいという人の進学も歓迎しております(都立大の研究室では、博士後期課程に在籍した9名のうち7名が博士号を取得し、うち2名が大学教員になりました)。
一橋 SDS のうちの研究室の博士後期課程に進学したい人の目安として、入学までに(日本語・英語等言語を問わず)査読付き論文誌または査読付き国際会議(フルペーパー)への投稿経験があることを原則的に求めるつもりです。採録経験があることは望ましいですが、必ずしも必須とはしません。意図としては、それなりのボリュームの研究をして論文を書き、査読を受けるという場に挑戦するという経験を踏まえた上で、それでも進学したい(論文を書くという行為にしばらく腰を据えて取り組みたい)と思う人に来てほしい、ということです。
上記の経験がない方については、(一橋では一般的な研究生の制度がないため)修士課程をご案内します(または、業務として共同研究が可能であれば、共同研究としてお受けすることができるかもしれません)。
配属前にやった方がいいことはありますか?
入試を突破できる程度の知識があるのであれば、特にありませんが、学部生の人については、卒業論文・卒業研究は、入学後の研究とダイレクトに関係ないテーマであっても、しっかり取り組んでください。特に理系の学部の場合、論文の書き方はどの分野でも大きく変わらないので、配属された研究室で指導を受けられるのであれば、どんな研究テーマであっても貴重な経験になります。もし学会発表もさせてもらえるのであれば、ぜひ学会発表にもチャレンジしてください。
一方、入学前から計算言語学・自然言語処理の研究に取り組みたい、という人がいたら、合格後にご相談ください。都立大では入学前から一緒に研究をして、3月の言語処理学会で発表し、その成果を国際会議で発表する学生も珍しくありませんでした(卒業研究とは別に取り組むケースと、卒業論文として取り組む場合と、両方ありました)。
受験について
社会科学系の知識は必要でしょうか?
一橋のソーシャル・データサイエンス研究科の特長は、社会科学の知識とデータサイエンスの知識の両方を組み合わせて問題解決に当たる力を養う、という部分にあります。
一方、必ずしも入学段階で両方の知識が必要ということはありません。データサイエンス(統計・情報)の学部生レベルの知識がある人は、社会科学系で必要とされる知識は学部1-2年生レベルであり、教科書を1-2冊読んで理解していればいい、という程度です。入学後には社会科学系の単位もかなり取らないと修士号に必要な単位が揃いませんので、受験時の知識というよりは、学ぶ意欲があることを重視します。
大学入試を理系で選択し、入学後は専門分野以外はあまり履修していない、という人は、高校の「政治・経済」や「現代社会」の教科書を2-3冊読んでみると、割と効率的に必要な基礎知識が得られると思います(どの出版社のものでも手元にあるものでいいですが、もし手元になくて買う場合は、東京書籍や実教出版あたりの教科書がお勧めです)。
入試の過去問が公開されているので、ご覧ください。目安としては、(誰かに相談したり ChatGPT を使ったりせず)何を参照してもよく、どれくらい時間をかけてもいい状態で、選択した問題がちゃんと解ける程度にはご準備ください。
データサイエンス系の知識は必要でしょうか?
(繰り返しですが)一橋のソーシャル・データサイエンス研究科の特長は、社会科学の知識とデータサイエンスの知識の両方を組み合わせて問題解決に当たる力を養う、という部分にあります。
そして、必ずしも入学段階で両方の知識が必要ということはありません。社会科学の学部生レベルの知識がある人は、データサイエンスの学部1-2年生レベルの知識があれば良いです。一方、注意していただきたいのは、統計や情報分野は積み重ねが必要な分野であり、学部1-2年生レベルの知識を身につけるためには高校生レベルの知識も(漏れなく)身につけている必要があるので、教科書を1-2冊読んで理解していればいい、という程度ではなく、教科書1-2冊の演習問題を含めて解けるレベルが必要である、という点が異なります。
計算言語学・自然言語処理の研究をするためには(社会科学系の知識は入学前は「あればいい」という程度であるのに対し)統計や情報分野の知識が必須であるため、入学前の知識によっては研究に至るまでにかなり勉強をしなければならない可能性もあります(こういう研究がやりたい、と思っていても、能力次第では修士の2年間だけで取り組むことができず、博士進学を前提に考えていただくかもしれません)。これは学ぶ意欲だけではどうしようもない場合がありますので、事前にご相談ください。
入試の過去問が公開されているので、ご覧ください。目安としては、(誰かに相談したり ChatGPT を使ったりせず)何を参照してもよく、どれくらい時間をかけてもいい状態で、選択した問題がちゃんと解ける程度にはご準備ください。
英語のスコアは必要でしょうか?
はい、英語を母国語としない受験生については英語 (TOEFL または IELTS) のスコアが必須となっています。
都立大時代は研究室あたりで出願を許可できる人数が決まっていたために、文系の人は TOEIC 785点未満、理系の人は TOEIC 650点未満の方は機械的に出願をお断りしていましたが、一橋では出願に教員の許可は不要なので、スコアの提出があれば出願は受け付けられます。
一方、本研究室で入学後に読む論文の99%は英語で書かれており、修士論文相当の研究は英語で論文を書いてもらう予定なので、上記と同程度の英語力は最低限必要と考えています。つまり、人文社会科学系出身の人であれば CEFR B2 以上(TOEFL iBT 70点以上、IELTS 6.0点以上)、理系出身の人であれば TOEFL iBT 60点以上、IELTS 5.5点以上程度が目安です。
留学生を受け入れていますか?
はい、計算言語学・自然言語処理は言語を扱う学問なので、留学生を大いに歓迎しています。一方、SDS 研究科の受験には、日本の大学を卒業していない場合は出願時に JLPT N1 の試験を受けておくことが必要ですので、海外の大学出身で、JLPT N1 を受けていない方は、すみませんが修士課程は受験いただくことができません(JLPT N1 に合格している必要はありませんが、修士の筆記試験は日本語で行われるので、JLPT N1 相当の日本語力がなければ合格は難しいと思います)。
また、一橋大学は私費の研究生も受け入れていないので、お問い合わせいただいても受け入れることができません。文科省国費留学生等の公的な奨学金に採用されている場合については、研究生として受け入れ可能な場合もありますので、お問い合わせください。
社会人を受け入れていますか?
はい、多様な出身の方に来ていただきたいと思っているので、歓迎しております。一方、SDS 研究科は授業が対面で行われるため、退職または2年間休職して修士課程に専念するのでない場合は、履修に関しては事前にご相談ください。長期履修制度を活用することで、在職のまま少しずつ単位を取ることも可能です。(※社会人の人でも対面の授業が履修しやすいように、講義は月・火・金の週3日に集中的に配置されています。)
研究については、長期履修だと研究テーマによっては他の人に先を越されて新規性がなくなり研究として成立しない、というような展開が予想されるため、長期履修を選択する場合はそれでも大丈夫な研究テーマ(他にやる人がほとんどいないと想定されるブルーオーシャンな分野)を相談しながら考える必要があります(あるいは、研究の部分だけは半年ほど完全に仕事をお休みして研究のみに没頭できる期間を確保していただく必要があります)。
研究について
研究計画書には何を書けばいいでしょうか?
研究計画書を書くために、特に小町の過去の論文を読み込んで書く必要はありません(出版されたものは小町にとっては過去の研究です)。研究計画書は論文執筆とほぼ同じフォーマットで書くものであり、皆さんに研究能力があるかどうかを見るために書いていただくものです。一般的な話ですが、下記の5つがしっかり書かれていることが重要です。
研究の背景: 研究的な背景についてお書きください。先行研究をサーベイした上で、それらの先行研究で未解決のこういう問題がある、ということを明示的に(つまり、具体的にこの研究にはこのような問題がある、ということをはっきりと明記した上で)説明してください。(研究に基づかない場合は減点、問題点がはっきり提示されていない場合は減点です)
研究の目的: 上記の背景に対応して、提案する研究の主要な貢献は何であるか、あるいはリサーチクエスチョンは何であるか、ということが明らかになるように書いてください。(主要な貢献が何か分からない、リサーチクエスチョンが曖昧なのは減点です)
手法: 上記の目的に対応して、技術的にどのようにそれを解決するか、ということを可能な限り具体的に書いてください。(適切なアプローチが選択されていなければ減点です)
期待される成果: 上記の手法に照らして、どのような実験をしてどのような結果が得られそうか、どのような波及効果がありそうか、ということを書いてください。論文と研究計画書の違いは、実験の結果が埋まっているか、考察があるかどうかの違いで、どのような実験をするか、というところまでは共通です。※自分がこういうスケジュールで研究する予定だ、というような内容を記載する必要はありません。(研究の位置付けを正しく設定できていなければ減点です)
参考文献: 主要な国際会議の論文はサーベイした上で、研究計画書をお書きください。研究計画書を書くために論文を100本読め(精読ではなく斜め読み)とは言いませんが、参考文献に挙げられている数の10倍程度はサーベイしていることを期待します。(全く参考文献がないのは問題外ですが、日本語で書かれた査読なしの原稿ばかりが挙げられていたり、国際会議や論文誌でも主要なものではない論文ばかり挙げられていれば減点です)
研究室で重点的に研究したいテーマとしては、下記のようなテーマを考えています。
計算言語学的なテーマ: 言語そのものの原理を解明するようなワクワクするような研究(必ずしも社会科学との接点はないかもしれません)
基盤技術・要素技術や基礎理論・言語資源に関するテーマ: 形態素解析・構文解析・意味解析のような基盤技術に関する研究、言語モデリングのような理論的な研究、ツールやライブラリ、フレームワークの作成や、コーパス・辞書のような言語資源を作成するような研究(必ずしも社会科学との接点はないかもしれません)
大規模言語モデルを用いたテーマ: BERT, GPT 等の深層学習時代の言語モデルを用いた基礎研究や応用研究(社会科学との接点は極めて多く、社会科学の知識のある方を歓迎しています)
ただし、研究計画書は上記のようなテーマ以外はだめ、という意味ではなく、おもしろそうなテーマであれば何でも大歓迎です。ぜひ自分の情熱を持った研究計画についてアピールしてください。
なお、研究計画書に関しては、お送りいただいても小町は細かくコメントを入れてお返ししたりすることはしません。
研究テーマは自分でやりたいことができますか?
はい、修士の研究テーマについては、入学後にご自分で考えた研究テーマができるようにサポートいたします。入学後4月のうちに副指導教員を決めるための面談を行います。また、修士1年生の7月くらいを目処に、8-9月にどういう研究をするのかを決めてもらいます(研究計画書に書いた内容を入学後に必ずやらなければならない、ということはありません。)。下記の「研究室生活について」にも書きますが、修士1年生は原則として全員8月末〜9月に開催される自然言語処理の若手の会シンポジウム(YANS)等でポスター発表をしてもらうつもりです。
一方、小町から「こういう研究をしてほしい」と提案することはありません。皆さんが考えた研究テーマについて「このテーマだと2年間では厳しそうだからやめた方がいいでしょう」「このテーマをやりたいならこの部分にフォーカスしてやりましょう」など、修士の間に形になるようにアドバイスをしつつ、研究を進めるというスタイルを考えています。
また、取り組むべき研究テーマにそこまでこだわりがない、という方については、この辺りの論文を読んでみたら、というような提案をして、ある程度ご自身で論文を読んでいただく前提で、未解決の研究テーマをいくつか提示する、ということもあり得ます。進学してみたら入学前にやりたいと思ったことが違った、進学してから研究を始めて実験してみたがうまく行かなかったので途方に暮れる、など色々なケースがありうるので、その場その場で相談しながら、どのようにやるかを確認したいと思います。
社会科学とデータサイエンスは両方やらないといけませんか?
はい、できれば何らかの形で両方の分野にまたがるような研究をしてください。例えば自然言語処理分野で考えると、大規模言語モデルに関する研究開発一つとっても、開発に必要なデータの著作権であれば法学、生成された出力の倫理的な問題であれば政治学、大規模言語モデルの訓練に関する電力消費や GPU 等の調達コストであれば経済学、AI 利用によって働き方を含めた社会変革であれば経営学、みたいな形で色々な分野とつながりがあります。自然言語処理分野の主要国際会議においても、2022年以降は Ethical consideration や Limitation を書くことが必須となってきています。工学的な観点のみで尖った研究をしていればよい、という時代ではなく、自分のしている研究が世界の中でどのような位置づけであるか、周りにどのような影響を与えるのか、ということを意識してもらいたいと考えています。
一方、「ソーシャル・データサイエンス」の「ソーシャル」部分は社会実装に関する取り組みも含まれ、実社会への応用やインパクトを見据えたデータサイエンス的な研究もフォーカスに入っておりますので、社会科学的な要素が一切ないので向いてないかも、と悲観する必要はなく、研究のかたわら起業したい、開発を意識した研究がしたい、という方も歓迎です。
国際会議で発表できますか?
はい、小町は10年間都立大学で研究室を運営してきましたが、学部4年で配属されて修士2年間の合計3年間いた人は、8割程度の人が国際会議で発表したので、普通に研究していれば発表できると思います。修士から都立大に来て2年間いた人は、7〜8割の人が国際会議で発表したので、特に大きな差はありませんが、国際会議に投稿するのが修士2年生くらいになることがほとんどであり、例えば新卒で就職活動をする際には特にプラスにはなりませんし、投稿は修士のうちだが採択・発表は修士号を取ってからになることもあります(就職先によっては発表が許可されないこともある)ので、ご注意ください。
ちなみに、発表にかかる国際会議の参加費や旅費は、卒業していたとしてもすべて大学(研究室の予算)から出しますので、皆さんの負担はありません。
研究室生活について
インターンシップに行って良いですか?
はい、小町自身は学生時代に NTT 研究所、Yahoo! JAPAN 研究所、Microsoft Research、Apple などでインターンシップをしており、研究開発関係なく長期間(少なくとも1ヶ月以上)のインターンシップをすることを奨励しています。また、大学院生は海外でのインターンシップや留学にも積極的に挑戦してもらいたいです(特に博士課程の学生)。大学の中に閉じた研究だけではなく、実際のデータを使った仕事や、大学では使えないような計算資源を使うこともできるので、どんどん挑戦してもらいたいと考えています。
一方、研究の基礎が固まっていないうちにインターンシップに行くことはお勧めしておりません。大学院生については、何らかの形での学会発表を経験するまではインターンシップではなく研究に取り組んでいただくことをお勧めしています。具体的には、卒業論文や卒業研究を学部生のうちに学会発表している人に関しては、M1 の夏休みにインターンシップに行くことは妨げませんが、全く学会発表をした経験がない人については、8-9月に開催される NLP 若手の会シンポジウム(YANS)での発表までは、研究に集中していただきたいと考えてます(ただし、インターンシップに行きつつ同時に研究もして学会発表している学生も複数いるので、両方こなす覚悟のある方は大丈夫です)。学部生については、特にこのような制約を課すつもりはありませんので、自由に行きたいところに行ってください(ただし、インターンシップの時期・期間によっては、卒業研究のテーマ選択に関して制約を課す可能性はあります)。
主ゼミではどんなことをやりますか?
学部3年生で主ゼミ生となった場合、2年間のうちに1回は筆頭著者として学会発表してもらうことを想定しています。学部3年前期は研究室の基礎勉強会に参加してもらい、希望に合わせて夏休みくらいから研究をしてもらう予定です(夏休みインターンシップ等に行きたいという人は、後期から)。研究テーマは研究室からいくつか提案した上ですり合わせを行うことを想定しています。
学部4年生では、学部3年生のうちに国内で学会発表をした人は、国際会議での発表または論文誌への投稿を目指してもらいます。そうでない場合も、学部4年生のうちに少なくとも国内で学会発表できるように研究を進めます。逆に、学部生のうちに研究を1サイクル回し終わっていれば、新しい研究テーマに取り組むことも奨励します。
副ゼミではどんなことをやりますか?
まだ詳しく詰めていませんが、主ゼミ生とほぼ同様で、論文を書くときに筆頭で書くか書かないか、くらいの違いを想定しています。2年間で何かの論文の共著者として論文を発表する、というあたりをイメージしています。ただし、共著の場合は学会参加に対する旅費や参加費の支援は研究への貢献度を考慮して支給します(筆頭著者の場合は全額支給します)。
研究室の研究環境はどうですか?
2024年8月現在、国立キャンパスのマーキュリータワーの3605室に研究室のポスドク・学生室があります(うちの研究室の人しかアクセスできません)。また、共用設備として SDS の大学院生は小町の居室である東本館230室の前の Forum/Lounge も使えますし、マーキュリータワー内の SDS の院生室も使えます。
大学院生には MacBook Air/Pro を1台貸与し、各座席には27インチディスプレイがあります。また、2024年8月現在東キャンパス内にサーバ室があり、4U のサーバ2台に RTX 6000 Ada が合計11枚稼働しています。2025年3月には、都立大で使用している GPU ワークステーション2台(GPU は RTX 6000 と Quadro RTX 8000 が合計8枚)を移設予定で、かつ2025年度に新規に GPU サーバ(H100)を増強予定です。また、それとは別に SDS の七丈先生と共同利用している GPU サーバがあり、そちらは A100 (80GB) が7枚使えます。OpenAI API の研究室アカウントもあり、研究に使用してもらっています。ChatGPT Team および Overleaf も契約しています。