ビッグデータアクティベーション研究センター人材育成ユニットビギナー向けデータサイエンスコンテスト2023

データサイエンスコンテスト2023

共催:新潟大学BDA研究センター, MathWorks Japan
参加対象:新潟大学の学部生・大学院生
実施期間:2023/10/20~2023/11/30

優秀作品・講評の紹介(5件、順不同)

(プライバシー保護等の理由により加工ないし非公開を含みます。)
『新潟交通バスにおける現状分析と持続可能なバス交通のための施策検討』 <投稿作品PDF>
鈴木蒼生, 自然科学研究科
[委員講評]
 新潟市内のバス運行の現状分析と施策検討を、時系列データ解析と軸にまとめた作品です。課題設定からデータ収集・処理・分析、解決提案までを丁寧に実施してスライド資料にまとめています。感想に記載している通りバス利用者でもある筆者が、データとバス利用経験から地道に施策検討した過程が見られ、実施・効果検証こそできないものの共感するところが非常に多いです。データ前処理についてスライドでは最小限の記述にしていること、バス停の地理情報を意味解釈で用いていることなどデータサイエンスの渋さが詰まっています。次の機会にはディープラーニングが使える題材にも挑戦してみてください。

『白ワインの品質分類について』
(匿名希望)
[委員講評]
 白ワインの含有量11種類を特徴量として、品質評価クラスタリングを教師付き機械学習で行った作品です。畳み込み(CNN)を1次元入力に適用することでワインの複雑な評価を表現し、また、収束状況と混同行列が可視化してまとめられています。提出されたレポートの数字がデータと異なっていたこと、畳み込み演算(組み合わせ方)が初期配列依存で根拠に乏しいことは改善点ですが、まずにして取り組みを完走したことが重要です。今後、腰を据えてじっくり取り組むことでより良い結果が出る可能性を感じました。先行研究が豊富にある題材です、データ処理・モデルやレイヤの選択理由がわかるともっと楽しくなってきますよ!

『Wordクラウドを利用し、課題提出の際に一番多く使われた言葉を探す』 <投稿作品PDF>
八幡怜花, 経済科学部
[委員講評]
 本作品は、自身が提出したレポートを対象に、文章作成における単語選択の傾向をワードクラウドで明らかにし、今後のレポートの改善への活用を目的としています。今後のレポート改善に対する意識を高く持っている点はとても素晴らしいです。今回は第3タームの授業課題のみの限定されたデータソースだったため、受講した講義の内容に依存した名詞が多く現れました。より長い期間の課題に対して、また他のデータセットとの比較も実施すると、単語選択の傾向や特徴やその変遷が確認できると思いますので、ぜひとも継続して分析を実施してみてください。

『小学生と中学生の絵に違いはあるのか?~色の違いに着目して~』 <投稿作品PDF>
青木雄大, 自然科学研究科
[委員講評]
 あるイベントで筆者が直観的に感じた小中学生が灯台の絵を描く色の使い方について、使用される色の種類の学年ごとの差をクラスタリングの結果により分析しており、着眼点は面白いです。データの取得、前処理が目的に対して適切に工夫されており、高く評価できます。データの可視化方法については、割合を円グラフで表すことはよくありますが、学年別の差を表す目的には適していません。伝えたい内容に合わせた図を作成するように意識できると、より良いレポートになります。また、扱っているデータは学年別の他に、時代による変化など、別の視点による分析も可能だと思います。データを違う角度から見ることにより新しい仮説につながることもありますので、他にどのような視点から分析できるかぜひ検討してみてください。

『災害リスクが住宅価格に及ぼす影響』 <投稿作品PDF>
金内和輝, 経済科学部
[委員講評]
 災害リスクによって住宅価格が受ける影響は、災害の多い日本にとって重要な問題で、着眼点はとても良いと思います。ただ、残念ながら今回は分析の目的に対して適切な手法を適用できていません。線形混合効果モデルがどのような問題に適用できるのか、再度基本的な点から復習してみることをお勧めします。また、この問題には日本における先行研究も多くみつかります。先行研究を参考に、分析において留意するべき点を確認し、自身の取り組む課題にも適用し、さらに新しい視点を加えることができると、研究でも役に立つ実践的なスキルを習得できると思います。