新しい入試問題に記述式の問題が導入されることが話題になってますよね。
こんにちは。NEXT LEARNING Labsの岡田です。
今回、弊社と理化学研究所AIPセンター・自然言語理解チームとの共同研究が発表されましたので、その内容について、触れてみたいと思います。
※今回のTOPICSは、教育業界向きの内容となりますこと、予めご了承ください。
プレスリリース内容の詳細は以下のリンクからどうぞ。
今回の研究は、AIを活用した自動採点技術をどのようにした実際に教育現場で実用化できるものにしていくのかを追求していくものとなります。
採点業務は時間と労力がかかりますし、特に記述問題は採点や評価を均質化することが難しいともされています。
そこで、AIの技術を活用し、この採点業務を何とかサポートできないかと考えているというわけです。
今回の記事の中で、最初に理化学研究所AIPの概要をお話し、その後記述式問題の採点を取り巻く事情やそこに対してAIが何をできるかについてもお話しできればと思います。
まず、理化学研究所AIPセンターの紹介をします。
文部科学省が管轄する研究所の一つに「理化学研究所」があります。
その中でも、AI(人工知能)を含むコンピュータ技術の研究拠点として設立されたのが、AIPセンター(正式名称:革新知能統合研究センター)です。
さらにそのAIPセンターの中に自然言語理解チームがあります。リームリーダーは乾健太郎教授。高大接続改革会議でもメンバーを務められていた先生です。
大規模テストなどで自動採点、特に「記述式問題」の段階的な評価を自動で行えるのであれば、日本の教育界全体でもっと記述式問題が普及するはずです。
私自身が受験生の頃から違和感を感じていたのは「消去法」でした。
選択肢が決まっていて、正解がその中に入っているという「前提」でしか活用できない消去法。そんな状況って、現実世界にどれくらいあるのだろうか?という疑問でした。
例えば、「次に部屋に入ってくるのは、男性だろうか? 女性だろうか?」という賭け事の場合、一人が男性に賭ければ、自ずともう一人は女性に賭けるでしょう。(そうじゃないと賭け事は成立しない。)その場合、一方が埋まれば、消去法で残りを選択します。
多肢選択式の設問も、場合によっては、選択肢を見た瞬間にある程度の見積りができていれば正確に選択肢の内容理解をしていなくても、また極端な場合には問題文を読んでいなくても正解を導き出せる場合があります。(もっと極端な場合、サイコロを振って選択をすることだってあり得ます。)
そういういわゆる「受験テクニック」的な回答方法を避けるには、記述式問題が良いのです。しかし、一方で、記述式問題の場合、採点の負担が大きいという課題があります。
例えば、答えが「ア」とか「5」などの記号や数値を答えさせる問題であれば、採点は非常に楽です。あるいは、「光合成」とか「紫式部」と答えさせるような問題ですね。
つまり、記号もしくは単語レベルでの回答で、「それ以外不可」という条件であれば、人間が採点する際も楽ですし、実は機械的に採点する技術はあるのです。
ただ、上記の設問は「記述式」というよりも、単に「筆記式」というべきものです。
「筆記式」は、回答を受験生が筆記して答えるもので、例えば漢字が書けるか、英単語のスペルを間違いなく覚えているかをテストするには適しています。
「記述式」は、文章としての回答をすることで、キーワードだけではなく、キーワードが他の用語と関連付けて理解されているかを確かめるための設問です。
このような設問形式のテストでも、「記述式だから思考力が測れる」と謳っているテストもあります。
しかし、AIPが取り組んでいるのは、まさに文章構造(しかも数十字~数百字)を持つ記述式問題の自動採点となります。
つまり、一意に解が定まらず、採点基準に照らして、ある程度の評価のバラつきがでるような回答に対しての段階的評価です。
例えば、このような問題です。
Q:日本上空を台風が通過する場合、西から東に移動することが多いが、この仕組みを説明しなさい。
・A1:偏西風があるから。
・A2:日本上空には偏西風が流れており、台風が日本上空に到達した際に、その偏西風に流されて、東へと移動する。
「仕組みを説明」することが求められていた場合、A1よりもA2の方がより説得力が高いですよね。この場合、どんな採点基準にするかということで評価は異なりますが、A1とA2に評価の差をつけることができます。
このように、記述式問題の場合、思考過程や表現の差を段階的に評価するのに適しています。
しかし、実際にはこの段階的な評価は、採点者に大きな負担を強います。
大学入試共通テストでも、記述式問題を出題する旨が発表されています。
その試行テストで、現役の高校生の正答率があまりに低かったこと(および数学での無回答が多かったこと)がニュースでも問題視されていました。
この試行テストの結果を受けて、「受験生にとって解きやすい問題をテストでは出すべきで、今回の試行テストは現実離れしている」という論調もありました。
しかし、大学入試改革の目的をよく考えてみましょう。大学入試を改革することで、それにつながる高校の教育改革(また大学教育改革)をしようという「高大接続改革」が主眼です。
つまり、入試問題を変えることで、それを(一つの)ゴールとした高校での教育を変えていこう、というのが主旨なのです。
平たく言うと、「高校教育改革がまだ進んでいない時期の高校生(試行テストの際には、入試改革前に大学入試を経験する高校生が対象となっている)が記述式問題に対応できていない!」というのは、当然です。そういう指導方針の高校での指導がなされていない世代ですから。
よく考えてみると、従来の指導法で育った場合、記述式問題については「高得点がとれない」ような人材育成になってしまっており、それが危機感としてあるから、記述式問題を入試や教育現場に導入していく、というのがシナリオです。
ですから、この試行テストで、従来型の教育指導でも高得点をとるようであれば、そもそも入試改革で記述式問題が話題になることはないのです。
そして社会で求められるのもまた「記述式」なのです。
社会に出れば選択式問題というものは、あまりありません。レポート、企画書、プレゼンテーション・・・すべて「記述式」です。
だからこそ、初等中等教育の現場でも、日々の学習に記述式を導入していくべきです。
ところが、世間の中では、初等中等教育の目的が「入試突破」ということが陰に陽に出てきます。中学校・高校の教育内容や方針を変えていくには、入試を変えるのが手っ取り早い、というのが高大接続改革会議での本音の部分だと思います。
しかし、本来は、入試が目的ではなくても(高校卒業で働く人もいる)、重要な力は育みたいものです。
ところが、ここにも、困難があります。
記述式問題の段階別評価(=〇×だけではなく、複数の△があり得る採点)には、コストが掛かります。
(A)スキル育成コスト
採点者のスキルの問題です。採点基準が明確にあっても、意外と採点者によって細部はブレるものです。熟練も必要です。採点者を育成すること自体もコストが必要です。
(B)採点時間コスト
採点を終了するまでに時間が掛かります。〇か×かであれば、そこまで時間は掛かりませんが、段階的な評価となると採点基準との参照・解釈・判断ということが加わり、回答によってはかなり悩みます。
それが数百枚以上となると、それだけで数日が過ぎていきます。(大規模テストの場合には、数週間から数か月かかる場合も)
(C)疲れによるミスの可能性
時間がかかるということは、当然ながら採点者も疲れていきます。その状況下で絶えず安定した評価を下すのも困難です。採点ミスがあった場合の対処の分のコストも考慮しなければなりません。
(D)学習者の学習機会損失のコスト
上記の(B)と関連するのですが、採点・評価・添削などで回答返却に時間が掛かりすぎるため、学習者が回答作成時にどのような思考過程で書いたのかを忘れてしまい、適切な指導となっていない場合が多いのです。
これらのコストを考えると、日々の指導の中で記述式問題の段階的評価を取り入れることは、教員の負担が大きくなり、なかなか実現がされないのです。
前段で指摘したようなコストについて、AIを活用することで削減できれば、教育現場での記述式問題を使った指導は一気に増えていくことが予想されます。
そうすることで、いわゆる受験テクニックと呼ばれる非本質的な学習コストが下がり、学習者は本質的な学習に専念できることが期待されます。
もちろん、全てが叶うわけではありません。
人工知能は、ある意味で非常に極端な「前例主義」的な機能しか発揮しません。つまり、採点基準が明確で、ほとんどその枠の中で収まる回答に対してのみ反応することになります。
そこに「創造性」や「個性」というようなものはほとんど介入できません。
人工知能などの技術を使い、知識定着に関する点については、速く・深く学ぶ一方で、今後求められる教育(試行錯誤・合意形成などの資質・能力の育成)に時間が多く割り振られるようになっていくことが望まれます。
また、人工知能の技術を育てるためには、データが必要です。
このデータ(個人情報ではなく学習情報)を社会課題解決のために提供しようという世論が生まれる必要もあります。
まだまだ前途多難ですが、より多くの学習者に深い学びを提供できるように、AIPと共に弊社も邁進いたします。