ローカルLLM:医師国家試験を解かせてみた(GPUなしCPUのみ)Gemma3 4B-it-q4_k_m
https://github.com/jungokasai/IgakuQA から問題をひっぱってきまして、ローカルLLMでの医師国家試験の回答精度を見てみました。 といってもすべて解くには時間がかかるので、問題の中で2018年の問題だけ解いてみました。 中には、 診察器具の写真(①〜⑤)を別に示す。成人に対して鼻処置を行った上で、鼻腔から上咽頭、喉頭にかけて内視鏡検査を実施する際に使用する器具はどれか。2つ選べ。 といった問題があって画像問題でそもそも解けないものも含まれてはいます。 また、”2つ選べ”という指示に対して、一つしか選択しか返せないプログラムで、一つでも選べると正解というあまあま採点から。(最終的には改良している) で一つでもあっていると正解とみなすという超甘い採点をしてあげた状態で、最終的な75問の正解数は、25問で33.3%の正答率。5択の問題なのでランダムに選んで20%。 2つ選べとか3つ選べいう設問に対応できるようにしました。そうすると正解率がさがりまして、甘い採点だったのが厳しくなり、24%の正答率。 推論結果と答え合わせをする所での間違い(つまり推論は合っていても、答えあわせが間違っている)というような改善をしたりして、以下が最終的な正答率。 Problem Number of questions Number of correct Correct answer rate 112 A 75 20 26.7 B 49 26 53.1 C 66 21 31.8 D 75 28 37.3 E 51 24 47.1 F 84 34 40.5 total 400 153 38.3 トータルの正答率は、38% 112-B の49問を解くのにかかった時間は、 742秒、12分22秒(Ryzen3 3200GのCPUのみでの計算) 422秒、7分2秒(Ryzen5 5600のCPUのみでの計算) いやーこれほどCPUの差を見たのは久です。 2019年に発売されたCPU。別にマイコンのファームを書いたり、CADで基板を設計したりという用途がほとんどだったので、特に困っていなかった。Windows11にもできたし。 しかし、あまりに作業効率が悪いので急遽中古でAM4マザボに対応するCPUでお手頃なRyzen5 5600を中古で購入。1万円なり。ここか...