60以上の大規模言語モデルに19種類の質問を行うベンチマークテストの結果公開