大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?