前提
画像分析機能を持つオープンソースLLM『LLaVA-1.5』が登場しました。
— AIDB (@ai_database) October 8, 2023
GPT-4に匹敵する能力を持つとのことです。
デモが公開されており、手持ちの画像を分析させることも可能です。
ウィスコンシン大学とMicrosoftによる開発です。
○ Haotian Liu et al., "Improved Baselines with Visual… pic.twitter.com/Ol89oVm9LT
画像分析能力がすごいらしいので試す。
検証
これは何というゲームですか?
この画像は、「Grand Theft Auto V」というオープンワールドアクションゲームのスクリーンショットです。
普通に正解されてビックリ。続けてもう一問
これは何というゲームですか?
この画像は、Minecraftというゲームのスクリーンショットです。Minecraftは、プレイヤーが3Dのブロックを使って建物や地形を作成するサンドボックスゲームです。
世界一売れているゲームとあって知っているらしい
これは何ですか?
この画像は、様々な国の紙幣が整列されたものです。紙幣は、緑、青、オレンジ、白、紫、および紫色の紙幣で構成されており、それぞれの紙幣には異なる金額が印刷されています。これらの紙幣は、椅子の上に並べられています。
どこのお金ですか?
私は画像の詳細を読み取ることができませんが、紙幣の種類と金額が異なるため、それぞれの紙幣には異なる金額が印刷されています。そのため、紙幣の種類と金額を特定することはできません。
ゲームだけじゃ味気ないのでマレーシアの紙幣
さすがにどこの紙幣かを特定することはできないらしいが、椅子の上に並べられていることを読み取れたのがスゴい。人間でも一瞬で椅子だとわからないと思う気がする。
これはなんですか?
この画像は、白いプレートに載った、肉の串焼きと米の炊き合わせの料理です。串焼きには、肉と野菜が組み合わされており、米はその上に乗っています。また、この料理には、オレンジとトマトが添えられています。この料理は、中東の料理の一種であり、美味しい味わいを提供します。
料理名は?
この料理の名前は、「シシ・キブベ」(Shish Kebab)です。シシ・キブベは、中東や北アフリカで広く愛される、串焼きの料理です。肉や野菜を串に巻き、炭火や焼き網で焼き上げます。この料理は、焼き上がった肉や野菜が、炭火の香ばしさを含んでおり、絶品の味わいを提供します。
ケバブがキブべになっているが英語だと合ってるのでそんな問題なし。レモンをオレンジと間違えているものの皿の上のものを認識している
文章の問題
画像認識能力は素晴らしいが、文章の問題を解くのは苦手らしい
円周率の最後の桁はいくつ?
円周率(π)の最後の桁は、3です。円周率は、円の周りの長さを表す数値で、3.141592653589793238462643383279502884197169399375105820974944592307816406286208998628034825342117067982148086513282306647093844609550582231725359408128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938
言い回しを変えて
円周率の一番小さい桁はいくつ?
円周率(π)の一番小さい桁は、1です。円周率は、円の周りの長さを表す数値で、3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019
3は分かるが1ってなんだよ
まとめ
引っ掛け問題に引っかかったり計算問題を解けなかったりと処理能力はそこまでですが、画像認識能力は間違えなくすごいです。
この認識能力を使って僕の代わりにスマホのレビュー記事とか書いてほしいんですがだめでしょうか。
試したい人はここへ
もっと専門的なことを知りたい人はこの記事へ