LLaVA-1.5を試してみる

機械学習
Amazonのアソシエイトとして、当メディアは適格販売により収入を得ています。

前提

画像分析能力がすごいらしいので試す。

検証

Grand Theft Auto V 夕焼けが綺麗だった
ななし
ななし

これは何というゲームですか?

LLaVA-1.5
LLaVA-1.5

この画像は、「Grand Theft Auto V」というオープンワールドアクションゲームのスクリーンショットです。

普通に正解されてビックリ。続けてもう一問

Minecraft 500時間位やったデータが飛んだ後
ななし
ななし

これは何というゲームですか?

LLaVA-1.5
LLaVA-1.5

この画像は、Minecraftというゲームのスクリーンショットです。Minecraftは、プレイヤーが3Dのブロックを使って建物や地形を作成するサンドボックスゲームです。

世界一売れているゲームとあって知っているらしい

マレーシアのお金 単位はリンギット
ななし
ななし

これは何ですか?

LLaVA-1.5
LLaVA-1.5

この画像は、様々な国の紙幣が整列されたものです。紙幣は、緑、青、オレンジ、白、紫、および紫色の紙幣で構成されており、それぞれの紙幣には異なる金額が印刷されています。これらの紙幣は、椅子の上に並べられています。

ななし
ななし

どこのお金ですか?

LLaVA-1.5
LLaVA-1.5

私は画像の詳細を読み取ることができませんが、紙幣の種類と金額が異なるため、それぞれの紙幣には異なる金額が印刷されています。そのため、紙幣の種類と金額を特定することはできません。

ゲームだけじゃ味気ないのでマレーシアの紙幣

さすがにどこの紙幣かを特定することはできないらしいが、椅子の上に並べられていることを読み取れたのがスゴい。人間でも一瞬で椅子だとわからないと思う気がする。

ペルシャ料理 肉は柔らかいし米はフワッフワ
ななし
ななし

これはなんですか?

LLaVA-1.5
LLaVA-1.5

この画像は、白いプレートに載った、肉の串焼きと米の炊き合わせの料理です。串焼きには、肉と野菜が組み合わされており、米はその上に乗っています。また、この料理には、オレンジとトマトが添えられています。この料理は、中東の料理の一種であり、美味しい味わいを提供します。

ななし
ななし

料理名は?

LLaVA-1.5
LLaVA-1.5

この料理の名前は、「シシ・キブベ」(Shish Kebab)です。シシ・キブベは、中東や北アフリカで広く愛される、串焼きの料理です。肉や野菜を串に巻き、炭火や焼き網で焼き上げます。この料理は、焼き上がった肉や野菜が、炭火の香ばしさを含んでおり、絶品の味わいを提供します。

ケバブがキブべになっているが英語だと合ってるのでそんな問題なし。レモンをオレンジと間違えているものの皿の上のものを認識している

文章の問題

画像認識能力は素晴らしいが、文章の問題を解くのは苦手らしい

ななし
ななし

円周率の最後の桁はいくつ?

LLaVA-1.5
LLaVA-1.5

円周率(π)の最後の桁は、3です。円周率は、円の周りの長さを表す数値で、3.141592653589793238462643383279502884197169399375105820974944592307816406286208998628034825342117067982148086513282306647093844609550582231725359408128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938521105559644622948954930381964428810975665933498128481117450284102701938

言い回しを変えて

ななし
ななし

円周率の一番小さい桁はいくつ?

LLaVA-1.5
LLaVA-1.5

円周率(π)の一番小さい桁は、1です。円周率は、円の周りの長さを表す数値で、3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019385211055596446229489549303819644288109756659334981284811174502841027019

3は分かるが1ってなんだよ

まとめ

引っ掛け問題に引っかかったり計算問題を解けなかったりと処理能力はそこまでですが、画像認識能力は間違えなくすごいです。

この認識能力を使って僕の代わりにスマホのレビュー記事とか書いてほしいんですがだめでしょうか。

試したい人はここへ

LLaVA
Visual Instruction Tuning

もっと専門的なことを知りたい人はこの記事へ

論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning)|Sakusakumura
昨日、LLaVA-1.5が発表されましたね。 🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes...