Über PlayTheAI

Mission

PlayTheAI ist eine Benchmark-Plattform, die es Menschen ermöglicht, ihre Fähigkeiten gegen verschiedene KI-Modelle in klassischen Spielen zu messen. Wir wollen KI-Fähigkeiten spielerisch erfahrbar machen.

Warum?

• KI-Benchmarks sind oft abstrakt und schwer verständlich
• Wir wollen KI-Fähigkeiten spielerisch erfahrbar machen
• Jeder kann teilnehmen, keine technischen Kenntnisse nötig

Die Spiele

Wir testen verschiedene kognitive Fähigkeiten:

Strategie

Vier Gewinnt, Reversi

Sprache

Wort-Duell, 20 Fragen

Logik

Mastermind

Wissen

Trivia

Das Rating-System

Wie funktioniert es?
Jedes KI-Modell hat ein Elo-Rating pro Spiel. Du als Mensch spielst anonym - ohne Account, ohne eigenes Rating. Die KI-Ratings zeigen, wie gut die Modelle gegen Menschen abschneiden.

Beispiel: Wenn du gegen Llama 3.1 gewinnst, verliert das Modell Punkte. Verlierst du, gewinnt es Punkte. Je öfter ein Modell gegen Menschen verliert, desto niedriger sein Rating.

Was sagt das Rating aus?
Ein höheres Rating bedeutet: Dieses KI-Modell gewinnt häufiger gegen Menschen. Die Ratings sind relativ zueinander - sie zeigen, welches Modell bei einem Spiel am besten ist.

Technisch: Wir verwenden ein modifiziertes Elo-System, bei dem Menschen als "durchschnittliche Spieler" (Rating 1500) behandelt werden. Über viele Spiele konvergieren die KI-Ratings zu ihrem wahren Skill-Level.

KI-Disclaimer

Die auf PlayTheAI verwendeten KI-Modelle sind experimentelle Technologie. Sie sind nicht perfekt und können Fehler machen. Die Elo-Ratings spiegeln die Leistung der Modelle in diesen spezifischen Spielen wider und sind kein Maß für allgemeine Intelligenz.

Credits

Entwickelt von Stefan Wibmer (SW)

KI-Modelle: Llama, DeepSeek, Qwen, Gemma, Mistral, Phi (via NVIDIA NIM)

Kontakt

Feedback? Bugs? Feature-Wünsche? Nutze unser Feedback-Formular