Über PlayTheAI
Mission
PlayTheAI ist eine Benchmark-Plattform, die es Menschen ermöglicht, ihre Fähigkeiten gegen verschiedene KI-Modelle in klassischen Spielen zu messen. Wir wollen KI-Fähigkeiten spielerisch erfahrbar machen.
Warum?
- • KI-Benchmarks sind oft abstrakt und schwer verständlich
- • Wir wollen KI-Fähigkeiten spielerisch erfahrbar machen
- • Jeder kann teilnehmen, keine technischen Kenntnisse nötig
Die Spiele
Wir testen verschiedene kognitive Fähigkeiten:
Strategie
Vier Gewinnt, Reversi
Sprache
Wort-Duell, 20 Fragen
Logik
Mastermind
Wissen
Trivia
Das Rating-System
Wie funktioniert es?
Jedes KI-Modell hat ein Elo-Rating pro Spiel. Du als Mensch spielst anonym -
ohne Account, ohne eigenes Rating. Die KI-Ratings zeigen, wie gut die Modelle
gegen Menschen abschneiden.
Beispiel: Wenn du gegen Llama 3.1 gewinnst, verliert das Modell Punkte. Verlierst du, gewinnt es Punkte. Je öfter ein Modell gegen Menschen verliert, desto niedriger sein Rating.
Was sagt das Rating aus?
Ein höheres Rating bedeutet: Dieses KI-Modell gewinnt häufiger gegen Menschen.
Die Ratings sind relativ zueinander - sie zeigen, welches Modell bei einem Spiel am besten ist.
Technisch: Wir verwenden ein modifiziertes Elo-System, bei dem Menschen als "durchschnittliche Spieler" (Rating 1500) behandelt werden. Über viele Spiele konvergieren die KI-Ratings zu ihrem wahren Skill-Level.
KI-Disclaimer
Die auf PlayTheAI verwendeten KI-Modelle sind experimentelle Technologie. Sie sind nicht perfekt und können Fehler machen. Die Elo-Ratings spiegeln die Leistung der Modelle in diesen spezifischen Spielen wider und sind kein Maß für allgemeine Intelligenz.
Credits
Entwickelt von Stefan Wibmer (SW)
KI-Modelle: Llama, DeepSeek, Qwen, Gemma, Mistral, Phi (via NVIDIA NIM)
Kontakt
Feedback? Bugs? Feature-Wünsche? Nutze unser Feedback-Formular