Veröffentlicht inScience

ChatGPT und Co. scheitern an einfacher Logikfrage – kannst du sie lösen?

Forschende haben KI-Modelle wie ChatGPT einem einfachen Logik-Test unterzogen. Heraus kam eine Schwachstelle der künstlichen Intelligenzen.

Hände bedienen ChatGPT am Laptop
u00a9 irissca - stock.adobe.com

5 neue Technologien, die unsere Welt verändern werden

Unsere Welt entwickelt sich rasant weiter – in den letzten zwanzig Jahren mehr als je zuvor. Und in den kommenden Jahrzehnten könnte sich unser Leben noch einmal drastisch verändern. 5 neue Technologien sprechen dafür.

Moderne KI-Modelle wie ChatGPT haben den Ruf, uns Menschen in Zukunft in vielen Bereichen abzuhängen. Für alle, die durch die aufstrebende künstliche Intelligenz um die Zukunftsfähigkeit ihres Jobs fürchten, könnte es nun einen kurzen Moment zum Aufatmen geben.

An dieser simplen Frage scheitert ChatGPT

Grund dafür ist eine Studie von Wissenschaftler*innen des Juelich Supercomputing Center, dem Research Center Juelich, der School of Electrical und Electronic Engeneering der Universität Bristol und Laion. Darin ging es um eine simple Logikfrage, an der selbst die großen Large Language Models (LLM) gescheitert sind.

Die Forschenden stellten die simple Frage: „Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alice Bruder?” Die Antwort liegt auf der Hand. Alice Bruder hat immer eine Schwester mehr als Alice, da Alice selbst auch als Schwester gezählt werden muss. Während die meisten Menschen diese Frage wahrscheinlich recht einfach lösen können, scheitern die LLMs bis auf wenige Ausnahmen.

Getestet wurden neben weiteren offenen Modellen vor allem die großen KI-Systeme wie ChatGPT 3.5, 4 und 4o von Open AI, sowie Claude 3 Opus von Anthropic, Gemini von Google und die Llama-Modelle von Meta. Dabei lagen lediglich ChatGPT 4 und Claude 3 zumindest hin und wieder richtig.

Lesetipp: Konkurrenz für ChatGPT – das steckt wohl hinter der Apple-KI

Es kommt noch schlimmer

Doch damit nicht genug: Die KI-Systeme lagen nicht nur einfach falsch, sondern beharrten auch noch auf ihrer falschen Lösung – trotz Nachfragen der Forscher*innen. Dabei soll die Argumentation von ChatGPT und den anderen LLMs zwar logisch klingen aber dennoch ebenso falsch sein.

„Dieser Zusammenbruch kann nicht nur deshalb als dramatisch angesehen werden, weil er bei einem so scheinbar einfachem Problem passiert. Sondern auch, weil die Modelle dazu neigen, ihre falschen Lösungen als richtig zu bezeichnen, […] wobei sie einen argumentationsähnlichen Tonfall imitieren, aber unsinnige Argumente als Unterstützung für die ebenso unsinnigen, falschen, endgültigen Antworten liefern”, bemängeln die Forschenden an ChatGPT und Co.

Quelle: „Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models” (arXiv, 2024)

Seit dem 24. Februar 2022 herrscht Krieg in der Ukraine. Hier kannst du den Betroffenen helfen.

Du willst mehr von uns lesen? Folge uns auf Google News.