Technik

Multimodal

Multimodal bedeutet, dass ein KI-Modell verschiedene Arten von Eingaben versteht — nicht nur Text, sondern auch Bilder, Audio oder Dokumente. GPT-4o zum Beispiel kann Bilder "lesen" und beschreiben: Du fotografierst eine Rechnung und fragst "Was sind die Gesamtkosten?" — die KI liest das Bild und antwortet. Für Selbstständige besonders nützlich bei handgeschriebenen Notizen oder Fotos von Dokumenten.

Vorheriger Begriff

Midjourney

Nächster Begriff

No-Code