Zum Inhalt springen

Die besten KI-Tools: Chatbots, Bilder & Video

In diesem Artikel möchte ich die – aus meiner Sicht – besten generischen KI-Tools mit Euch teilen. Die besten

Es folgt eine Übersicht aller KI-Tools, die Du Dir anschauen solltest.

Hinweis: Durch die dynamische Entwicklung im Bereich generativer KI, kann sich die Liste der Tools täglich verändern.

KI-Chatbots

KI-Chatbots und große Sprachmodelle sind dank des gigantischen Erfolges von ChatGPT in aller Munde. Es existiert mittlerweile eine vielzahl unterschiedlicher Modelle und Anbieter, die sich in Qualität, Zuverlässigkeit und Funktionen zum Teil jedoch noch erheblich unterscheiden.

1) 🇺🇸 ChatGPT von OpenAI

  1. ChatGPT Free: Dies ist eine kostenlose Forschungsvorschau von OpenAI und kann nach einer Registrierung kostenlos verwendet werden. Nachteil: KEIN ZUGRIFF AUF GPT-4!

    Die Datenspeicherung und Nutzung zum Training weiterer Modelle kann hier nicht deaktiviert werden! Es gelten die allgemeinen Nutzungsbedingungen für Nutzer:innen in Europa https://openai.com/de/policies/eu-terms-of-use
  2. ChatGPT PLUS: Bezahlversion (20 USD pro Monat) mit Zugriff auf GPT-4, Browsing via Bing, Bildgenerierung via DALL-E 3 sowie Datenupload, -analyse und die Erstellung eigener ChatBots (GPTs). Die Nutzung erfolgt unter den erweiterten Bedingungen für Business Accounts: https://openai.com/policies/business-terms.

    Die Speicherung von Chatverläufen kann deaktiviert werden. Eine Nutzung der Daten zu Trainingszwecken seitens OpenAI findet nicht statt. Dennoch werden alle eingegebenen oder hochgeladenen Daten zu Servern von OpenAI transferiert und das kalifornische Recht findet Anwendung.
  3. ChatGPT Teams: Erweiterte Nutzung von GPT-4 (Mehr Anfragen + 128k Token Window), mehr Ressourcen für Codeausführung und Datenanalyse, sowie GPTs in eigenem Workspace teilen. Ab 50$ im Monat (Mind. 2 Accounts zu je 25$/Monat). Teamdaten sind standardmäßig vom Training ausgeschlossen. Inkl. Admin-Konsole für die Verwaltung des Arbeitsbereichs
  4. Tipp: GPT-4 via API: Das Sprachmodell GPT-4 lässt sich via API nutzen, beispielsweise im Playground: https://platform.openai.com/playground?mode=chat&model=gpt-4. Die Abrechnung findet hierbei je Token statt, je nachdem welches Modell verwendet wird: https://openai.com/pricing

    Vorteil: Hier kommen die erweiterten Enterprise Privacy Terms zum Einsatz: https://openai.com/enterprise-privacy
    Nachteil: Aktuell kann weder DALL-E noch die Datenanalyse oder “Browse by bing” via API verwendet werden.

2) 🇺🇸 Microsoft Copilot (ehemals bing Chat)

Mit einem kostenlosen Konto von Microsoft können Sie unter Bing AI – Suchen direkt auf den KI-basierten Copilot zugreifen. Zusätzlich hat Microsofts mit “Copilot” einen eigenen KI-Chatbot veröffentlicht, der über die integrierte Suchfunktion relevantere Ergebnisse liefert. Bings Copilot überprüft dabei Ergebnisse aus dem gesamten Web, um die gesuchte Antwort zu finden und diese mittels GPT-4 zusammenzufassen.

Dieser Chatbot kann auch Bilder und via Plugins wie Suno sogar Musik generieren. Aktivieren Sie maximal 3 Plug-Ins gleichzeitig, um Restaurantreservierungen, Flüge und vieles mehr direkt im Copiloten zu nutzen.

Die Nutzung erfolgt nach folgenden Bedingungen: https://www.bing.com/new/termsofuse

3) 🇺🇸 Perplexity AI

Perplexity AI fungiert als extrem leistungsfähige Suchmaschine, die das Internet durchsucht, um eine Antwort zu geben, wenn ein Nutzer eine Frage eingibt. Sie kann auch Vorschläge und Quellen als Antwort auf Anfragen liefern. Sie wurde entwickelt, um das Internet in Echtzeit zu durchsuchen und aktuelle Informationen zu verschiedenen Themen bereitzustellen.

Es gelten folgende Nutzungsbedingungen: https://blog.perplexity.ai/legal/terms-of-service
Datenschutzerklärung unter:
https://blog.perplexity.ai/legal/privacy-policy

  1. Perplexity Quick Search (kostenlos) ist ein Chatbot und eine Suchmaschine, die große Sprachmodelle verwendet, um präzise Antworten auf Fragen zu geben. Es verwendet im Hintergrunde das gleiche Modell wie ChatGPT free (GPT-3.5).
  2. Perplexity Pro ($20 im Monat) erlaubt es zwischen den Modellen GPT-4, Claude 2.1, Gemini, Mistral, oder Perplexitys eigenem Sprachmodell zu wählen.

    Außerdem erhält man unbegrenzte (statt 300 Abfragen pro Tag bzw. maximal 5 alle 4 Stunde) bei Perplexity Copilot, einem interaktiven Recherche-Assistenten für eine gründliche Recherche bei komplexen Anfragen mit genaueren Antworten.

4) 🇩🇪 Ecosia Chat

Die deutsche Suchmaschine Ecosia bietet auf Basis von OpenAIs API ebenfalls einen Chatbot innerhalb seiner Suche an. Die Nutzeranfragen werden im Hintergrund also ebenfalls an OpenAI weitergeleitet.

Es gelten folgende Nutzungsbedingungen: https://www.ecosia.org/privacy

5) 🇺🇸 You.com Chat

Die Suchmaschine You.com bietet einen Chatbot innerhalb seiner Suche auf Basis eines eigenen Sprachmodells an.

Es gelten folgende Nutzungsbedingungen: https://you.com/legal/terms

6) 🇺🇸 Google Bard

Googles Bard lässt sich derzeit als “Experiment” kostenlos nutzen. Allerdings sind die kürzlich vorgestellten, deutlich leitungsfähigeren Gemini-Modelle derzeit in Europa noch nicht verfügbar. Für Nutzer:innen in den USA bietet Bard bereits Text to Speech, sowie Unterstützung für 40 neue Sprachen. Das aktuell in Europa verwendete Modell LaMDA liefert jedoch noch sehr viele Halluzinationen. Von einer Nutzung wird aktuell daher abgeraten.

Datenschutz von Bard: https://support.google.com/bard/answer/13594961?visit_id=638392819176087583-1903059983&p=privacy_notice&rd=1#privacy_notice

7) 🇺🇸 Claude

Claude ist eine KI, die von Anthropic entwickelt wurde. Sie kann bei einer Vielzahl von Aufgaben assistieren, wie zum Beispiel beim Verfassen von Texten, bei der Durchführung von Analysen, beim Beantworten von Fragen, bei mathematischen Berechnungen, beim Programmieren von Code und mehr.

Über den integrierten VPN in Operas Browser lässt sich Claude auch aus Deutschland heraus kostenlos nutzen.

Claude bietet seit Version 2.1 ein Kontextfenster mit 200.000 Token, das die Analyse langer Dokumente mit bis zu 150.000 Wörtern oder 500 Seiten ermöglicht. Allerdings verlangsamt die Verarbeitung langer Dokumente die Antwortgeschwindigkeit.

Claude 2.1 Version kann im Chatbot für 20 US-Dollar im Monat, sowie in den kostenpflichtigen API-Lösungen genutzt werden. Eine Buchung außerhalb der USA ist aktuelle leider nicht möglich.

Nutzungsbedingungen: https://console.anthropic.com/legal/terms
Datenschutz: https://console.anthropic.com/legal/privacy

Chatbots auf dem eigenen PC / Mac (offline)

Mit LM Studio (https://lmstudio.ai/) lassen sich freie LLMs wie Llama 2, Code Llama oder Mistral / Mixtral auf Mac, Windows und Linux installieren und nach dem Download sogar ohne Internetverbindung lokal nutzen. Modelle können über die In-App-Chat-Oberfläche oder einen OpenAI-kompatiblen lokalen Server via API offline genutzt werden.

Die Modelle unterliegen unterschiedlichen (zum Teil echten) Open Source Lizenzen, sind jedoch ihrer Präzision reduziert (4, 6, 7 oder 8-bit quantisiert) und damit in der Leistungsfähigkeit eingeschränkt. Für eine schnelle Textgenerierung ist leistungsstarke Hardware notwendig (M1, M2 oder GPUs). Außerdem ist kein freies Sprachmodelle so leistungsfähig wie das kommerzielle GPT-4.

LM Studio wird von Element Labs, Inc. angeboten. Es gelten folgende Nutzungsbedingungen: https://lmstudio.ai/terms

Bilder KI Tools

Text-To-Image Modelle haben sich in den letzten 24 Monaten rasant entwickelt. Aktuelle Spitzenmodelle erlauben es, beliebige Bilder von Strichzeichnungen über klassische Gemälde und Comics bis hin zu fotorealistischen Motiven mittels einfacher Beschreibung in Textform zu generieren.

1) 🇺🇸 midjourney

Midjourney ist ein Programm und Dienst für generative künstliche Intelligenz, der vom unabhängigen Forschungslabor Midjourney, Inc. in San Francisco entwickelt und betrieben wird. Midjourney generiert Bilder aus natürlichsprachlichen Beschreibungen, sogenannten Prompts.

Kostenlose Generierung nur über Discord und öffentlich möglich. Zum Teil lange Wartezeit.
Kommerzielle Nutzung: 200 Bilder für $10/Monat bzw. Unlimitierte Nutzung ab $30/Monat.

Es gelten folgende Nutzungsbedingungen: https://docs.midjourney.com/docs/terms-of-service
Datenschutzbestimmungen: https://docs.midjourney.com/docs/privacy-policy

2) 🇺🇸 Ideogram

Ideogram AI ist ein weiterer Text-zu-Bild-Generator, mit dem man Bilder mittels Anweisungen erstellen kannst.100 Bilder / Tag (bzw. 25 Prompts / Tag) sind in komprimierter JPG Qualität kostenlos.

Es gelten folgende Nutzungsbedingungen: https://ideogram.ai/tos

3) 🇺🇸 Runway ML Text to Image

Jede Text-zu-Bild-Erstellung kostet 5 Credits. Credits können mit einem Standard- oder Pro-Abo für jeweils $.01 erworben werden, wobei der Mindestbetrag $10 beträgt. Für das Herunterladen in höheren Auflösungen ist möglicherweise ein Standard- oder Pro-Konto erforderlich.

Nutzungsbedingungen: https://runwayml.com/terms-of-use/
Datenschutzerklärung: https://runwayml.com/privacy-policy/

4) 🇺🇸 Adobe Firefly

Adobe hat eigene generative KI Modelle entwickelt und mittels lizenzierter Trainingsdaten erstellt. Dabei erreicht Adobe eine bislang unerreichte Rechtssicherheit für die Nutzung der erstellten Bilder.

Mit einem kostenlosen Adobe Account lassen sich 25 Generative Credits pro Monat nutzen. Für 5,49 €/Monat erhält man 100 Generative Credits, Zugriff auf kostenlose Schriften von Adobe Fonts sowie mit Firefly erstellte Bilder ohne Wasserzeichen.

Adobe Firefly wurde in Adobes Creative Suite integriert
Es stehen neben klassischen Funktionen wie Text zu Bild auch generative Füllung innerhalb von Photoshop oder sogar für KI-generierte Vektorgrafiken in Illustrator zur Verfügung.

Upscaler) 🇺🇸 Magnific AI https://magnific.ai/

KI-generierte Bilder sind in der Regel nicht besonders hoch aufgelöst. Hier hilft ein Upscaler & Enhancer für Bilder.

Magnific AI nutzt fortschrittlichste KI-Technologie, die ein hochauflösendes Upscaling ermöglicht und nicht nur hochskalieren, sondern auch verbessern kann. Magnific kann dabei neue Details im Bild halluzinieren, also neu erschaffen – und das nach eigenen Vorgaben und Parametern.

Kosten: Pro-Plan 39$/Monat, Premium-Plan 99$/Monat und Business-Plan 299$/Monat

Nutzungsbedingungen: https://magnific.ai/legal/
Datenschutz:
https://magnific.ai/legal/#privacy

Offline Bildgenerierung mittles Stable Diffusion

Stable Diffusion wurde von Forschern der CompVis Group an der Ludwig-Maximilians-Universität München und Runway mit einer Rechenspende von Stability AI und Trainingsdaten von gemeinnützigen Organisationen entwickelt.

Die verwendete CreativeML Open RAIL-M Lizenz erlaubt zwar die kostenlose Nutzung, allerdings nur für nicht-kommerzielle Zwecke, also für den persönlichen Gebrauch und die Forschung. Für $20 pro Monat lassen sich die Modelle zur kommerziellen Nutzung lizensieren, müssen jedoch noch selbst gehostet werden.

SD XL kann kostenlos ausprobiert werden unter https://nogpu-webui.com/
Das Modell besitzt jedoch sehr viele Hyper-Parameter, die eine längere Einarbeitungszeit erfordern.

Für die lokale Installation sind fortgeschrittene Fähigkeiten notwendig:
Mac: https://stable-diffusion-art.com/install-mac/
Windows: https://stable-diffusion-art.com/install-windows/

Audio KI Tools

Der erste große Block im Bereich Audio KI sind sogenannte Speech-To-Text-Modelle. Spracherkennung per Software gibt es zwar bereits seit den 90er Jahren, jedoch erlauben aktuelle Modelle eine nahezu fehlerfreie Transkription in beliebigen Sprachen und können sogar unterschiedliche Sprecher:innen identifizieren und markieren.

Hiermit können Podcast-Transkripte oder Textversionen von Meetings und Interviews erzeugt und mittels großer Sprachmodelle weiterverarbeitet, beispielsweise zusammengefasst oder umgeschrieben werden.

1) Whisper von OpenAI

Whisper ist ein automatisches Spracherkennungssystem (ASR), das anhand von 680.000 Stunden mehrsprachiger und multitaskingüberwachter Daten aus dem Internet trainiert wurde und unter MIT Lizenz (Open Source) steht.

Whisper steht unter anderem über die API von OpenAI zur Verfügung und unterstützt folgende Sprachen: Afrikaans, Arabic, Armenian, Azerbaijani, Belarusian, Bosnian, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, Galician, German, Greek, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Italian, Japanese, Kannada, Kazakh, Korean, Latvian, Lithuanian, Macedonian, Malay, Marathi, Maori, Nepali, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Thai, Turkish, Ukrainian, Urdu, Vietnamese, and Welsh.

Whisper lässt sich als Open Source Modell auch lokal, d.h. offline nutzen!

Mit MacWhisper lassen sich die unter MIT License stehenden, freien Allzweck-Spracherkennungsmodelle von OpenAI mit dem Namen Whisper lokal auf dem Mac herunterladen und offline betreiben. MacWhisper selbst kostet 29$ einmalig.

Eine Installation unter Windows ist möglich, erfordert jedoch umfangreiche technische Fähigkeiten: https://github.com/openai/whisper/discussions/1463

2) 🇺🇸 Runway ML Speech-To-Text

Verwandelt Audiospuren aus Videos oder reine Sprachaufzeichnungen in Text. Liefert exakte und verständliche Transkriptionen.

Nutzungsbedingungen: https://runwayml.com/terms-of-use/
Datenschutzerklärung: https://runwayml.com/privacy-policy/


Der zweite Block stellt Text-To-Speech-Modelle dar, also klassische Sprachsynthese, die wir ebenfalls bereits seit den 90er kennen, nun jedoch in einer Qualität, die wir lange nicht für möglich gehalten haben.

1) 🇺🇸 Runway ML Text-To-Speech

Runway Text-to-Speech verwandelt Text in lebensechte, ausdrucksstarke Sprache. Liefert qualitativ hochwertige Voiceovers oder Erzählungen.

Nutzungsbedingungen: https://runwayml.com/terms-of-use/
Datenschutzerklärung: https://runwayml.com/privacy-policy/

2) 🇺🇸 Elevenlabs Text-To-Speech

Kostenlose KI-Sprachsynthese von Elevenlabs. Erzeugt lebensechte Sprache in jeder Sprache und Stimme. Kann Sprecher:innen klonen und nachahmen!

Nutzungsbedingungen: https://elevenlabs.io/terms
Datenschutz:
https://elevenlabs.io/privacy

3) 🇺🇸 Elevenlabs Video Dubbing

Übersetzt Videos und Sprache in 29 Sprachen in Sekundenschnelle mit Sprachübersetzung, Sprechererkennung und Nachvertonung.

Nutzungsbedingungen: https://elevenlabs.io/terms
Datenschutz:
https://elevenlabs.io/privacy


Der dritte Block stellt mit Text-To-Sound & Music einen neuen Anwendungsbereich dar, bei dem Melodien, Rythmen, Töne und Geräusche bis hin zu ganzen Liedern mittels Textanweisungen generiert werden können.

Dieser Bereich ist, ähnlich wie Text-To-Video noch sehr neu und hochdynamisch. Die leistungsstärksten, bereits vorgestellten Modelle stehen derzeit noch nicht zur Verfügung.

Meta AIs neuestes Modell Voicebox steht derzeit leider noch nicht zur Verfügung. Googles MusicFX stehen aktuell nur wenigen ausgewählten Nutzer:innen in den USA über die AI Test Kitchen zur Verfügung. MusicFX basiert auf Googles MusicLM und nutzt die neuartige Wasserzeichen-Technologie von Google DeepMind, SynthID, um ein digitales Wasserzeichen in die Ausgaben einzubetten.

1) 🇺🇸 Suno AI

Suno generiert Musik per KI. Man braucht kein Instrument, nur etwas Fantasie. Auch in Microsoft Copilot als Plugin integriert.

Mit einem kostenlosen Account erhält man 50 Credits/Tag (10 Lieder) zur nicht-kommerziellen Nutzung. Kommerzielle Nutzung ab $8 je Monat.

Nutzungsbedingungen:  https://www.suno.ai/terms
Datenschutz:
https://www.suno.ai/privacy

Video KI Tools

Text-To-Video Modelle sind ein relativ neues Phänomen und noch in einem sehr frühen, experimentellem Status. Diese Tools eignen sich derzeit noch nicht für den kommerziellen Einsatz. Allerdings sollten Sie sich mit den faszinierenden Möglichkeiten beschäftigen, denn eine Ausweitung der Qualität von Text-To-Image auf Text-To-Video ist nur noch eine Frage der Zeit!

1) 🇺🇸 Pika.art

Pika ist eine relativ neue KI-Videoplattform, die es jedem ermöglicht, seine kreative Vision zum Leben zu erwecken. Das Unternehmen gestaltet das Videoerstellungs- und -bearbeitungserlebnis mit KI neu und bietet ein Werkzeug, das aktuell kostenlos und für jeden zugänglich ist.

Nutzungsbedingungen: https://pika.art/terms-of-service
Datenschutz: https://pika.art/privacy-policy

2) 🇺🇸 Runway ML Text-to-Video Gen2

Mittels eines Textprompts von bis zu 320 Zeichen und einem optionalen Referenzbild kann ein 4 Sekunden langes Video generiert werden. Das Gen-2-Modell hat drei verschiedene Arten von Aufforderungen: nur Text, nur Bild und Bild plus Text. Die Standardauflösung beträgt 768×448, kann aber durch Upscaling bis zu 1536 x 896 betragen.

Über das Abonnement (ab 12$ im Monat) stehen außerdem Funktionen wie das Entfernen von Wasserzeichen oder das Hochskalieren zur Verfügung.

Nutzungsbedingungen: https://runwayml.com/terms-of-use/
Datenschutzerklärung: https://runwayml.com/privacy-policy/

Kai Spriestersbach

Kai Spriestersbach

Kai Spriestersbach ist erfolgreicher Unternehmer und digitaler Stratege mit einem Master-Abschluss in Web Science. Er ist Inhaber von AFAIK und WebmasterPro und verfügt über mehr als 20 Jahre Erfahrung im Aufbau und der Optimierung von webbasierten Geschäftsmodellen. Als einer der erfahrensten Search Marketing Experten im deutschsprachigen Raum hat er mehr als 25 Vorträge auf SEO- und Online-Marketing-Konferenzen in Deutschland und Österreich gehalten. In den letzten Jahren hat er sich intensiv mit Large Language Models beschäftigt und sich als Experte für die Textgenerierung mit Hilfe künstlicher Intelligenz etabliert. Seine Karriere begann er mit einer Ausbildung zum Mediengestalter (IHK), bevor er den Bachelor of Science (B.Sc) in E-Commerce absolvierte. Anschließend erwarb er den Master of Science (M.Sc) in Web Science und forscht aktuell an der RPTU im Bereich angewandter generativer KI.

×