Deepseek - ein offenes & leistungsstarkes KI-Modell aus China
Deepseek (Android App - iOS) ist ein chinesisches Unternehmen im Bereich der Künstlichen Intelligenz (KI), das im Mai 2023 gegründet wurde und seinen Sitz in Hangzhou hat. Finanziert durch den Hedgefonds High-Flyer, hat sich DeepSeek auf die Entwicklung von Open-Source-Sprachmodellen spezialisiert. Diese Modelle finden Anwendung in Bereichen wie Codierung, Mathematik und Sprachverarbeitung. Das neueste Modell, DeepSeek-V3, wurde im Dezember 2024 veröffentlicht und basiert auf einer Mixture-of-Experts-Architektur mit beeindruckenden 671 Milliarden Parametern, von denen 37 Milliarden pro Token aktiviert werden. Trotz seiner Komplexität ist das Modell kosteneffizient: Das Training kostete etwa 5,6 Millionen US-Dollar und benötigte 2,788 Millionen GPU-Stunden auf NVIDIA H800-GPUs.
In Benchmarks zeigt DeepSeek-V3 herausragende Leistungen, insbesondere in mathematischem Denken und Code-Generierung, und konkurriert erfolgreich mit führenden Modellen wie GPT-4o und Claude-3.5-Sonnet. Dabei wird DeepSeek für seine Effizienz und Leistungsfähigkeit gelobt. Allerdings gibt es Kritik an der Zensur bestimmter Themen im Modell, insbesondere in Bezug auf die chinesische Regierung und historische Ereignisse wie das Tian’anmen-Massaker. Diese Einschränkungen könnten die Akzeptanz des Modells in bestimmten Kontexten beeinflussen.
Trotzdem bietet DeepSeek viele Vorteile: Die Modelle sind als Open Source verfügbar, was die Integration in verschiedene Anwendungen erleichtert. Zudem können sie über eine API genutzt werden, die eine kostengünstige Implementierung ermöglicht. Die Entwicklung von DeepSeek zeigt, dass leistungsstarke KI-Modelle auch mit begrenzten Ressourcen möglich sind, was möglicherweise Druck auf etablierte Anbieter ausübt. DeepSeek könnte somit einen wichtigen Beitrag zur Demokratisierung von KI leisten und neue Standards setzen.
Digitale Profis: So verwendest du Deepseek
Update Jänner 2025
DeepSeek, ein chinesisches KI-Startup, hat kürzlich ein KI-Modell vorgestellt, das im Vergleich zu bestehenden Modellen deutlich weniger Energie verbraucht. Dieses Modell benötigt nur etwa ein Zehntel der Rechenleistung und Energie im Vergleich zu Metas Llama 3.1. Zu anderen Modellen ist der Unterschied noch viel höher.
Diese Entwicklung hat erhebliche Auswirkungen auf den Aktienmarkt. Energieversorger und Unternehmen, die von einem hohen Energiebedarf durch KI-Anwendungen profitierten, erlebten Kursrückgänge. Beispielsweise fielen die Aktien von Constellation Energy und Vistra um über 20 %.
Gleichzeitig gerieten Technologiekonzerne wie Nvidia unter Druck, da die Nachfrage nach ihren Hochleistungsprozessoren für KI-Anwendungen in Frage gestellt wurde. Nvidias Aktienwert sank um 17 %, was einem Wertverlust von 589 Milliarden US-Dollar entspricht.
Es bleibt abzuwarten, wie sich diese Entwicklungen langfristig auf den Markt auswirken werden. Einige Analysten betonen, dass trotz effizienterer KI-Modelle die Gesamtnachfrage nach KI-Anwendungen steigen könnte, was den Energiebedarf weiterhin hoch hält.
Das KI-Modell DeepSeek R1 zeichnet sich durch besondere Lernfähigkeiten aus. Es wurde mit einer Kombination aus Reinforcement Learning und Supervised Fine-Tuning trainiert, was es dem Modell ermöglicht, fortschrittliche Reasoning-Fähigkeiten zu entwickeln. Diese Fähigkeiten könnten in Zukunft Maschinen und Robotern dabei helfen, selbstständig zu lernen und sich an neue Aufgaben anzupassen.