KI News vom 05.07.2024

Hallo zusammen, es ist wieder Zeit für aktuelle und spannende News aus der Welt der Künstlichen Intelligenz!

1. Neuer Chatbot von Amazon: Metis

Amazon hat die Entwicklung eines neuen KI-Chatbots namens Metis angekündigt, der als starke Antwort auf OpenAIs ChatGPT dienen soll. Metis basiert auf dem fortschrittlichen Olympus-Modell von Amazon, das über Hunderte von Milliarden Parametern verfügt und durch die Technologie der Retrieval-Augmented Generation (RAG) ergänzt wird.
RAG ermöglicht es Metis, auf aktuelle Informationen und externe Datenquellen zuzugreifen, um präzise und aktuelle Antworten zu liefern.

Einsatz von RAG

RAG (Retrieval Augmented Generation) kombiniert generative KI mit Suchtechnologien, um die Fähigkeiten des Chatbots erheblich zu erweitern.
Anstatt sich ausschließlich auf vordefinierte Trainingsdaten zu verlassen, kann Metis relevante Informationen aus externen Datenbanken und Echtzeitquellen abrufen.
Dies ermöglicht es dem Chatbot, genaue und aktuelle Antworten zu liefern, z.B. aktuelle Aktienkurse, Wetterberichte oder Nachrichten.
Diese Technologie stellt sicher, dass die Antworten von Metis nicht nur präzise, sondern auch auf dem neuesten Stand sind.

Fähigkeiten von Metis

Metis ist darauf ausgelegt, komplexe Interaktionen und Aufgaben zu bewältigen.
Der Chatbot kann nicht nur Fragen beantworten und Gespräche führen, sondern auch Bilder generieren, Quellen für seine Antworten bereitstellen und Folgefragen vorschlagen.
Metis ist darauf ausgelegt, eine Vielzahl von Aufgaben zu automatisieren, wie zum Beispiel die Planung von Reisen oder die Steuerung von Smart-Home-Geräten.
Durch die Integration mit Amazons „Remarkable Alexa“-Team werden die Möglichkeiten von Metis weiter ausgebaut, um den Nutzern eine noch nahtlosere und intuitivere Erfahrung zu bieten.

Technische Basis und Veröffentlichung

Metis läuft auf dem Olympus-Modell von Amazon, das speziell für leistungsstarke KI-Anwendungen entwickelt wurde.
Olympus ist deutlich fortschrittlicher als das bisher öffentlich verfügbare Titan-Modell und soll die Grundlage für Metis’ beeindruckende Fähigkeiten bilden.
Die offizielle Vorstellung von Metis ist für September geplant, und es wird erwartet, dass der Chatbot eine bedeutende Rolle in Amazons KI-Strategie spielen wird.

Weitere Informationen sind in den folgenden Artikeln zu finden:

t3n
the-decoder
businessinsider

2. Wieder ein neues Text-zu-Video Tool , Runway veröffentlicht Gen-3 Alpha
Runway hat kürzlich die Alpha-Version seines neuen Text-zu-Video Tools, Gen-3, vorgestellt.
Dieses Tool repräsentiert einen bedeutenden Fortschritt in der KI-gestützten Videoproduktion und bietet zahlreiche innovative Funktionen.

Funktionalitäten von Gen-3
Gen-3 ermöglicht es Nutzern, aus einfachen Text-Prompts realistische Videos zu erstellen, die bis zu 10 Sekunden lang sind.
Diese Clips können menschliche Emotionen und Gesten realistisch darstellen und beinhalten komplexe visuelle Effekte wie Beleuchtung und Reflexionen.
Eine bemerkenswerte Funktion ist die Fähigkeit, einzelne Bildelemente unabhängig voneinander zu bewegen, was den kreativen Spielraum erheblich erweitert.
Gen-3 nutzt eine neue Infrastruktur für groß angelegtes multimodales Training, wodurch filmreife Videos entstehen können.

Sicherheit und Verfügbarkeit
Runway legt großen Wert auf die Sicherheit seiner Tools. Gen-3 beinhaltet Inhouse-Moderationssysteme und folgt den Standards der Coalition for Content Provenance and Authenticity (C2PA).
Dies soll sicherstellen, dass die erstellten Inhalte authentisch und frei von Missbrauch sind.
Die Alpha-Version von Gen-3 wird in den kommenden Tagen für alle Nutzer verfügbar sein, was es ermöglicht, das Tool umfassend zu testen und Feedback zu geben.
Zudem werden personalisierte Varianten des Tools angeboten, die in Zusammenarbeit mit Medien- und Entertainment-Unternehmen entwickelt wurden.

Vergleich mit Sora und Kling
Sora und Kling sind zwei der prominentesten Konkurrenten von Gen-3 in der KI-Video-Generation. Beide bieten jeweils einzigartige Stärken und Schwächen:

Sora von OpenAI:
Qualität:
Sora ist bekannt für seine photorealistische Qualität. Es kann feinste Details und subtile Licht- und Schatteneffekte erfassen, die außergewöhnlich realistisch wirken.

Technologie:
Sora verwendet eine Kombination aus GANs (Generative Adversarial Networks) und Reinforcement Learning, um realistische Videos zu erzeugen.
Diese Technologien ermöglichen es Sora, aus einfachen Text-Prompts beeindruckende visuelle Darstellungen zu erstellen.

Verfügbarkeit:
Der Zugang zu Sora ist derzeit stark eingeschränkt, was OpenAI erlaubt, die Technologie sorgfältig zu überwachen und ethische Bedenken zu adressieren.

Kling von Kuaishou:

Realismus und Länge:
Kling legt großen Wert auf Realismus und kann Videos mit einer Länge von bis zu zwei Minuten in 1080p bei 30 Bildern pro Sekunde erstellen.
Dies ermöglicht komplexere und längere narrative Strukturen.

Physik-Engine:
Kling zeichnet sich durch eine tiefgehende Simulation der realen Physik aus, was zu natürlicheren Bewegungen und Interaktionen in den Videos führt.

Verfügbarkeit:
Kling ist über die Kuaishou-, Kwai- und KwaiCut-Apps verfügbar, allerdings hauptsächlich in China.
Es gibt jedoch Wege, wie Nutzer außerhalb Chinas Zugriff erhalten können.

Gemeinsamkeiten:
- Alle drei Tools nutzen fortschrittliche KI-Technologien, um realistische und ansprechende Videos zu erstellen.
- Sie bieten die Möglichkeit, aus einfachen Text-Prompts komplexe visuelle Inhalte zu generieren.
- Jedes Tool hat einzigartige Funktionen und Vorteile, die es für unterschiedliche Zielgruppen und Anwendungsbereiche attraktiv machen.

Unterschiede:
- Qualität und Realismus:
Sora ist führend in der photorealistischen Qualität, während Kling durch die Simulation realer Physik und längere Videos beeindruckt.
Gen-3 bietet ebenfalls realistische Darstellungen, jedoch mit einem Fokus auf kürzere Clips und unabhängige Bewegung von Bildelementen.

- Technologie:
Sora nutzt GANs und Reinforcement Learning, während Kling auf einer tiefen Physik-Engine basiert.
Gen-3 verwendet eine multimodale Trainingsinfrastruktur, um seine Videos zu erstellen.

- Verfügbarkeit:
Gen-3 wird bald für eine breite Nutzerbasis verfügbar sein, während Sora stark eingeschränkt und Kling hauptsächlich in China zugänglich ist.

Fazit

Mit der Veröffentlichung von Gen-3 setzt Runway neue Maßstäbe in der KI-gestützten Videokreation.
Gen-3, Sora und Kling bieten jeweils einzigartige Vorteile und sind führend in der KI-gestützten Videoproduktion.
Die Wahl des richtigen Tools hängt von den spezifischen Anforderungen und dem Anwendungsbereich ab, wobei Gen-3 besonders für kürzere, detaillierte Clips geeignet ist,
Sora für fotorealistische Qualität und Kling für längere und realistische Videos.

Für Beispiele zu Gen-3 Videos schaut euch auch gern das Video auf dem Kanal von AI Samson bzw. die etwas ausführlichere Darstellung auf dem Kanal von Henry Hasselbach auf YouTube an und für weitere Details zu Gen-3 besucht die Homepage von Runway oder lest auch gern nach in den Artikeln auf
onlinemarketing.de oder golem.de .

3. Synthesia 2.0: Revolutionäre AI-Video-Kommunikationsplattform

Synthesia hat die neueste Version ihrer AI-Video-Kommunikationsplattform vorgestellt.
Synthesia 2.0 bringt eine Reihe innovativer Funktionen, die den gesamten Videoerstellungs- und -verteilungsprozess für Unternehmen neu definieren.

Neue Funktionalitäten
Mit Personal AI Avatars können Unternehmen hochauflösende und personalisierte Avatare erstellen.
Diese Avatare bieten verbesserte Lippen-Synchronisation und natürlichere Stimmen, die in über 30 Sprachen verfügbar sind.
Die Erstellung der Avatare kann entweder in einem professionellen Studio oder bequem von zu Hause aus mit einer Webcam erfolgen.
Die neuen Expressive AI Avatars, die durch das EXPRESS-1 Modell angetrieben werden, passen ihre Tonalität, Gesichtsausdrücke und Körpersprache kontextabhängig an.

Der AI Video Assistant verwandelt umfangreiche Wissensdatenbanken in Videobibliotheken.
Nutzer können eine Vorlage auswählen, eine Eingabeaufforderung schreiben oder ein Dokument hochladen, um automatisch ein Videodrehbuch zu generieren.
Zudem können Markenidentitäten wie Schriftarten, Farben und Logos integriert werden.
Ein bald verfügbares Bulk-Videoerstellungstool wird es ermöglichen, hunderte Artikel in Videos umzuwandeln, was besonders nützlich für die Erstellung von Hilfsartikeln ist.

Der AI Screen Recorder vereinfacht die Erstellung von Bildschirmaufnahmen, die in ansprechende Video-Präsentationen umgewandelt werden können.
Diese Präsentationen werden von AI-Avataren moderiert, die automatisch Transkriptionen erstellen und die Stimme anpassen.
Nach der Aufnahme ist das Video sofort für die Bearbeitung verfügbar, einschließlich Zoom-Effekten zur Hervorhebung wichtiger Aktionen.
Nutzer können das Skript bearbeiten, das Video trimmen und ihren eigenen Avatar und ihre Stimme hinzufügen.

Die neuen Videoplayer-Funktionen bieten ein dynamisches und interaktives Erlebnis, das automatisch die Sprache des Zuschauers erkennt und entsprechend anpasst.
Zukünftige Updates werden klickbare Hotspots, eingebettete Formulare, Quizze und personalisierte Call-to-Actions umfassen, um Videos noch ansprechender und interaktiver zu gestalten.

Synthesia zeigt auch ein starkes Engagement für AI-Sicherheit und strebt an, die erste AI-Firma weltweit zu sein,
die die ISO/IEC 42001 Zertifizierung erreicht. Dies stellt sicher, dass Synthesia’s fortschrittliche AI-Fähigkeiten ethisch und rechtlich einwandfrei genutzt werden können.

Zukunft der Video-Kommunikation

Synthesia zielt darauf ab, die Geschäftskommunikation zu revolutionieren und den Übergang zu einer videozentrierten Welt zu erleichtern.
Mit Synthesia 2.0 können Unternehmen ihre gesamte Videoerstellungspipeline von Grund auf neu gestalten und echte Geschäftsergebnisse erzielen.
Die Plattform entwickelt sich weiter zu einer umfassenden Lösung für interaktive und personalisierte Videoerfahrungen, unterstützt durch fortschrittliche KI-Funktionen.

Für mehr Details zu Synthesia 2.0 schaut gern in den Blog von Synthesia
sowie in die Artikel auf deinkikompass sowie StartupsMagazine

4 Google Translate erweitert um 110 neue Sprachen

Google hat angekündigt, dass Google Translate um 110 neue Sprachen erweitert wird.
Dies markiert die größte Erweiterung des Dienstes seit seiner Einführung.
Diese neuen Sprachen werden vom KI-Modell "PaLM 2" unterstützt.

Neue Sprachen und ihre Bedeutung

Zu den neuen Sprachen gehören:

Afar: Gesprochen in Eritrea, Dschibuti und Äthiopien.
Manx: Eine keltische Sprache, die auf der Isle of Man gesprochen wird.
Bretonisch: Eine regionale Sprache in der Bretagne, Frankreich.
Lingala: Weit verbreitet in der Demokratischen Republik Kongo und der Republik Kongo.
Oromo: Gesprochen in Äthiopien und Kenia.
Quechua: Eine indigene Sprache, die in den Andenregionen von Peru, Bolivien, Ecuador und Kolumbien verwendet wird.
Cantonese: Eine der meistgesprochenen Sprachen in China.
Shahmukhi: Ein Dialekt des Punjabi, der vor allem in Pakistan gesprochen wird.
Tok Pisin: Eine Kreolsprache, die in Papua-Neuguinea verwendet wird.

Diese Erweiterung wird insgesamt über 614 Millionen Menschen weltweit unterstützen, die diese Sprachen sprechen.

Zukunftspläne von Google

Google plant, weiterhin neue Sprachen hinzuzufügen und strebt an, im Rahmen der "1,000 Languages Initiative" Übersetzungsunterstützung
für die weltweit 1.000 meistgesprochenen Sprachen zu bieten.
Diese Initiative wird durch die fortschrittliche KI-Technologie von PaLM 2 unterstützt, die das Lernen verwandter Sprachen effizienter macht.

Quellen:
Google Blog
Euronews
Fox Business

5. SpecialGuestX und 1stAveMachine entwickeln de erste KI unterstützte Filmkamera CMR-M1
Die CMR-M1 ist die weltweit erste KI-gesteuerte Filmkamera und markiert einen revolutionären Schritt in der Filmindustrie.
Entwickelt von SpecialGuestX und 1stAveMachine, nutzt diese Kamera Künstliche Intelligenz, um beeindruckende Videoaufnahmen zu erstellen und zu verarbeiten.

KI-Nutzung in der CMR-M1

Die CMR-M1 integriert fortschrittliche KI-Modelle wie Stable Diffusion, um realistische Videos zu erzeugen.
Die aufgenommenen Bilder werden in die Cloud hochgeladen, wo sie mit AI-to-Video- und Video-to-Video-Modellen verarbeitet werden.
Diese KI-Verarbeitung ermöglicht es der Kamera, verschiedene visuelle Stile anzuwenden und beeindruckende visuelle Effekte zu erzeugen.
Die aktuelle Version verarbeitet Videos mit einer Auflösung von 1368x768 bei 12 Bildern pro Sekunde, wobei zukünftige Modelle Echtzeitverarbeitung ermöglichen sollen.

Features und Spezifikationen

Sensor und CPU: Die Kamera ist mit einem FLIR-Sensor und einem Snapdragon-Prozessor ausgestattet.
Stile: Fünf voreingestellte Stable Diffusion Stile, darunter "Blooming Nature" und "Old Money".
Design: Das Design der CMR-M1 lehnt sich an traditionelle Filmkameras an und bietet professionelle Features wie austauschbare Objektive, Zubehörschienen, Matte Box und Stativbasis.
In-Kamera-Bearbeitung: Nutzer können Videos direkt über die Kameraschnittstelle aufnehmen und bearbeiten.

Design und Benutzerfreundlichkeit

Das Design der CMR-M1 kombiniert traditionelle Kameraelemente mit modernen KI-Funktionen.
Eine seitliche Einstellrad ermöglicht es dem Bediener, nahtlos zwischen realen und künstlichen Overlays zu wechseln.
Dies bietet eine intuitive und kreative Benutzererfahrung, die sowohl traditionelle als auch moderne Filmemacher anspricht.

Auswirkungen auf die Filmindustrie

Die Einführung der CMR-M1 könnte die Filmindustrie grundlegend verändern.
Mit der Fähigkeit, realistische und stilisierte Videos durch KI-Integration zu erstellen, eröffnet diese Kamera neue kreative Möglichkeiten.
Sie bietet Filmemachern die Werkzeuge, um innovative visuelle Effekte zu erzielen, die bisher nur mit aufwendiger Nachbearbeitung möglich waren.
Zudem könnte die Möglichkeit der Echtzeit-KI-Verarbeitung zukünftig die Produktionszeiten erheblich verkürzen und die Effizienz steigern.

Die CMR-M1 wird voraussichtlich bei kreativen Prozessen und Experimenten eingesetzt und könnte in naher Zukunft auch für den kommerziellen Markt verfügbar sein.
Diese Kamera wurde erstmals beim Cannes Lions International Festival of Creativity 2024 präsentiert.

Quellen:
Youtube Video auf Kanal von Theoretically Media
Artikel auf perplexity
Artikel auf LittleBlackBook
Artikel auf DigitalCameraWorld

6. Endiatx entwickelt KI Pille zur Untersuchung des menschlichen Körper
Die medizinische Technologie hat einen bedeutenden Fortschritt gemacht mit der Einführung von Endiatx's "PillBot™",
einer schluckbaren Pille, die mit Kameras, Sensoren und Künstlicher Intelligenz (KI) ausgestattet ist, um das Innere des menschlichen Körpers zu untersuchen.

Wie funktioniert Endiatx?

Die von Endiatx entwicklete Pille ist eine motorisierte Kapsel, die geschluckt wird und durch den Magen und den Magen-Darm-Trakt navigiert.
Sie ist mit einer Kamera ausgestattet, die Echtzeitbilder an einen externen Monitor überträgt.
Die Steuerung erfolgt entweder über eine Smartphone-App oder ein spezielles Tablet, das Ärzten ermöglicht, die Kapsel präzise zu manövrieren und detaillierte Aufnahmen zu machen.
Die von der Pille gesammelten Daten werden sicher gespeichert und durch KI-Algorithmen analysiert, um genaue Diagnosen zu ermöglichen.

Entwicklung und Technologie

Die Entwicklung dieser Pille basiert auf fortschrittlichen mikrorobotischen Technologien.
Mit einem patentierten Multi-Pumpjet-Antriebssystem kann sich die Pille in alle Richtungen bewegen, indem sie Flüssigkeit ausstößt.
Dies ermöglicht eine präzise Steuerung und Navigation durch die Magenflüssigkeiten.
Die Kamera liefert hochauflösende Bilder, die von leistungsstarken LEDs beleuchtet werden.
Endiatx plant zudem, die Pille mit zusätzlichen Funktionen wie der Fähigkeit zur Gewebeentnahme und zur Durchführung kleiner chirurgischer Eingriffe auszustatten.

Features und Spezifikationen

Kamera und Beleuchtung: Hochauflösende Kamera mit leistungsstarken LEDs zur Ausleuchtung des Untersuchungsbereichs.
Antriebssystem: Multi-Pumpjet-Antrieb, der eine 360-Grad-Navigation ermöglicht.
Steuerung: Steuerbar über eine Smartphone-App oder ein Tablet.
Datenanalyse: KI-gestützte Analyse der gesammelten Daten zur Unterstützung der Diagnose.
Sicherheit: Sicher gespeicherte Daten und einfache Ausscheidung der Pille nach der Untersuchung.

Kritiken und Herausforderungen

Obwohl die Technologie vielversprechend ist, gibt es auch kritische Stimmen und Herausforderungen.
Einige Experten äußern Bedenken hinsichtlich der Sicherheit und der Genauigkeit der Diagnosen.
Zudem befindet sich die Pille noch im Prozess der FDA-Zulassung, was eine Hürde darstellt, bevor sie breit eingesetzt werden kann.
Trotz dieser Herausforderungen sehen viele Ärzte und Investoren das Potenzial diesr KI Pille, insbesondere da sie invasive Verfahren wie die herkömmliche Koloskopie ersetzen könnte,
die oft unangenehm und zeitaufwendig sind.

Fazit

Die von Endiatx entwickelte KI Pille stellt eine aufregende Entwicklung in der Medizintechnik dar, die die Art und Weise, wie Diagnosen im Magen-Darm-Bereich gestellt werden, verändern könnte.
Mit fortschrittlicher KI und präziser Steuerung bietet diese Technologie eine weniger invasive, effiziente und patientenfreundliche Alternative zu herkömmlichen Methoden.
Während die Technologie noch einige Hürden überwinden muss, zeigt sie großes Potenzial für die Zukunft der medizinischen Diagnostik und Behandlung.

Quellen:
Homepage von Endiatx
Artikel auf VentureBeat
Artikel auf TheIndianExpress

7. Neue Entwicklung: Lebende Haut für Roboter

Forscher der University of Tokyo haben eine revolutionäre Methode entwickelt, um lebende Haut auf Roboter aufzubringen,
was humanoiden Robotern einen realistischeren Tastsinn und Selbstheilungsfähigkeiten verleiht.
Diese Innovation, bekannt als „Perforationsanker-Technik“, nutzt v-förmige Löcher und ein spezielles Kollagengel, um Hautzellen auf der künstlichen Oberfläche zu fixieren.

Historische Herausforderungen und Durchbruch

Bisherige Ansätze, einschließlich der von der ETH Zürich 2022 entwickelten Haut auf Basis von Pilzen, hatten mit Stabilitätsproblemen und ästhetischen Mängeln zu kämpfen.
Traditionelle Methoden führten häufig zu Deformationen und einer unzureichenden Haftung der Haut.
Die ETH Zürich hatte eine Methode entwickelt, bei der Haut auf Robotern durch hervorstehende Anker oder Schrumpfung fixiert wurde, was jedoch nicht die gewünschte Stabilität und Flexibilität bot.

Herstellung und Anwendung der lebenden Haut

Die neue Methode beginnt mit der Behandlung der Ankeroberfläche durch Dampf-Plasma, wodurch sie hydrophiler wird und das Kollagengel besser aufnimmt.
Das Gel härtet aus und verbindet sich stabil mit den Ankern. Dies wurde erfolgreich auf einem 3D-Gesichtsmodell und einem 2D-Roboter getestet,
wobei das Robotergesicht verschiedene Gesichtsausdrücke zeigen konnte, ohne dass die Haut beschädigt wurde.

Potenziale und Anwendungen

Diese Technologie bietet insbesondere für humanoide Robotik vielversprechende Anwendungen, von fortschrittlichen Prothesen bis hin zu Servicerobotern.
Durch die Integration lebender Haut könnten Roboter menschenähnlicher und funktionaler werden, was ihre Einsatzmöglichkeiten erheblich erweitern könnte.

Quellen:
ForschungUndWissen
Gizmodo