Seit der Einführung von Tensorprozessoren vor einigen Jahren hat eine neue Entwicklungswelle siliziumspezifischer Architekturen stattgefunden, u. a. Hybrid-CPUs. ARM und Intel bringen jetzt neue Produkte auf den Markt, die speziell für maschinelles Lernen und andere Formen der künstlichen Intelligenz konzipiert sind.
Mitte der 2000er Jahre machte der britisch-kanadische Forscher Geoffrey Hinton, Ur-Ur-Enkel des Logikers George Boole, eine der wichtigsten Entdeckungen in der Geschichte der Informatik: Er fand heraus, wie sich neue Ebenen neuronaler Netzwerke effizient trainieren lassen.[1] Hiltons Theorien ebneten den Weg zum maschinellen Lernen (ML) – der Grundlage der meisten Anwendungen mit künstlicher Intelligenz, die heutzutage genutzt werden.
Bei neuronalen Netzwerken müssen große Mengen zweier wesentlicher Komponenten vorhanden sein: Rechenleistung und Daten.
Zwar gab es bereits seit den 1950er Jahren schon Theorien und Experimente zum Einsatz neuronaler Netzwerke für KI, doch sowohl die Verarbeitungsmöglichkeiten als auch die riesigen Datenmengen, die für echte Anwendungen erforderlich sind, stehen erst seit diesem Jahrhundert zur Verfügung.
Heute verfügen unsere Smartphones über eine millionenfach höhere Verarbeitungsleistung als die Computer, mit denen die NASA den ersten Menschen auf den Mond schickte. Darüber hinaus sammelt das Internet in jeder Sekunde Milliarden von Dateneinheiten aller Art, wo immer Bilder, Text, Videos, Klicks, Tweets usw. auftreten.
Neue Funktionen für ML und KI dank Tensorprozessoren
Da herkömmliche Software neuen KI-Algorithmen weicht, verändern sich dementsprechend natürlich auch die Anforderungen für Technologien zur Computerverarbeitung. Für maschinelles Lernen ist eine spontane „On-the-Fly”-Verarbeitung komplexer mathematischer Modelle erforderlich. Die üblichen Prozessorkerne von Unternehmen wie Intel und ARM sind dafür jedoch nicht geschaffen.
Der Erfolg von ML und die Nachfrage nach KI in vielen unterschiedlichen Bereichen hat, wenn man so will, den Startschuss für ein Wettrennen um die Entwicklung des KI-Chips der nächsten Generation gegeben.
Anfänglich wurde diese Lücke von NVIDIA gefüllt: Das Unternehmen griff auf sein Know-how im Bereich der Hardware für Videospiele zurück, um die Algorithmen hinter der Grafikverarbeitung für die neuen Anforderungen der KI zu nutzen. Zwischen 2016 und 2018 wurde NVIDIA zum führenden Akteur auf dem Chip-Markt für jegliche Technologien – vom maschinellen Lernen bis zum Crypto-Mining. Entsprechend stieg dann auch der Aktienpreis des Unternehmens um das Zehnfache.
Unternehmen wie Microsoft, die eine Produktion eigener Chips lange vermieden haben, investieren mittlerweile ebenfalls stark in diesen Bereich. Auch Intel ist ins Rennen eingestiegen und arbeitet mit Facebook zusammen, um sein erstes Silizium speziell für KI im Betrieb zu testen.[2]
2016 kündigte Google eine neue Prozessorarchitektur für Deep-Learning-Inferenz an, die als „Tensor Processing Unit” (TPU, zu Dt.: Tensor-Verarbeitungseinheit) bezeichnet wird.[3] Von Beginn an war es die Aufgabe der TPUs von Google, die Genauigkeit von Mapping-Anwendungen, wie beispielsweise Google Maps und Street View, zu verbessern.
Die zweite und dritte Generation der TPUs wurde von Google im Mai 2017 und im Mai 2018 angekündigt. Das Design der zweiten Generation erweiterte die Bandbreite auf 600 GB/s und die Leistung auf 45 TeraFLOPS. Die dritte Generation verdoppelte die Leistung der vorherigen Generation sogar noch.
Im Juli 2018 kündete Google dann die Edge TPU an, einen zweckgerichteten ASIC-Chip zur Ausführung von ML-Modellen für das Edge-Computing.[4]
Heute nutzen NVIDIA und andere Anbieter von KI-Chips diese TPUs in Kombination mit ihrer eigenen Technologie, um Systems-on-a-Chip (SoCs) zu produzieren, die bei unterschiedlichen Anwendungen, einschließlich autonomem Fahren und Gesichtserkennung, einsetzbar sind. NVIDIA verkauft zudem die leistungsstarke ML-Plattform Jetson für nicht mobile Geräte, die eine hohe Leistungsfähigkeit des neuronalen Netzwerks bei einem bestimmten Leistungsbedarf benötigen.[5]
Vor Kurzen hat NVIDIA sein neues Produkt „Grace”[6]. Dabei handelt es sich um ein neues Chipdesign, das nach der US-amerikanischen Computerpionierin Grace Hopper benannt wurde und im Jahr 2023 in riesigen Supercomputer-Systemen verfügbar sein soll. Diese neue Architektur, die überwiegend auf Technologie von ARM zurückgreift, wird es ermöglichen, komplexe KI-Rechenaufgaben auszuführen, die mit den Chipdesigns von heute nicht möglich sind, und die Computer so einen Schritt weiter in Richtung allgemeine künstliche Intelligenz führen.
Entwicklung neuer neuronaler Netzwerkarchitekturen durch ARM
In den vergangenen Jahren hat ARM, das für seine beliebte Cortex-Architektur bekannt ist, eine neue Generation von Neural Processing Units (NPUs, zu Dt.: neuronale Verarbeitungseinheiten) entwickelt: die Ethos NPU-Serie[7]. Die Ethos-Serie wurde für den Einsatz in Verbindung mit Cortex-Kernen konzipiert. Diese Kombination führt zu verbesserter Leistung und Energieeffizienz gegenüber herkömmlichen NPUs und ermöglicht so die Entwicklung kostengünstiger und gleichzeitig leistungsstarker ML-fähiger Edge-Produkte.
Der Vorteil der ARM-Technologie zeigt sich in einer besseren Leistung bei Low-Power-Anwendungen und zielt dabei speziell auf den Internet-of-Things-Markt ab. Die Technologie ist speziell auf die Integration in SoCs mit Low-Power-Design ausgelegt, die in Millionen von vernetzten Geräten verwendet werden.
Die Ethos-Prozessorkerne können die durch maschinelles Lernen trainierten Algorithmen, die in der Cloud entwickelt wurden, nutzen und so Anwendungen am Edge für sofortige Ergebnisse ausführen. Die Kerne wurden zwar ursprünglich nicht für komplexe ML-Trainings entwickelt, doch ihre Leistung kann mit einigen ihrer größeren Wettbewerber bei Edge-Computing-Aufgaben mithalten – bei nur einem Bruchteil der Kosten und des Energieverbrauchs.
Laut ARM ist die 512-GOPS-Implementierung des Ethos-U65 bei 1 GHz in der Lage, Objekte in weniger als 3 Millisekunden zu erkennen, wenn das beliebte Deep Neural Network MobileNet V2 ausgeführt wird.[8]
NXP Semiconductors verwendet derzeit die Ethos-U65 microNPU zusammen mit dem Cortex-M-Kern und On-Chip-SRAM, die bereits bei der i.MX-Familie von NXP vorhanden sind.[9]
Neben der Ethos U-Serie entwickelt ARM auch die Ethos N-Serie[10], die auf Mainstream-Verbraucherprodukte wie Smartphones, Infotainment in Fahrzeugen und digitale Fernseher ausgerichtet ist. Die Ethos N-Serie wird derzeit in vernetzten Fahrzeugen eingesetzt, um neue intelligente Funktionen wie Zugriffskontrolle, Fahreraufmerksamkeit oder Spracherkennung, die alle das Fahren sicherer machen sollen, bereitzustellen.
Bei Smartphones eignet sich die Ethos N-Serie dazu, die Verarbeitungskapazitäten von CPUs auf der Platine mit Funktionen, wie z. B. Augmented Reality-, Virtual Reality- und ML-Fähigkeiten, zu erweitern.
Quantencomputing wird die nächste Generation der KI-Lösungen vorantreiben
„Physiker sprechen seit mehr als 30 Jahren über die Macht des Quantencomputing, doch die Fragen dabei waren immer: Wird sich damit je etwas Nützliches erreichen lassen, und ist es etwas, in das es sich zu investieren lohnt?”, stellt John Martinis, leitender Wissenschaftler der Abteilung Quantum Computing Hardware bei Google.[11]
Seit mehr als drei Jahren arbeitet Volkswagen gemeinsam mit Google an einer Nutzung des Quantencomputing bei verschiedenen Anwendungen. Dazu zählt auch die Beschleunigung der Zeit, die für das Training neuronaler Netzwerke aufgewandt wird – eine der wesentlichen Technologien für selbstfahrende Autos.[12]
„Es gibt viele Anforderungen an das Hochleistungs-Computing, die auf uns zukommen”, erklärt Martin Hofmann, CIO bei Volkswagen. „Die Frage ist ja, ob es bessere Wege gibt, um dies umzusetzen.”
Nach Aussage von IBM „hat der Zugang zu den begrenzten Quantencomputern von heute Forschern auf der ganzen Welt bereits Vorteile verschafft, indem er einen noch nie dagewesenen Einblick in die inneren Mechanismen der Gesetze, welche die Natur bestimmen, sowie eine neue Perspektive, mit der Probleme in der Chemie, Simulation, Optimierung, künstlichen Intelligenz und anderen Bereichen angegangen werden können, bietet.”[13]
Zwar ist es noch zu früh, um die Leistung des Quantencomputing in den meisten Anwendungen tatsächlich umzusetzen, doch die in Experimenten erhaltenen Ergebnisse sind jedenfalls schon beeindruckend. Der neue „Sycamore”-Prozessor[14] mit 54 Qubit von Google benötigte 200 Sekunden, um ein Experiment zur Quantenüberlegenheit abzuschließen, bei dem der weltweit schnellste Supercomputer 10.000 Jahre für eine vergleichbare Ausgabe brauchen würde.
„Wir schätzen, dass auf Google Cloud-Servern die Durchführung derselben Aufgabe bei m = 20 mit einer Fidelität von 0,1 % mithilfe des Schrödinger-Feynman-Algorithmus 50 Billionen Kernstunden benötigen und eine Petawattstunde Energie verbrauchen würde.”[15]
Auf dem Weg in Richtung künstliche allgemeine Intelligenz
Die Implementierung dieser Technologien hat mehr getan als nur die Ermöglichung von KI und ML. Sie hat auch den Glauben daran geschaffen, dass wir nah dran sind, etwas zu erreichen, das als der heilige Gral der KI-Forschung angesehen wird: künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI). Damit sind unter anderem Maschinen gemeint, die für sich selbst denken und intellektuelle Aufgaben durch Nachahmung von Menschen ausführen können.
Leistungsstarke Prozessoren wie Grace von NVIDIA und Sycamore von Google in Kombination mit neuen Algorithmen und riesigen Mengen neuer Daten führen die Welt in ein neues Zeitalter der KI.
[1] http://www.cs.toronto.edu/~hinton/absps/cbpweb.pdf
[2] https://finance.yahoo.com/news/intel-working-facebook-ai-chip-013746099.html
[3] https://cloud.google.com/blog/products/gcp/google-supercharges-machine-learning-tasks-with-custom-chip
[4] https://coral.ai/docs/edgetpu/benchmarks/
[5] https://www.forbes.com/sites/patrickmoorhead/2017/03/15/nvidia-introduces-jetson-tx2-for-edge-machine-learning-with-high-quality-customers/
[6] https://nvidianews.nvidia.com/news/nvidia-announces-cpu-for-giant-ai-and-high-performance-computing-workloads
[7] https://www.arm.com/solutions/artificial-intelligence
[8] https://developer.arm.com/ip-products/processors/machine-learning/arm-ethos-u/ethos-u65
[9] https://www.nxp.com/company/blog/why-the-arm-ethos-u65-micronpu-is-a-big-deal-and-how-it-came-to-be-this-way:BL-ARM-ETHOS-U65-MICRONPU
[10] https://www.arm.com/products/silicon-ip-cpu/ethos/ethos-n57
[11] https://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html
[12] https://blogs.wsj.com/cio/2017/11/07/vw-expands-its-quantum-computing-research-with-google/
[13] https://www.ibm.com/blogs/research/2021/04/quantum-accelerate-discoveries/
[14] „Sycamore (Prozessor) – Wikipedia.” https://en.wikipedia.org/wiki/Sycamore_processor.
[15] Arute, F., Arya, K., Babbush, R. et al.: Quantum supremacy using a programmable superconducting processor. In: Nature. Band 574, 2019, S. 505–510. https://doi.org/10.1038/s41586-019-1666-5