Am 1. September 2020 stellte NVIDIA seine neue Reihe von Gaming-GPUs vor: die RTX 3000-Serie, die auf ihrer Ampere-Architektur basiert. Wir werden diskutieren, was neu ist, welche KI-Software mitgeliefert wird und welche Details diese Generation wirklich großartig machen.
Lernen Sie die GPUs der RTX 3000-Serie kennen
Die Hauptankündigung von NVIDIA waren die glänzenden neuen GPUs, die alle auf einem benutzerdefinierten 8-nm-Herstellungsprozess basieren und sowohl bei der Rasterung als auch bei der Rasterung erhebliche Beschleunigungen bringen Raytracing Performance.
Am unteren Ende der Aufstellung befindet sich die RTX 3070 , die bei 499 $ kommt. Es ist ein bisschen teuer für die billigste Karte, die NVIDIA bei der ersten Ankündigung vorgestellt hat, aber es ist ein absolutes Schnäppchen, wenn Sie erfahren, dass sie die vorhandene RTX 2080 Ti übertrifft, eine erstklassige Karte, die regelmäßig für über 1400 US-Dollar im Einzelhandel erhältlich ist. Nach der Ankündigung von NVIDIA fiel der Preis für den Verkauf durch Dritte jedoch, und eine große Anzahl von ihnen wurde bei eBay für weniger als 600 US-Dollar in Panik verkauft.
Zum Zeitpunkt der Ankündigung gibt es keine soliden Benchmarks. Es ist daher unklar, ob es sich um eine Karte handelt Ja wirklich objektiv „besser“ als ein 2080 Ti oder wenn NVIDIA das Marketing ein wenig verdreht. Die Benchmarks, die ausgeführt wurden, lagen bei 4K und hatten wahrscheinlich RTX aktiviert, was die Lücke möglicherweise größer erscheinen lässt als bei rein gerasterten Spielen, da die auf Ampere basierende 3000-Serie beim Raytracing mehr als doppelt so gut abschneidet wie Turing. Da Raytracing jetzt die Leistung nicht wesentlich beeinträchtigt und in der neuesten Konsolengeneration unterstützt wird, ist es ein wichtiges Verkaufsargument, dass es für fast ein Drittel des Preises so schnell läuft wie das Flaggschiff der letzten Generation.
Es ist auch unklar, ob der Preis so bleibt. Designs von Drittanbietern erhöhen den Preis regelmäßig um mindestens 50 US-Dollar. Angesichts der hohen Nachfrage ist es nicht verwunderlich, dass sie im Oktober 2020 für 600 US-Dollar verkauft werden.
Gleich darüber ist das RTX 3080 bei 699 US-Dollar, was doppelt so schnell sein sollte wie beim RTX 2080 und etwa 25 bis 30% schneller als beim 3080.
Am oberen Ende ist das neue Flaggschiff das RTX 3090 , das ist komisch riesig. NVIDIA ist sich dessen bewusst und wird als "BFGPU" bezeichnet, was nach Angaben des Unternehmens für "Big Ferocious GPU" steht.
NVIDIA zeigte keine direkten Leistungskennzahlen an, aber das Unternehmen zeigte, dass sie ausgeführt werden 8 TAUSEND Spiele mit 60 FPS, was sehr beeindruckend ist. Zugegeben, NVIDIA verwendet mit ziemlicher Sicherheit DLSS um diese Marke zu treffen, aber 8K-Gaming ist 8K-Gaming.
Natürlich wird es irgendwann eine 3060 und andere Varianten von budgetorientierteren Karten geben, aber diese kommen normalerweise später.
Um die Dinge tatsächlich zu kühlen, benötigte NVIDIA ein überarbeitetes Kühlerdesign. Der 3080 ist für 320 Watt ausgelegt, was ziemlich hoch ist. Daher hat sich NVIDIA für ein Design mit zwei Lüftern entschieden. Statt beider Lüfter vwinf auf der Unterseite hat NVIDIA einen Lüfter am oberen Ende angebracht, wo normalerweise die Rückplatte angebracht ist. Der Lüfter leitet die Luft nach oben zum CPU-Kühler und zur Oberseite des Gehäuses.
Gemessen daran, wie viel Leistung in einem Fall durch einen schlechten Luftstrom beeinträchtigt werden kann, ist dies durchaus sinnvoll. Die Leiterplatte ist jedoch aufgrund dessen sehr eng, was sich wahrscheinlich auf die Verkaufspreise von Drittanbietern auswirken wird.
DLSS: Ein Software-Vorteil
Raytracing ist nicht der einzige Vorteil dieser neuen Karten. Wirklich, es ist alles ein bisschen hacken - die RTX 2000-Serie und die 3000-Serie sind es nicht Das Im Vergleich zu älteren Kartengenerationen ist die tatsächliche Raytracing-Funktion viel besser. Das Verfolgen einer vollständigen Szene in einer 3D-Software wie Blender dauert normalerweise einige Sekunden oder sogar Minuten pro Bild, sodass ein Brute-Forcing in weniger als 10 Millisekunden nicht in Frage kommt.
Natürlich gibt es spezielle Hardware für die Ausführung von Strahlenberechnungen, die als RT-Kerne bezeichnet werden, aber NVIDIA entschied sich größtenteils für einen anderen Ansatz. NVIDIA hat die Entrauschungsalgorithmen verbessert, die es den GPUs ermöglichen, einen sehr billigen Single-Pass zu rendern, der schrecklich aussieht, und das - durch KI-Magie - irgendwie zu etwas zu machen, das ein Spieler sehen möchte. In Kombination mit traditionellen rasterbasierten Techniken sorgt dies für ein angenehmes Erlebnis, das durch Raytracing-Effekte verstärkt wird.
Um dies jedoch schnell zu erledigen, hat NVIDIA AI-spezifische Prozessorkerne hinzugefügt, die als Tensorkerne bezeichnet werden. Diese verarbeiten die gesamte Mathematik, die zum Ausführen von Modellen für maschinelles Lernen erforderlich ist, und zwar sehr schnell. Sie sind insgesamt Game-Changer für KI im Cloud-Server-Bereich , da KI von vielen Unternehmen ausgiebig genutzt wird.
Über das Entrauschen hinaus wird die Hauptverwendung der Tensorkerne für Gamer als DLSS oder Deep Learning Super Sampling bezeichnet. Es nimmt einen Rahmen von geringer Qualität auf und skaliert ihn auf native Qualität. Dies bedeutet im Wesentlichen, dass Sie mit 1080p-Frameraten spielen können, während Sie ein 4K-Bild betrachten.
Dies hilft auch bei der Raytracing-Leistung erheblich - Benchmarks von PCMag zeigen einen RTX 2080 Super Running Steuerung bei höchster Qualität, wobei alle Raytracing-Einstellungen auf max. Bei 4K hat es Probleme mit nur 19 FPS, aber mit aktiviertem DLSS werden 54 FPS viel besser. DLSS ist eine kostenlose Leistung für NVIDIA, die durch die Tensorkerne auf Turing und Ampere ermöglicht wird. Jedes Spiel, das es unterstützt und auf die GPU beschränkt ist, kann allein aufgrund der Software ernsthafte Beschleunigungen feststellen.
DLSS ist nicht neu und wurde als Feature angekündigt, als die RTX 2000-Serie vor zwei Jahren auf den Markt kam. Zu dieser Zeit wurde es von sehr wenigen Spielen unterstützt, da NVIDIA für jedes einzelne Spiel ein Modell für maschinelles Lernen trainieren und optimieren musste.
In dieser Zeit hat NVIDIA es jedoch komplett neu geschrieben und die neue Version DLSS 2.0 aufgerufen. Es handelt sich um eine Allzweck-API, die von jedem Entwickler implementiert werden kann. Sie wird bereits von den meisten Hauptversionen übernommen. Anstatt an einem Frame zu arbeiten, werden ähnlich wie bei TAA Bewegungsvektordaten aus dem vorherigen Frame aufgenommen. Das Ergebnis ist viel schärfer als DLSS 1.0 und sieht in einigen Fällen tatsächlich so aus besser und schärfer als die native Auflösung, daher gibt es nicht viel Grund, sie nicht einzuschalten.
Es gibt einen Haken: Wenn Sie Szenen wie in Zwischensequenzen vollständig wechseln, muss DLSS 2.0 das erste Bild mit 50% Qualität rendern, während Sie auf die Bewegungsvektordaten warten. Dies kann für einige Millisekunden zu einem winzigen Qualitätsverlust führen. Aber 99% von allem, was Sie sich ansehen, werden richtig gerendert, und die meisten Leute bemerken es in der Praxis nicht.
VERBUNDEN: Was ist NVIDIA DLSS und wie wird Ray Tracing schneller?
Ampere-Architektur: Gebaut für KI
Ampere ist schnell. Ernsthaft schnell, besonders bei KI-Berechnungen. Der RT-Kern ist 1,7-mal schneller als Turing und der neue Tensor-Kern ist 2,7-mal schneller als Turing. Die Kombination der beiden ist ein echter Generationssprung in der Raytracing-Leistung.
Anfang Mai NVIDIA hat die Ampere A100 GPU veröffentlicht , eine Rechenzentrums-GPU für die Ausführung von KI. Damit haben sie viel detailliert beschrieben, was Ampere so viel schneller macht. Für Workloads in Rechenzentren und Hochleistungsrechnern ist Ampere im Allgemeinen etwa 1,7-mal schneller als Turing. Für das KI-Training ist es bis zu sechsmal schneller.
Mit Ampere verwendet NVIDIA ein neues Zahlenformat, das in einigen Workloads den Industriestandard „Floating-Point 32“ oder FP32 ersetzen soll. Unter der Haube nimmt jede Zahl, die Ihr Computer verarbeitet, eine vordefinierte Anzahl von Bits im Speicher ein, unabhängig davon, ob dies 8 Bits, 16 Bits, 32, 64 oder sogar mehr sind. Größere Zahlen sind schwieriger zu verarbeiten. Wenn Sie also eine kleinere Größe verwenden können, müssen Sie weniger knirschen.
FP32 speichert eine 32-Bit-Dezimalzahl und verwendet 8 Bit für den Bereich der Zahl (wie groß oder klein sie sein kann) und 23 Bit für die Genauigkeit. NVIDIA behauptet, dass diese 23 Präzisionsbits für viele KI-Workloads nicht unbedingt erforderlich sind und dass Sie mit nur 10 davon ähnliche Ergebnisse und eine viel bessere Leistung erzielen können. Die Reduzierung der Größe auf nur 19 statt 32 Bit macht bei vielen Berechnungen einen großen Unterschied.
Dieses neue Format heißt Tensor Float 32, und die Tensorkerne im A100 sind für das seltsam große Format optimiert. Dies ist zusätzlich zu den Schrumpfungen und der Erhöhung der Kernanzahl, wie sie die massive 6-fache Beschleunigung im KI-Training erreichen.
Zusätzlich zum neuen Zahlenformat sieht Ampere bei bestimmten Berechnungen wie FP32 und FP64 erhebliche Leistungssteigerungen. Diese führen nicht direkt zu mehr FPS für den Laien, aber sie sind Teil dessen, was es bei Tensor-Operationen insgesamt fast dreimal schneller macht.
Um die Berechnungen noch weiter zu beschleunigen, haben sie das Konzept von eingeführt feinkörnige strukturierte Sparsamkeit , was ein sehr ausgefallenes Wort für ein ziemlich einfaches Konzept ist. Neuronale Netze arbeiten mit großen Listen von Zahlen, die als Gewichte bezeichnet werden und die endgültige Ausgabe beeinflussen. Je mehr Zahlen zu knacken sind, desto langsamer wird es.
Allerdings sind nicht alle diese Zahlen tatsächlich nützlich. Einige von ihnen sind buchstäblich nur Null und können im Grunde genommen weggeworfen werden, was zu massiven Beschleunigungen führt, wenn Sie mehr Zahlen gleichzeitig knacken können. Durch Sparsity werden die Zahlen im Wesentlichen komprimiert, was weniger Aufwand für die Berechnung erfordert. Der neue „Sparse Tensor Core“ wurde für komprimierte Daten entwickelt.
Trotz der Änderungen sagt NVIDIA, dass dies die Genauigkeit trainierter Modelle überhaupt nicht merklich beeinträchtigen sollte.
Für Sparse INT8-Berechnungen, eines der kleinsten Zahlenformate, liegt die Spitzenleistung einer einzelnen A100-GPU bei über 1,25 PetaFLOPs, eine erstaunlich hohe Zahl. Das ist natürlich nur möglich, wenn Sie eine bestimmte Art von Zahl eingeben, aber es ist trotzdem beeindruckend.