De afgelopen twee jaar hebben bijna alle discussies over AI zich geconcentreerd op rekenkracht: niet genoeg GPU's, onvoldoende rekencapaciteit en ondermaatse clusters.Het voelt alsof het opstapelen van meer rekenkracht elk probleem zal oplossen.
Maar dit rapport benadrukt keer op keer één cruciaal punt: Wat AI echt vertraagt, is nooit het onvermogen om te berekenen, maar het onvermogen om gegevens efficiënt te verplaatsen.
Eén statistiek maakt het probleem glashelder: Het lezen van gegevens uit DRAM verbruikt honderden keren meer energie dan uit SRAM.Ondertussen wordt de prestatiekloof tussen processors en geheugen elk jaar met bijna 50% groter.
Een groot deel van de rekenkracht die we in paniek opbouwen, bestaat simpelweg uit het wachten op data. Op dat moment besefte ik iets opvallends: Het kan zijn dat we de hele tijd naar het verkeerde knelpunt voor AI hebben gekeken.
Als het probleem niet de berekening zelf is, maar de scheiding tussen computergebruik en geheugen, dan is het echte antwoord misschien niet sterkere GPU's. Het is om te laten het geheugen zelf deelneemt aan computergebruik. Dat is het echte verhaal dat dit rapport wil vertellen.
Het echte knelpunt van de AI-rekenkracht verschuift van berekeningen naar geheugen, en de oplossing is om berekeningen naar het geheugen te verplaatsen.
AI-berekeningen zijn sterk afhankelijk van enorme MAC-bewerkingen (multiply-accumulate) en zijn extreem gegevensintensief. De klassieke von Neumann-architectuur heeft echter een fatale fout:
Conclusie: AI faalt niet in rekenkracht: het slaagt er niet in om gegevens betaalbaar en snel genoeg te verplaatsen.
De scheiding tussen computergebruik en geheugen dwingt tot een constante gegevensoverdracht, wat twee kritieke problemen veroorzaakt:
Dit is precies wat het rapport het noemt von Neumann Knelpunt.
Er is een duidelijke trend in de sector zichtbaar: Chips evolueren op twee manieren:
Ondertussen is er een revolutionaire richting ontstaan: In-Memory Computing (IMC).
Zijn kernidee: Voer logische bewerkingen, rekenkundige berekeningen en matrixvermenigvuldiging (de kern van AI) rechtstreeks in het geheugen uit.
Fundamentele verschuiving: Geheugen = Opslag → Geheugen = Compute Engine
Het rapport schetst meerdere implementatietrajecten:
1. SRAM / eDRAM (traditioneel pad)
Compute-in-cache, neurale cache
Voordelen: volwassen, hoge snelheid
Limieten: groot gebied, beperkte schaalbaarheid
2. Opkomend geheugen (mainstream-richting)
Inclusief:
MRAM, PCM, ReRAM, FeRAM
Gemeenschappelijk doel: geheugenarrays omzetten in matrix-multiply-accumulate-engines met in-place computing en analoog computing (bijvoorbeeld huidige sommatie voor vectorvermenigvuldiging).
Essentie: geheugenarray = AI-versneller
Maar echte uitdagingen blijven bestaan: precisie en ruis, apparaatvariatie, gewichtsafwijking (vooral in ReRAM) en retentieproblemen. Het pad is haalbaar, maar technisch gezien uiterst uitdagend.
Het rapport benadrukt dat hardware alleen niet voldoende is; algoritmen moeten ook evolueren.
Belangrijkste conclusie: Optimalisatie van de AI-efficiëntie vereist een gezamenlijk ontwerp van architectuur, apparaten en algoritmen.
Het knelpunt van AI verschuift van ‘niet genoeg rekenkracht’ naar ‘niet in staat om gegevens snel genoeg te verplaatsen’. Het antwoord voor chips van de volgende generatie is niet sterkere GPU's, maar geheugen dat zelf kan rekenen.