HuisNieuwsHet echte knelpunt van AI is niet de rekenkracht, maar de databeweging: in-memory computing wordt de oplossing

Het echte knelpunt van AI is niet de rekenkracht, maar de databeweging: in-memory computing wordt de oplossing

Het echte knelpunt van AI is niet de rekenkracht, maar de databeweging: in-memory computing wordt de oplossing


De afgelopen twee jaar hebben bijna alle discussies over AI zich geconcentreerd op rekenkracht: niet genoeg GPU's, onvoldoende rekencapaciteit en ondermaatse clusters.Het voelt alsof het opstapelen van meer rekenkracht elk probleem zal oplossen.

Maar dit rapport benadrukt keer op keer één cruciaal punt: Wat AI echt vertraagt, is nooit het onvermogen om te berekenen, maar het onvermogen om gegevens efficiënt te verplaatsen.

Eén statistiek maakt het probleem glashelder: Het lezen van gegevens uit DRAM verbruikt honderden keren meer energie dan uit SRAM.Ondertussen wordt de prestatiekloof tussen processors en geheugen elk jaar met bijna 50% groter.

Een groot deel van de rekenkracht die we in paniek opbouwen, bestaat simpelweg uit het wachten op data. Op dat moment besefte ik iets opvallends: Het kan zijn dat we de hele tijd naar het verkeerde knelpunt voor AI hebben gekeken.

Als het probleem niet de berekening zelf is, maar de scheiding tussen computergebruik en geheugen, dan is het echte antwoord misschien niet sterkere GPU's. Het is om te laten het geheugen zelf deelneemt aan computergebruik. Dat is het echte verhaal dat dit rapport wil vertellen.

Kernboodschap van het rapport

Het echte knelpunt van de AI-rekenkracht verschuift van berekeningen naar geheugen, en de oplossing is om berekeningen naar het geheugen te verplaatsen.

Het echte probleem: de efficiëntie van AI wordt beperkt door dataverkeer

AI-berekeningen zijn sterk afhankelijk van enorme MAC-bewerkingen (multiply-accumulate) en zijn extreem gegevensintensief. De klassieke von Neumann-architectuur heeft echter een fatale fout:

  • De prestatiekloof tussen processors en DRAM wordt steeds groter (ongeveer 50% per jaar)
  • De energiekosten voor geheugentoegang zijn veel hoger dan de berekening zelf (DRAM-leesenergie ≈ 100× die van SRAM)

Conclusie: AI faalt niet in rekenkracht: het slaagt er niet in om gegevens betaalbaar en snel genoeg te verplaatsen.

Kerntegenstelling: het von Neumann-knelpunt

De scheiding tussen computergebruik en geheugen dwingt tot een constante gegevensoverdracht, wat twee kritieke problemen veroorzaakt:

  • Hoge latentie
  • Exploderend energieverbruik

Dit is precies wat het rapport het noemt von Neumann Knelpunt.

Belangrijkste trend: geheugen wordt het nieuwe computercentrum

Er is een duidelijke trend in de sector zichtbaar: Chips evolueren op twee manieren:

  • On-chip-geheugen (SRAM) blijft zich uitbreiden
  • De geheugenbandbreedte blijft toenemen

Ondertussen is er een revolutionaire richting ontstaan: In-Memory Computing (IMC).

Zijn kernidee: Voer logische bewerkingen, rekenkundige berekeningen en matrixvermenigvuldiging (de kern van AI) rechtstreeks in het geheugen uit.

Fundamentele verschuiving: Geheugen = Opslag → Geheugen = Compute Engine

Technische paden: van SRAM tot opkomende herinneringen

Het rapport schetst meerdere implementatietrajecten:

1. SRAM / eDRAM (traditioneel pad)
Compute-in-cache, neurale cache
Voordelen: volwassen, hoge snelheid
Limieten: groot gebied, beperkte schaalbaarheid

2. Opkomend geheugen (mainstream-richting)
Inclusief: MRAM, PCM, ReRAM, FeRAM

Gemeenschappelijk doel: geheugenarrays omzetten in matrix-multiply-accumulate-engines met in-place computing en analoog computing (bijvoorbeeld huidige sommatie voor vectorvermenigvuldiging).

Essentie: geheugenarray = AI-versneller

Maar echte uitdagingen blijven bestaan: precisie en ruis, apparaatvariatie, gewichtsafwijking (vooral in ReRAM) en retentieproblemen. Het pad is haalbaar, maar technisch gezien uiterst uitdagend.

Systeemoplossing: co-optimalisatie van hardware-algoritmen

Het rapport benadrukt dat hardware alleen niet voldoende is; algoritmen moeten ook evolueren.

  • Modelcompressie: snoeien, schaarsheid, ontbinding op lage rang
  • Computergebruik met lage precisie: binaire neurale netwerken met een vast punt
  • Hardwarebewuste training: STE, bit-slice-sparsity

Belangrijkste conclusie: Optimalisatie van de AI-efficiëntie vereist een gezamenlijk ontwerp van architectuur, apparaten en algoritmen.

Eindconclusie

  1. Geheugen op de chip is de kernbron van AI-systemen geworden
  2. Opkomende herinneringen zorgen ervoor dat geheugen-computatie de mainstream richting wordt
  3. AI-chips van de volgende generatie vereisen cross-layer co-design van apparaten tot algoritmen

Samenvatting

Het knelpunt van AI verschuift van ‘niet genoeg rekenkracht’ naar ‘niet in staat om gegevens snel genoeg te verplaatsen’. Het antwoord voor chips van de volgende generatie is niet sterkere GPU's, maar geheugen dat zelf kan rekenen.