Analytici ze společnosti Bernstein upozornili na zásadní rozdíly v potřebách paměti pro trénování a provozování AI modelů. Podle těchto informací, trénování modelů vyžaduje podstatně více paměti než proces inference, neboť je třeba ukládat nejen modelová váhy, ale také aktivace, gradienty a stav optimalizátorů.
Konkrétně se uvádí, že i středně velký model může během trénování vyžadovat přibližně 1 TB kombinované paměti. Naopak, inference se obejde s mnohem menšími nároky na paměť, což se týká pouze dočasných tensorů a komponent jako KV cache.
Už nyní je evidentní, že hyperscale společnosti byly zaskočeny rychlým nárůstem poptávky po AI, což vedlo k výraznému zvyšování cen paměti a komponentů, jako jsou HBM a DRAM. Tato nerovnováha na trhu podpořila nárůst nákladů a společnosti se snaží přizpůsobit pomocí modernizace architektur modelů a nových kvantizačních technik.
Dále, nedostatek pevných disků tlačí provozovatele na přechod na SSD, které jsou pět až desetkrát dražší, ale nabízejí výhody jako nižší provozní náklady a menší spotřebu energie. Mezi články zmíněnými firmou Bernstein se také uvádí, že specializované TPU poskytují nižší celkové náklady na vlastnictví a vyšší výkon na watt, avšak GPU zůstávají populární pro rychlé prototypování díky své vyvinuté ekosystému.