risen.eth
2.5K subscribers
48 photos
74 links
Download Telegram
Ключевые наблюдения за Q1 2025 - Q1 2026 :
[ ТАБЛИЦЫ ]

•Мировой объем используемых токенов за квартал вырос на 660%
•Средневзвешенная цена 1M/токенов упала на 60%
•Enterprise использование LLM увеличилось с 5B$ за квартал до 15B$ за квартал
•Сегмент ИИ агентов увеличился с 0.37B$ - >1,42B$ за квартал
•COGC маржинальность с Q1 2024 г. увеличилась с 30% - > 65%

Мировые расходы на токены за 2025 г. = $110-130B / yr
AI capex Big Tech 2025 = $364B / yr
AI capex / AI revenue ratio 2025 = 1/4


Внутри документа:
Total Token Volume
Token Volume by Segment
Revenue by Segment
Revenue by AI Lab
Revenue vs COGS
Blended Price
7
Симуляция Revenue рынка ИИ-токенов к 2030г. + масштаба дата-центров [ GW ]


Уменьшение Цена / Токен:
2023 - 2024 [ -x3 ]
2024 - 2025 [ -x3 ]
2025 - 2026 [ -x2.5 ]
——————————————————————

Рост общего спроса на токены:
2024 - 2025 [ ~x8 ]
2025 - 2026 [ ~x7 ]

Google увеличили потребление токенов в 50 раз за год [ 2025г. / Май ] - связано с использованием в внутренних продуктов
Microsoft увеличили потребление токенов в 5 раз за год [ 2025г. / Апрель ]
OpenAI увеличили потребление токенов в 8 раз за год [ 2025 г.. / Декабрь ]
OpenAI увеличили потребление токенов в Reasoning - моделях в 320 раз за год [ 2025 г.. / Декабрь ]


——————————————————————

Рост сложности вычислений на токен в разных моделях:
Обычный chat -x1 [ GPT 5.4 - 15$ ]
Продвинутый чат - x12 [ GPT 5.5 - 180$ ]
Reasoning Model c длинным контекстом - x18 [ GPT 5.5 pro - 270$]
AI Agent tokens - x25 [ Claude ] / x1000 [ Huang ]


Microsoft CEO : Агенты добавляют второй множитель сверху/ Reasoning — это «думает один раз дольше». Агент — это «думает много раз + использует tools». - > потенциальное увеличение спроса на токены в тысячи раз.

Средневзвешенная "цена за токен" в долларах падает медленнее, чем удельная стоимость генерации одного токена, потому что средний токен становится "тяжелее"

——————————————————————

Оптимизация эффективности J / token
( учтена оптимизация не только на уровне GPU - но и на уровне софта и иных решений ) :

Hopper H100 [ 2022 г. ] - 10 J/token
Blackwell GB200 [ 2024 г. ] -1 J / token [ x10 ]
Rubin J100 [ 2026 г. ] - 0.1 J / token [ x10 ]

NVIDIA после Rubin планирует выпуск новой архитектуры чипа каждый год.
Текущие 10–50× за поколение у NVIDIA - это эра, эквивалентная закону Деннарду в CPU 1990-х.
Когда «лёгкие выигрыши» исчерпаются (вероятно, 2030–2035), темп замедлится с 10× за поколение до 1,4–2× - как у CPU после 2005 г.

GPU в дата-центрах только 40% затрат на энергию и GWT / остальные 60% затраты на обеспечение дата-центра.


——————————————————————

Текущие вводные за 2026г. для симуляции сценария:
Revenue от ИИ токенов: 200B$ / год
Rubin J100 : 0.1 J / token
GWT под дата-центры 30 GWT [ из них 40% на GPU конкретно ]


Сценарий за 2030г.:
Большая часть токенов = reasoning / AI Agents модели [ рост доли их использования ]
Уменьшение PRICE / per Token: -x81
Рост спроса Tokens : x625
Рост сложности вычислений: x10
Оптимизация эффективности watt / token : 1000x

Итог:
Revenue ~ 1.54T$ / год
Цена за 1M tokens ~ 0.00065$
GPU мощность - 75 GW / Полная мощность ДЦ - 187 GW

Прогноз Goldman Sachs для AI к 2030 ~ 160 GW
Прогноз McKinsey для AI к 2030 ~220 GW
*оба прогноза близки к моей симуляции

Прогноз OpenAI по выручке к 2030 г. :280B$
[ в целом, если OpenAI будет владеть 20% общего объема рынка - то мой прогноз соответсвтует ]
4🎉1
risen.eth
Симуляция Revenue рынка ИИ-токенов к 2030г. + масштаба дата-центров [ GW ] Уменьшение Цена / Токен: 2023 - 2024 [ -x3 ] 2024 - 2025 [ -x3 ] 2025 - 2026 [ -x2.5 ] —————————————————————— Рост общего спроса на токены: 2024 - 2025 [ ~x8 ] 2025 …
Подход № 2

Total Addressable Market рынка для LLM ИИ - > интеллектуальный труд человечества [ ~ 50T$ ]
Текущий объем рынка токенов = 200B$ / год

Хуанг: Я буду удивлен, если мой инженер с зарплатой в 500 000$ в NVIDIA не будет потреблять > 250 000$ токенов в год
Хуанг: Я уверен, что доля ВВП, которая идет на compute сейчас будет в 100 раз больше [ 200B$ - > 20T$ / year ]

Предположим, что из 200B$ - 150B$, приходится на USA:
USA ВВП - 30T$ / текущий уровень = 0,5% ВВП
World ВВП - 100T$ / текущий уровень = 0,15% ВВП

Потребление энергии в США [ energy bills - без учета инфраструктуры ] = 2T$ = 7% от ВВП
Потребление энергии в мире [ energy bills - без учета инфраструктуры ] = 10T$ = 10% от ВВП

Итоговая текущая разница в затратах на энергию в $ и затратах на токены интеллекта в $ = 50x


CAGR в потреблении энергии за последние десятилетия: ~ 1.5% в год
При CAGR в 40% рынка токенов интеллекта К 2030 г. - рынок токенов составит 768B$ / энергорынок 10,6T$
Разница будет в 14х
MEMORY WALL - в AI / p.1

Виды памяти в кластерах для ИИ:

G0. SRAM [ on - chip ]
Используется в основном в Groq LPU / Cerebras чипах.

G1. GPU HBM

Используется во всех ИИ чипах [ B200 / R200 / Trainium / TPU Google и других ]

H100 [ 6 HBM стоек ] - 80 GB
B200 [ 8 HBM стоек ] - 192 GB
R200 [ 8 HBM стоек ] - 288 GB

TPU v6e [ 4 стойки ] - 32 GB
TPU v7 [ 8 стоек ] - 192 GB
TPU v8 [ 8 стоек ] - 288 GB



G2. Host-DRAM (внутри CPU)

Используется во всех чипах CPU - которые обеспечивают работу кластеров GPU в дата-центрах

NVIDIA GB200 NVL72 - внутри этого кластера 72 GPU чипа, которые обеспечиваются 36 Grace CPU чипами
Внутри, 36 Grace CPU чипов - 17 TB LPDDR5X
≈ 236 GB / CPU


NVIDIA Vera Rubin NVL72 (VR200) = 72 Rubin GPU + 36 Vera CPU
36 VERA CPU = 54 TB LPDDR5X = ~ 750 GB / CPU (NVIDIA)

AMD MI355X UBB ~ 134 GB / CPU
AWS Trainium2 UltraServer ~375 GB / CPU
Google TPU v7 Ironwood ~ ~ 240 GB / CPU



G3. Local NVMe/SSD ( NAND )

Используется во всех дата-центрах для обеспечения работы кластеров GPU

Все используют тип памяти NAND в данной архитектуре

NVIDIA GB200 NVL72 : NAND [ 276.5 TB - 3.84 TB per GPU ] ]
NVIDIA GB300 NVL72: NAND [ 1 105 TB - 15.36 TB per GPU ]
AWS Trainium3: NAND [ 576 TB - 8 TB per GPU ]
AMD Instinct MI355X: NAND [ 7.68 TB per GPU ]


G3.5 Inference Context Memory Storage

На данный момент, данный слой планируется использоваться в кластерах Vera Rubin- остальные чипмейкеры пока не объявляли про это.

По слухам -16 TB / per GPU
Тип памяти: NVMe SSD tier [ NAND Flash ]

Основная задача - ИИ Агенты с persistent memory.


G4. Networked external storage


Гиперскейлеры покупают дисковые полки от VAST / WEKA - при покупке VAST Ceres DF-3060V2 — эти виды памяти включены уже внутри.

Наиболее консенсусный, VAST Ceres DF-3060V2 - хватает на 128 GPU B200

NAND : 1352 TB = 10526 GB /per GPU
SCM : 12 TB = 100 GB / per GPU
4
MEMORY WALL - в AI / p.2

G1 . GPU HBM

Моделирование спроса на GB + Выручки производителей памяти от HBM

Модель для расчета [ ТАБЛИЦА ]



Допущения:
Цена текущая - 10$ /GB [ CAGR снижения 10% ]
2026 Г. - средние значения для per GPU - 288 GB
Рост требования GB / per GPU [ CAGR 25% ]
Негативный / Нейтральный / Позитивный сценарий по кол-ву произвдеенных чипов : [ 10 / 15 / 25 % CAGR ]


Итоговые выводы:
Негативный к 2030г. [ 11,1 EB / 75B$ выручка ]
Нейтральный к 2030 г. [ 13,8 EB./ 92B$ выручка ]
Позитивный к 2030 г. [ 21 EB / 140B$ выручка ]


Необходимо [ 11 - 21 EB в зависимости от сценария ]

Рост от текущего потребления HBM [ 3-7x ]
HBM делается из DRAM / если брать рост потребелния от DRAM [ 25% - 50% ]

2025г. Общее кол-во проданной HBM памяти - 3,3 EB
2024г. Общее кол-во проданной HBM памяти - 1,5 EB


2022г. Общее кол-во проданной DRAM памяти ~ 26 EB
2025г. Общее кол-во проданной DRAM памяти ~ 44 EB
1
MEMORY WALL - в AI / p.3


Модели расчета для каждого уровня G1-G4 типа памяти
G1 [ ТАБЛИЦА ]
G2 [ ТАБЛИЦА ]
G3 [ ТАБЛИЦА ]
G3.5 [ ТАБЛИЦА ]
G4 [ ТАБЛИЦА ]


Модель расчета для BoM разных кластеров GPU
[ ТАБЛИЦА ]

Модель расчета сценария Revenue основных memory компаний
[ ТАБЛИЦА ]
🔥2
MEMORY WALL - в AI / p.4

Тезис № 1 [ Эра ИИ Агентов ]

Эра ИИ Агентной экономики еще не наступила.
В будущем могут существовать миллиарды ИИ-агентов, которые будут действовать неделями, месяцами и годами от имени людей и компаний. Для этого им недостаточно большого контекстного окна или длинного KV-cache. Им нужен отдельный memory layer

Morgan Stanley [ 04.2026 ] - по мере того, как развивает ИИ Агенты - автономные действия, вычислительный bottleneck смещается в сторону CPU и памяти.


Тезис № 2

Большинство компаний, связанных напрямую с пятью слоями ИИ
[ энергетика - чипы -дата-центры - LLM модели - приложения для ИИ ] торгуются с P/E 30-150x

В отличии, от игроков в сфере памяти, которые торгуются на 10-20x


Тезис № 3

Пока не видно потолка остановки прогресса в мощностях с каждым новым поколением чипа.

Каждая архитекутра чипов потребляет в разы больше памяти [ 80 GB - 288 GB - 1TB ]

В отличии от телефонов, где не нужна была смена архитектуры HBM1 -HBM2- HBM3 - HBM4 -> HBF - так как там потолок памяти долгое время был на уровне 256-512 GB + память в телефоне работает намного легче в плане устройства - так как она переодически спит + обрабатывает запросы одного человека , а не под непрерывный поток матричных умножений с миллионов параллельных потоков- > 256–512 ГБ флеш + 8–16 ГБ LPDDR закрывают потребности мобильного OS и приложений уже 5+ лет, рост идёт линейно на ~10–15% в год.

В GPU Memory есть гонка по memory - которая еще не закончилась - соответственно масштабирование одного продукта пока не делается - постоянно разрабатывается следующая архитектура

Когда ИИ-чипы получают больше HBM, разработчики немедленно строят модели побольше, чтобы его заполнить, так что память всегда следующее узкое место.


Тезис № 4

В прошлом, циклы памяти были востребованы для ПК / Смартфонов / Дата-центров облачных - которые ограничивались человечески ресурусом [ кол-во людей, использующих ПК и Телефоны ]

Этот цикл - не ограничивается биологическими ограничениями, у каждого человека может быть не один смартфон, а 10 ИИ агентов по разным сферам. У компаний могут быть 1 млн ИИ сотрудников.

Парадокс Джевонса создаст еще большую потребность в ИИ вычислениях за счет того, что можно будет строить еще больше новых продуктов и закрывать еще больше потребностей.

Каждое предприятие, каждое потребительское приложение, каждый автономный автомобиль, каждый ИИ-агент, каждый ИИ-робот - потребитель памяти.
4🔥1
MEMORY WALL - в AI / p.5

Тезис № 5

Рост кол-ва параметров моделей
Gemini ~ 10T / Opus 4.7 ~ 5T / GPT 5.1 PRO ~ 10T [ рост 5-10х с 2025 г. ]
Маск планирует Grok5 до 20T параметров в 2026г.

Тезис № 6

Техническое усложнение продукта.
Относительный capex/бит для HBM -4x.
Для LPDDR5 1.6x / NAND 1.5x -

Самое главное отличие этого цикла- поставщики памяти делали весь стек целиком in-house - отсутствовали TSMC.

Тезис № 7

Переход от генерации текста к генерации видео (AI-видео, замещающее YouTube) потребует роста пропускной способности и объёма памяти примерно в 1000 раз.

Тезис № 8

Память используется очень во многих функциях дата-центров, оптимизации подобные Google TurboQuant - происходят не во всех направлениях сразу, а часто в единичных.
Недостаточно минорной оптимизации как в Turbo Quant - одной ветки вычислений - нужно полностью все стадии вычисления на ПОРЯДКИ

Groq / Cerebras - делают все свои альтернативы вместе с HBM - разделяя разные функции на разные типы памяти.


Тезис № 9

Высокий спрос на ИИ сектор будет вызывать рост цен на другие сектора: робототехника / машины / смартфоны / ПК
2🔥2
MEMORY WALL - в AI / p.6


Если брать по отдельности чип NVIDIA, одну штуку, например B200 или R200 - то наиболее затратная часть этого чипа для NVIDIA = затраты на память HBM, которые составляют > 50% себестоимости
( 2000 -3000$ )

Больше других типов памяти внутри самого чипа не ставят.
Остальные уровни памяти, о которых говорил в постах выше - ставят уже в кластерах GPU.
Все дата-центры работают на кластерах, а не на одиночных чипах.
Все крупные клиенты NVIDIA закупают кластеры.

Себестоимость, кластера из 72 чипов на примере NVIDIA GB200 NVL72:
3 200 000$
из которых > 15% уходит на G1-G4 память, при это сам GPU Silicon чип ( без HBM ) составляет ~ 10% BoM

Если рассматривать, VR200 NVL72 - то там общий BoM потенциально будет доходить ~5 000 000$
и при этом добавляется новый уровень памяти + увеличивается емкость прошлых уровней в разы - > BoM на память увеличивается >20%

[ Более детальные расчеты ]


Если брать, каждый уровень памяти - то с каждым новым поколением чипа - объем этой памяти увеличивается на 50% -200%+


G1 [ HBM ]
H100 -> B200 -> R200
1x- > 2.5x -> 4x

G2 [ Host-Dram ]
GB200 NVL72 - > VR200 NVL72
1x - > 3x

G3 [ Local NVMe/SSD ]
GB200 - > R200
1x > 5x

G3.5 [ Inference Context Memory Storage ]
новый вид памяти, не было в прошлых поколениях


G4. Networked external storage
H100 - > GB200 NVL72
1x - > 2x
🔥43
HYPURR NFT

Тезисы:
-HYPE вырос / нфт нет [ Dune ]
-Спекуляции о новом сезоне фарма
-Вся команда в аватарках + инфлюенсеры - > при росте HYPE внимание может попасть и на NFT
-текущий mcap HYPURR - 70m$
при раздаче 0.1% SUPPLY - 42m$ / окуп 60% + остается NFT
при раздаче 0.2% supply - профит 20% + остается NFT

Затраты ~ 15 500$
👍5
Взял $TON на плечо, помимо спот позиции

Тезисы:
-Telegram официально становится руководящей структурой в экосистеме - смещает TON Foundation

-За один месяц было объявлено о 3 из 7 шагов для Make TON Great Again
Ожидаю в течении месяца остальные шаги.

-Потенциально, один из шагов дополнительные байбеки от Telegram от части Revenue
Ранее, buy pressure шел только от юзеров, покупающих услуги в Telegram через Fragment
6😁2
risen.eth
MEMORY WALL - в AI / p.6 Если брать по отдельности чип NVIDIA, одну штуку, например B200 или R200 - то наиболее затратная часть этого чипа для NVIDIA = затраты на память HBM, которые составляют > 50% себестоимости ( 2000 -3000$ ) Больше других типов памяти…
Вложения:
SANDISK - 15 000$
SK Hynix - 20 000$
Samsung - 25 000$

Основные метрики для мониторинга:
1) Динамика роста кол-ва чипов в мире [ 1 ]
2) Динамика увеличения требования к памяти по новым поколениям чипов [ 1 ]

Разделение по игрокам:
Ставка больше на NAND рост в ближайшие годы из-за добавление нового уровня G3.5 + потенциальная разработка HBF -> которая по прогнозам профессора-основателя HBM полностью сместит HBM после 2035г.

Ставка на SAMSUNG как потенциального будущего лидера в сфере технологической эффективности типов памяти.
Были провалы в 2023-2024г., связанные с квалификацией.
Последние кварталы успехи больше у SAMSUNG чем у SK Hynix.
🔥8
00:00 BTC
03:00 ETH
15:20 BNB
18:35 XRP
21:19 SOL
23:00 DOGE
25:55 TRX
27:40 ADA
27😁2🎉2👍1
00:00 HYPE
14:07 ZEC
23:57 BCH
25:15 LEO
25:44 XMR

Сорри за качество войса - приболел чутка
19👍2😁1
AI-RAN / AI GRID


Jensen Huang: 6G + AI GRID - лучший способ для координации и обслуживания физического мира интеллектом.Телекоммуникационная связь станет глобальной сетью для распределения AI.

Jon Saw [ CTO T-Mobile ] : В LLM нужны были токены, как носители информации. В физическом интеллекте нужны - кинетические токены. Им нужна временно-пространственная согласованность, детерминированная производительность, сверхнизкая задержка, синхронизация устройств и непрерывное обучение на краю сети. И главное — сеть должна понимать, что эти токены не пассивны. Они операционные. Именно здесь телеком-сети становятся центральными для будущего физического ИИ.

Jensen Huang: ИИ стимилирует строительство крупнейшей инфраструктуры в мире - и телекоммуникации следующий шаг.

Jensen Huang: У нас крупное партнёрство с Nokia.Это индустрия на три триллиона долларов. NVIDIA появилась новая продуктовая линия- ARC. Nokia будет работать с нами, чтобы интегрировать нашу технологию и переписать свой стек. Это компания с 7 000 фундаментально важными патентами 5G. Трудно представить более сильного лидера в телекоммуникациях. Они сделают NVIDIA Arc своей будущей базовой станцией. Это означает, что мы возьмём эту новую технологию и сможем обновить миллионы базовых станций по всему миру до 6G и ИИ. Они повысят эффективность своих сетей за счет ИИ. Второе направление — AI on RAN. Интернет дал коммуникации, а затем такие компании, как AWS, построили облачные вычисления поверх интернета. Теперь мы собираемся сделать то же самое поверх беспроводных телекоммуникационных сетей. Это новое облако станет периферийным облаком для промышленной робототехники. Облачные вычисления смогут выйти прямо на край сети, туда, где нет дата-центров. Потому что базовые станции есть по всему миру.

Личный тезис № 1
Телеком операторы очень стабильный бизнес, который торгуется на низких P/E - даже если AI RAN не будет коммерчески успешен - не сильно скажется на ценах операторов, если рынок не будет сильно негативным.
Более того, AI RAN может потенциально улучшить их традиционную бизнес модель за счет оптимизации технических процессов радиосети и т.п. [ AI FOR RAN ]


Личный тезис № 2
AI-RAN / AI GRID - критическая инфраструктура для робототехники и физического интеллекта.

Личный тезис № 3
Появятся новые ветки для revenue на ПРАКТИЧЕСКИ готовую инфраструктуру : спектр, оптика, сетевая инфраструктура, земля, электропитание, помещения— идеальные площадки под edge AI-фабрики.
Единственный минус, что супер мощные кластеры не получится поставить, будут ставить что-то типо NVL2 - но даже это намного сильнее, чем те которые сейчас есть в edge устройствах самих девайсов. Но при этом Latency в разы лучше чем у облачных дата-центров.
[ ~ 10мс AI RAN / ~5мс Edge AI Jetson / ~50мс дата-центры ]

Личный тезис № 4
За счет низкого Latency можно не только задачи робототехники закрывать, но и новый вид AI приложений - который ранее не был доступен из-за низкого latency - могут появится killer apps [ Пример: разговор между ИИ асистентом при инференса от cloud нужно ждать несколько секунд ответ - а при AI-RAN инференсе ответ как от обычного человека ]



Новые виды монетизации:
1.Кинетические токены
Intelligent Sensing and Communication / RF Sensing - > критически важно для нового формата мира - от смартфонцентрического - к человекуцентричному, где вокруг человека будут окружать девайсы, которым нужен будет полный контекст окружений - где вы находитесь, рядом с чем, как двигаются объекты рядом с вами и многое другое.

2.Предоставление Инференса.
Преимущества телекома: уже есть спектр, оптика, сетевая инфраструктура, земля, электропитание, помещения— идеальные площадки под edge AI-фабрики.

3.Обучение ИИ / сбор данных для ИИ / обновление моделей.
Раньше операторы продавали услуги только конечным потребителям и компаниям - а теперь появится еще один слой: Operation traffic, связанный с обслуживанием AI-моделей внутри сети : Сбор данных для обучения / Обновление моделей / федеративное обучение.

4.Новый вид траффика - AI Агенты.
6
AI-RAN / AI GRID

Хронология Событий:
2024:
Учреждение AI-RAN Alliance: NVIDIA, SoftBank, Arm, Ericsson, Nokia, Samsung, Microsoft, AWS, T-Mobile US

T-Mobile + NVIDIA + Ericsson + Nokia: запуск AI-RAN Innovation Center в Bellevue, WA

SoftBank анонсирует AITRAS — собственный продукт AI-RAN на NVIDIA GH200. 5G + AI Inference одновременно в одном чипе.

NVIDIA ARC-1 — первая аппаратная платформа NVIDIA для AI-RAN


2025:
NVIDIA ARC-Compact — вторая аппаратная платформа, для edge с меньшим потреблением

NVIDIA × Nokia стратегическое партнёрство; NVIDIA инвестирует $1 млрд в Nokia ($6.01/акция).

NVIDIA ARC-PRO

Alliance до 132 членов. Новые члены: Qualcomm, SK Telecom, Vodafone. Министерство внутренних дел и коммуникаций Японии

2026:
Nokia anyRAN на NVIDIA GPU функционально оттестирован с T-Mobile US, IOH, SoftBank.

Comcast field trial: GPU в edge DOCSIS 4.0 FDX узлах

Spectrum (Charter) разворачивает RTX 6000 PRO Blackwell на 1000+ edge DC/хабов;

Akamai Inference Cloud: 2B$ сделка с Anthropic [ взяли в аренду инфраструктуру телекомов - и поставили там внутри свои чипы без RAN функций - только инференс ]
2