Архитектор Данных
1.79K subscribers
271 photos
21 videos
3 files
203 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Железа и правда нет, но нужно ли оно именно для обучения?

Модели уже коммодити, причем цифровое и неограниченно копируемое.

Клод не столько придумал новую передовую модель (хотя и ее тоже), сколько создал экосистему, как ей пользоваться. Как применять по назначению, как эффективно решать практические вопросы.

По железу есть еще одно соображение. Исходя из направления и темпов развития технологии, все современные ИИ-ЦОДы скорее всего уже устарели. Те, что строятся сейчас, устарели на этапе проектирования.

Люди хотят больше контекста, чтобы моделька не терялась в большой кодовой базе или в длинном обстоятельном диалоге. Люди хотят больше агентности, чтобы результат был проверен и перепроверен прежде чем выдать пользователю или прежде чем какой-то экшен произойдет. Условно х10 больше контекста и х10 больше походов взад-впреред по пайплайну, это рост на 2 порядка (!!) затрачиваемых ресурсов на средний пользовательский запрос. Это не делается на современных ВК никак. Это масштаб 1 ПБайт активной памяти на стойку.

Итого - что бы ни запланировали, построили сейчас это точно не то, что будет питать ИИ 5-лет плюс. Так а стоит ли тогда вкладывать миллиарды сейчас?

Вот над экосистемой надо думать! Как сделать новый шаг поверх того, что внедрили Клод и Кодекс? Нужна ли специализация под задачу или пока рано? Как добиться следующего роста эффективности в реальных практических применениях? Как решить смежные вопросы - экосистемные, легальные, как создать рабочую экономику в рамках платформ и приложений?

Сейчас для нас это сильно важнее, чем иметь передовую модель.
9💯6👍4🤔1
Кстати, а где сейчас все промпт-инженеры?

Куда они делись?
💯10😁7🤨2
Архитектор Данных
Кстати, а где сейчас все промпт-инженеры? Куда они делись?
Раньше были Мамонт-Инженеры.

Теперь их называют Полеонтолог Опсы

#пятничное
😁8
Рано или поздно это должно было случиться: регулярно появляющиеся в медиа истории о том, как так называемый «искусственный интеллект» может успешно заменить живых юристов, привели поверившим в эти сказки коммерсантов к вполне реальному провалу.

14 мая в Арбитражном суде Западно-Сибирского округа вынесено показательное определение по делу № А27-7831/2025: суд наложил на кемеровское ООО «ЦСС» штраф в 50 тысяч рублей. Поводом стала кассационная жалоба, подготовленная с помощью нейросети.

Ранее с компании взыскали 58 тысяч рублей за неоказание бухгалтерских услуг. Оспаривая это решение, «ЦСС» приложила к жалобе подборку судебной практики с цитатами, якобы подтверждающими её позицию. В документе были приведены реквизиты судебных актов Верховного Суда РФ, ВАС РФ и окружных судов, а также прямые цитаты из них. При проверке оказалось, что часть актов в действительности не принималась, часть имела иные реквизиты и относилась к другим спорам, а приведенные цитаты в реальных актах отсутствовали.

Кассационная инстанция отклонила жалобу и указала, что добросовестный участник процесса «не должен допускать и мысли о возможности искажения обстоятельств действительности», а использование ложных сведений «свидетельствует о явном пренебрежении к установленным правилам поведения». В определении суда говорится:

ООО „ЦСС“ предоставило суду заведомо ложные сведения, сфальсифицировав источники и стремясь воздействовать на суд округа непререкаемым авторитетом высшей судебной инстанции. Надеясь на поверхностное изучение судом округа аргументов кассационной жалобы и принятие желаемого для заявителя постановления, что является прямым обманом суда и грубейшим проявлением неуважения к правосудию.


Отдельно суд отметил тот факт, что жалоба готовилась с применением ИИ: «В таком случае ответственность за достоверность сгенерированного текста несет лицо, использовавшее указанную технологию».
👍7💯3🔥1
Улиточный бизнес - зарабатывает хорошо

Был с джунами на улиточной ферме. Экстракт вещества, которым улитки себя лечат, стоит 1 млн+ за 1 кг. Препараты на его основе 2-3 тыс за баночку.

Вареные и паренные улитки - большой деликатес в руках хорошего повара. Десятки тысяч за кило в живом весе. Хотел пельмени с улитками взять, да не довез бы 🫢

Сюрреальная картина лотков с живыми ползающими в своем темпе улиток, уходящими, насколько хватает глаз. Их там сотни тысяч.
3😱86🙏1👾11
Легенды рынка

Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI.

Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть.

Эффект на бизнес - ?
😁13👌21
Архитектор Данных
Легенды рынка Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI. Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть. Эффект на бизнес - ?
Как CDO я не могу допустить чтобы директор знал что такое Clickhouse, Airflow, DBT, OpenMetaData, Jupyter.

Ну максимум Визиологию и Суперсет, и то их лучше переименовать в «Интеллектуальный помощник принятия управленческих решений» и разместить на
i.companyname.ru (не superset.companyname.ru)

Нечего ему об этом всем знать, у него другие дела.

А лучший Дата Гавернанс - невидимый дата гавернанс.
💯22😁5🔥31👍1😎1
Бигтехи тратят на капекс 1 трлн в год

Это сумма, которую они потратили за всю свою историю от начала времен до 2022 года. Каждый год.

А вы говорите память дорогая. Будет еще дороже и сильно дороже. Пока этот пузырь не схлопнется.

Ссылка
😁7👍3😭32
Философское кадровое

Иногда для успеха надо не исполнять как Паганини, а просто подняться над средним уровнем в своей индустрии.

Как Михаил наш Круг
🔥52👍1
Грузовик с пряниками перевернулся на улице российского ИТ
🎉10👍32
Друзья, все же понимают, что всевозможные ИИ сейчас на пике хайпа. Более того, этот хайп пытаются всеми силами затянуть, изобретая новые суб-технологии и называя их новыми модными словами.

А тем временем выходит все больше статей о том, что крупные компании в целом сушат весла на тему ИИ.

Единственное, что осталось впереди из серьезного - это залп главного калибра техгигантов на тему специализированных чипов, которые разрабатывают как минимум Amazon и Google. У которых до 1 ТБайта VRAM на чип и х20 контекста к текущим моделям. По этой причине все современные гига-дата-центры для ИИ уже устарели на этапе проектирования.

Пружина неизбежно разожмется и больно щелкнет по тем, кто был недостаточно осторожен и сделал слишком большие ставки на ИИ в своих компаниях и в своих карьерах.

Ну а мы с командой тем временем пилим платформу ИИшечки, которая будет агностична к моделям, их провайдерам и типам агентов. Цель - сервисный слой для прикладного ИИ в семействе продуктов в масштабе небольшого холдинга-конгломерата компаний. Не забывая про классический МЛ(опс), который приносит конкретные деньги.

Пропуская хайпы и идя сразу на плато эффективности.
10👍6🔥3
Смотрю на штатку и понимаю, что безумно хайпящий еще 5 лет назад Дата-Саенс почти превратился в что-то вроде фронта и бека.

5 лет назад ДСы были командой прорыва, которых сгоняли в режимы специального регулирования, возлагали особые надежды, отдельно отчитывались на специальных слайдах об их работе и успехах.

Сейчас - просто еще один юнит функция в кросс функциональной команде там где она нужна. Как выделенный дизайнер или DevOps. Или еще одна сервисная функция там, где держать выделенного узкого специалиста экономически невыгодно.

Такова судьба любого хайпа. К счастью и к сожалению.
🤝11💯5😁4💊32💔1
Ловите методологию оценки платформы данных, а равно и любого другого ИТ мероприятия.

Реальная стоимость. (РС) Сколько стоит реально что-то сделать при неких благоприятных условиях. Вот эти ребята за одну минуту наговорили миллионов на 30-50. У них ХД с реалтайм обновлением и развитой системой отчетности. Посильно, но дороговато.

Коэффициент зрелости. (Кз) Берем для примера DevOps - быстро они поймут что от них хотят? Или мы уйдем на проработку «а чо это нельзя с гитхаба скачать хелм и быстро запустить?» А что это вам одного кликхауса мало? В плохой ситуации уйдем на круг: сначала сделать так, как привыкли, как всегда все делаем, а потом когда развалится, получив по шапке, сделать как нормально. Сюда же зрелость любых смежников, заказчиков, в случае данных - хозяев источников.

Коэффициент от 1(идеально) до 5-10 (оч плохо).

Коэффициент корп маразма. (ККМ) В наших палестинах проявляется главным образом в закидонах на тему ИБ. Докажи, что Кликхаус удовлетворяет требованиям 117 приказа ФСТЭК! Сюда же идут различные архитектурные советы и другие танцы, чтобы уважаемые люди не дай Б-г не стали ни за что ответственными.

В нормальных местах 1-2 (взять и сделать), в особых доходит до 20 и больше.

Потом эти числа умножаются.

Пример - Строим платформу в нормальном месте.

РС = 30 млн
КЗ = 1,5 (неидеально но неплохо)
ККМ = 1,5

Итоговый ценник 30 * 1.5 * 1.5 = 67,5 млн.


Строим в рашн энтерпрайзе

РС = 30 млн
КЗ = 4
ККМ = 15

Итоговый ценник 1,8 млрд.

Не падайте в обморок, у этих ребят линия по синтезу каучука или газовоз ледового класса стоит 200-300 млрд.

Это и спасает.

А разницу между 70 и 1800 заберет себе кто-то, обычно вендора и интеграторы, которые и будут спрямлять КЗ и ККМ куда-то ближе к единице за счет своего пота и нервов. И брать за это деньги.

И это мы еще не трогали госзаказ и оборонку.
💯12👍6😁42💩1
Открытый вебинар!

Есть такая примечательная технология как Кликхаус.

С одной стороны, почти 100% мира данных о ней слышали, большая часть ей уже пользовались.

С другой стороны, по моим наблюдениям (из облака и в целом по рынку) очень мало кто пользуется ей правильно. Ничто я не переделывал так часто, как проекты, собранные на кликхаусах. Как много там как маленьких неочевидных фишечек, так и здоровенных архитектурных мин, тем более неприятных, что понимаешь их не сразу, а только с ростом своего проекта.

В четверг 4 июня вечером - приглашаю на бесплатный вебинар, где мы обсудим, как со всем этим жить. Какие фишечки упрощают жизнь, какие разблокируют новые возможности, а за чем надо просто следить и понимать.

П.С. Выложенной записи не будет, таковы правила нашего заведения.
1👍843👏1😭1
UPD - бот устал и попал под раздачу блокировок

Вступаем в группу вебинара напрямую по ссылке
🔥53👀31