Эд Кевбрин
CEO в Eggs Community
Реальный
взгляд на ИИ
Мы все лишимся работы? А если нет, то чего ждать? В статье мы посмотрим на то, что на самом деле происходит в мире ИИ глазами эмпириков-скептиков
Время чтения: 16 мин
Здравствуйте, меня зовут Natasha
Задолго до очередного витка нездорового хайпа в сфере ИИ мы начали интересоваться машинным обучением (ML). Тогда еще не было алгоритмов нормальных алгоритмов глубокого обучения и предтренированных нейросетей для старта "из коробки".

В 2018 году мы вместе с Александром Кукушкиным сделали прототип ИИ-помощника тендерного специалиста на базе его библиотеки анализа естественного русского языка Natasha. Как работала штука? В РФ боле 60% экономики - это государственные заказы, а госконтракты, как известно, заключаются по факту торгов по 44 и 223 ФЗ. Так вот, чтобы принять участие в в большинстве контрактов нужно правильно подать заявку - все согласно ТЗ. Мы взяли 10 000 уже заключенных контрактов, обучили машинку и она начала искать в документа Word "неправильные" слова и исправлять на "правильные". Это позволяло снизить количество в ошибок в тексте, а значит отклонений из-за неправильно заполненной заявки и повышало скорость подготовки заявок с 1-2 до 3-5 (при одинаковом объеме заявки и количестве единиц товаров/услуг). Проект назывался "эгзтендер", но мы его не рекомендовали его искать в Гугле, может поэтому мы и не набрали критическую массу подписчиков :)
Текст исправляли прямо в Google Docs, куда подключили бэкенд через JS скрипт
Оптический анализатор картофеля
Второй проект - это конволюционная нейросеть (CNN) для анализа качества картофеля на производcтве. История проекта прозаичная - как-то в "Пятерочке" я купил странный картофель, на котором была "сеточка" на поверхности. Гугл подсказал, что картофель поражен паршой обыкновенной. Оказалось что это самая распространенная болезнь картофеля на территории РФ и РФ (поражено более 60% культур). И это одна из самых распространенных причин отказа в приемке товаров в торговой сети и рекламаций - если в партии обнаружится 3% такого картофеля, то вся партия возвращается поставщику. А это потери агрария.
Пораженный картофель (подкожное заболевание)
Мы обратились к знакомым поставщикам оборудования для сортировки картофеля и получили целый список требований со стороны торговой сети к качеству поставляемого продукта. Оказалось, что количество брака снижается с помощью оптических анализаторов - оборудования для стационарной сортировки продукции с гиперспектральной камерой (HSI) и обученной нейросеткой.

По проекту, нейросеть повзоляла анализировать д0 15 какртофеля на конвеерной ленте в час - выделяя клубни нужного цвета, размера, с небольшими "глазками", без наружных и внутренних болезней. Второе особенно интересно - есть такое поражение как "кольцевая гниль". Так вот - есть такое нельзя, но и обнаружить не разрезая картофель - тоже нельзя. Мы предложил использовать гиперспектральную камеру (HSI), которая позволял заглядывать под кожуру на глубину до 50 мм при использовании определенного инфракрасного диапазона (900-1200 нм, NIR). Проект в целом был неплох, но собрать конечное решение по доступной стоимости не удалось - в России просто нет своего производства гиперспектральных камер (кроме AXALIT разве что), а зарубежный SPECIM и другие варианты делали цену для агрария просто неподъемной.
Тренировка нейросети для определения зон поражения
А что вообще происходит?
Как видите, никакой угрожающей магии в ИИ пока нет - наши решения что-то ускоряли, что-то устраняли и тд. На самом деле, под ИИ понимают большой "зоопарк" решений - от распознавания текста до генерации картинок/видео - это могут быть как алгоритмы классического машинного обучения (ML), так и нейросети, обученные разными способами (наиболее известный и удачный Deep Learning или т.н. "глубокое обучение") На момент 2023 года, какие-то функции ИИ уже даже делал лучше чем человек, в основном это касалось работы с текстами и понимания языка.
Возможности нейросетей в сравнении с возможностями человека (по функциям)
Чтобы понять нужно посчитать
Тема ИИ буквально будоражит воображение, и в голове возникают иррациональные страхи. Кто-то боится потерять работу, кто-то ожидает сверхприбылей, те ИИ уже сейчас бояться или предвкушают. При этом никто не может ответить на вопросы "Как он отберет работу или даст возможность заработать больше?" и "Почему это произойдет?" (при этом почему-то в обществе уже существует консенсус на тему "Когда это произойдет?" - о датах я напишу в конце статьи). Но ИИ - это не магия, это – алгоритмы, которые пока еще зависят от разработчиков (и может быть будут зависеть всегда).

Чтобы понять что происходит, нужно посчитать. Самой известной нейросеткой стал ChatGPT - большая языковая модель. (LLM), обученная на огромном объеме данных.

Мощность ChatGPT выражается в количестве Эффективных вычислений (Effective Compute) - и там настолько большие числа, что для их сравнения и подсчета используются не сами цифры, а порядки величины (Order of magnitude или OOM). Скажу как гуманитарий – идея измерения скорости роста Эффективных вычислений с помощью подсчета порядков величины не так проста, но она точно требует понимания и расшифровки. Потому что именно она помогает понять и предсказать развитие ситуации в сфере ИИ.
Порядок величины (с англ. OOM) - это концепция, которая позволяет измерять величину одного числа относительно другого. Два числа находятся в рамках одного порядка, пока лежат в диапазоне одной степени. Те 1 и 9 - это числа в одном порядке "десяти в степени один" (10^1), а 1 и 99 - это числа в двух разных порядках - первое в порядке "десяти в степени один" (10^1), а второе - в порядке "десяти в степени два" (10^2)
NB!
Зависимость возможностей ИИ от мощности Эффективных вычислений
Идею подсчета OOM подкинул Леопольд Ашенбренер (Leopold Ashenbrenner) – бывший до 2024 года сотрудником OpenAI (компания разработчик ChatGPT). Он взял за основу расчета модель ChatGPT-4, которая с точки зрения функций, могла выполнять те же функции, что и школьник в старших классах (Эффективные вычисления 10^0). Соотвественно предыдущие версии ChatGPT могли быть по уровне развития школьника младших классов (10^-3) и дошкольника (10^-6).

Другими словами, чтобы понять что может делать ChatGPT-4 нужно просто ответить на вопрос "Что может делать школьник 10-11 классов?"

А что могли делать вы это время? Ну например, вы могли 1) прочитать книгу и 2) написать реферат? Думаю да. Так вот и он может тоже самое. Теперь тысячи студентов и школьников пишут рефераты/курсовые с помощью ChatGPT. Или он пишет тексты за них. Но им, также как и ChatGPT, все еще сложно переосмыслять текст и сделать нужные выводы в определенном контексте. Потому что эта нейросеть всего лишь "школьник", но, по логике Леопольда, рост эффективных вычислений к 2027 в 10^6 раз позволит ChatGPT повзрослеть и начать мысль как AI инженер уровня PhD. Вот школьникам и студентам будет подмога.
Скорость роста эффективных вычислений в 0,5 - 1 OOM в год позволит к 2027 году создать нейросеть выполняющую функции AI инженера
Что такое Эффективные вычисления?
Теперь давайте разберем сам термин. Эффективные вычисления (с англ. Effective Compute) - это еще одна идея, которая соединяет в себе целых три направления улучшения работы ИИ:

  • вычислительная мощность
  • эффективность алгоритмов
  • нестандартные улучшения

Все три направления дают вместе лучший результат, который можно увидеть невооруженным глазом. Посмотрите на картинку ниже - мы начинали с базового уровня эффективных вычислений (те минимум мощности, "лобовые решения" в алгоритмах и ноль нестандартных улучшений). И постепенно пришли к сегодняшнему уровню.
Базовый уровень вычислений (EC)
4х к базовому (EC)
32х к базовому (EC)
Если говорить об общем вкладе этих напралвений для улучшений, то они выглядят примерно вот так - каждый элемент вносит свою треть в улучшении работы. Если говорить про оборудование, то согласно сервису Epoch AI для обучения ChatGPT потребовалось 8e24 to 4e25 FLOP, что примерно равно улучшению эффективных вычислений на ~1.5–2 OOMs (на полтора-два порядка). Действительно это очень серьезные инвестиции в "железо", которые оцениваются в миллиарды долларов (может поэтому позволить их может себе только Microsoft, как ключевой инветор OpenAI). Но если приглядется к графику ниже, то постепенно в вопросе вычислительной мощности мы выходим на плато, и бОльшую часть начинают приносить работы по улучшению алгоритмов ИИ.
Приблизительный вклад каждого направления направления в Эффективные вычисления
Чем лучше алгоритм обучается, тем меньше вычислительных мощностей требуется - парадигма такая. И тут есть два пути - либо улучшение базовых моделей, либо применение нестандартных решений. Первое - более/менее понятно и скорее интересно инженерам (есть разные материалы как и за счет чего улучшают алгоритмы на arxiv тут, тут и тут).

Отдельно хочу остановится на направлении нестандартных улучшений - чтобы понять о чем речь нужно осознать что все еще сегодня НЕ делает ИИ. Например, когда человека спрашивают о какой-то серьезной проблеме или дают серьезную задачу то он думает так:

1) услышал и обдумал
2) "переспал с мыслью", походил, почитал, пораспрашивал
3) дал заключительный ответ, понятный собеседнику

Не сложно предположить, что бОльшая часть сложных вопросов требует больше осмысления: больше разносторонней информации, обдумывания, учета альтернативных мнений и тд. Это не вопрос "вычислительной мощности нашего мозга", это скорее другой подход к мышлению. Лауреат Нобелевской премии Даниэль Каннеман называл разные механики мышления как "Система 1" (для быстрого ответа на вопрос вида "На какой цвет переходить дорогоу?") и "Система 2" (для долгого обдумывания и ответа на сложгный вопрос типа "А в чем смысл жизни?"). Первое - быстро и "дешево" для мозга, второе - долго и "дорого для мозга".

Так вот, текущий ChatGPT использует только "Систему 1", поэтому и ответы быстрые, точные, рациональные, но не всегда разумные и учитывают контекст собеседника – все как у школьника старших классов (если я не прав то спросите его что делать в конкретной ситуации и попробуйте так действовать).

Кроме того, текущий ИИ имеет следующие недостатки:

  • не имеет длительной памяти (попробуйте с ним продолжить беседу через неделю на ту же тему)
  • не может полноценно использовать компьютер (только браузер и то ограниченно)
  • не обдумывает перед тем как говорит (Система 1 в действии)
  • не учитывает в разговоре вас как личность (опирается на общий промт на входе и предтренированный алгоритм)
Улучшение любого из этих показателей способно улучшить алгоритмы настолько, что они перейдут на следующий уровень - от чат-бота к самостоятельному агенту к 2027 году. Но насколько самостоятельному? Учитывая что мы не учитываем все нюансы работы нашего мозга думаю конечный результат может удивить многих.
Соотнесение возможностей ИИ и аналогичных возможностей человека
Наш фокус – помощники
Чем больше мы погружаемся в мир ИИ, тем больше деталей и нюансов выходит на свет. Научить ИИ выполнять свою задачу на 80% - не сложно, но оставшиеся 20% - невероятно сложная задача, где сложность растет по экспоненте. Но именно в этих 20% сокрыто все то, что мы ожидаем от алгоритмов и привыкли получать от людей - мы хотим чтобы они учитывали контекcт, знали и понимали наши боли, принимали решение исходя из наших целей и использовали приемлемые для нас методы, не бросались не обдуманными решениями, а еще лучше брали на себя ответственность за их последствия. Не много ли мы хотим от ИИ?
Тем не менее, даже в текущих условиях использования 80% своего потенциала ИИ может быть полезен как помощник человека. Активно растет рынок ИИ-помощников (с англ "AI copilots") и в нашей студии мы верим, что именно этот рынок станет ключевым в техностеке ИИ в ближайшее десятилетие.
ИИ помощники находят свое применения во многих секторах рынка. Наиболее популярные версии ChatGPT и Gemini - тоже суть помощники по написанию текста, созданию видео и картинок. Мы ожидаем что такие решения, при повышении адаптации к окружающей среде, смогут быть полезны в более узких нишах конкретных профессий - от инженера до риэлтора. И это тесно связано с нашим видением будущего профессиональных сообществ - с ростом удаленки, мобильности населения и нестабильности во многих частях мира, люди будут больше полагаться на себя и тут им потребуются помощники, которые способны помочь справляться со многими сложностями: от продаж до планирования графика на день вперед.
Как обычно обзор предсказывает рост рынка и всеобщее благоденствие
Помощники - это хорошо. Но вернемся к вопросу в начале статьи: "А какова вероятность что меня заменит ИИ?" Я знаю статистику по прогнозу увольнений в связи с ростом спроса на ИИ, но все еще считаю что будут не увольнение, а переквалификация, те появятся новые специальности в замещении утерянных. Почему? Потому что человек - это не только интеллект, это еще и эмпатия и разные способы мышления, которые мы приобрели за тысячи лет эволюции.

Да, мы все хотим чтобы "роботы убирались, когда мы бы занимались искусством. А они начинают заниматься искусством, оставляя нам уборку". Но это все еще перегибы и крайности - искусство останется искусством, а вот уборку мы научим их делать хорошо. Так вот, ИИ займет свою нишу в этом мире, как заняла ее криптовалюта в современном мире или, например, колесо у древних людей.
Вот вам реальный пример попытки заместить человека - его рассказал один мой знакомый стартапер. Есть такие продавцы на ночных заправках знаете - посетителей там обычно мало, особенно ночью на шоссе и на отдаленных заправках. Почему бы не поставить туда робота вместо человека? Это снизит затраты и прочее. Поставили. Вместе с расходами значительно упали доходы. Как так? Оказывается, люди останавливаются на заправках не только чтобы заправиться. Но и для того, чтобы поговорить с человеком на пустой трассе. Там просто перестали останавливаться такие люди. Это еще раз подчеркивает, что человеку от человека нужен не только функция, но и нечто большее.
NB!
А что дальше?
И сказал Бог: сотворим человека по образу Нашему [и] по подобию Нашему, и да владычествуют они над рыбами морскими, и над птицами небесными, [и над зверями,] и над скотом, и над всею землею, и над всеми гадами, пресмыкающимися по земле.
Бытие 1:26-27
Рост Эффективных вычислений повлечет за собой рост возможностей ИИ. Как я уже писал выше, метод экстраполяции данных подсказывает нам, что примерно к 2027 году мы получим ИИ уровня AI-исследователя (а может и раньше), который сможет помогать себе улучшать себя самостоятельно. Но все же каждый шаг дается нам все с большим трудом. Достаточно быстро мы достигнем "крышки" в 80-85% эффективности при текущих технологиях. И даже сейчас мы находимся на первом этапе развития ИИ - Искусственный Облегченный Интеллект (с англ. ANI). Это уже не AI, основанный на машинном обучении со своими огрехами, но и далеко еще не "тот самый Skynet". Перед нами лежат еще два серьезных качественных вызова от ANI к AGI и потом от AGI к ASI.
От ANI к ASI – от простого к сложному
И когда говорят о проблеме "Взрыва интеллекта" имеют ввиду именно Искусственный Супер Интеллект (с англ. ASI), до которого нам еще расти и не факт что мы к нему придем, учитывая усложняющуюся в геометрической прогрессии сложность Эффективных вычислений. Например, природе чтобы обеспечивать развитие потребовалось использовать 10^40 степени FLOPS "вычислительной мощности" (не путать с Эффективными вычислениями) чтобы создать ДНК и записать туда информацию. Мы покрыли 10^25 FLOPS, в ближайшем будущем покроем еще 10 OOM и дойдем до 10^35, а дальше "последняя миля". Те самые 20% которые могут стоить настолько дорого, что агенты 27 года могут остаться с нами на долгие долгие годы. Старожилы рынка помнят, что последняя "зима" в разработке ИИ длилась долгие 30 лет (технологии машинного обучения, напомню, известны с 1970х годов). Сколько продлится новая?
Интересные рассчеты Мэта Барнета по требуемой вычислительной мощности во FLOPS
Интересно сотрудничество? Есть вопросы? Контакты ниже
Удобно по электропочте