Гигантская таблица поиска или настоящий разум?

Где проходит граница

Вы когда-нибудь задумывались, как нейросеть пишет стихи или отвечает на сложные вопросы? Многие считают это зачатком интеллекта. Но критики, например философ Джон Сёрл, приводят пугающую аналогию: нейросеть это просто огромная таблица поиска. Как словарь, где на каждую фразу уже заготовлен ответ.

Если это правда, то никакого «понимания» нет. Есть только хитрое запоминание. Но тогда где проходит строгая граница между банальным заучиванием и настоящим обобщением? И можем ли мы называть нейросеть разумной, если она работает только с тем, что уже видела на тренировке?

Что такое «таблица поиска» простыми словами

Представьте себе шпаргалку к экзамену. На одной стороне вопрос, на другой ответ. Если на экзамене попадётся вопрос в точности из шпаргалки, то вы ответите идеально. Но если вопрос переформулируют или спросят что-то похожее, но новое — то шпаргалка бесполезна.

Это и есть таблица поиска (lookup table). Она отлично работает на знакомых данных и умирает на незнакомых.

LLM (большая языковая модель) не хранит явную таблицу «вопрос → ответ». Но критики говорят, что её «175 миллиардов параметров» это, по сути, то же самое, только очень большая и запутанная таблица. Просто она не запоминает фразы дословно, а запоминает статистические закономерности, например: "после слова "как" часто идёт слово "дела"".

Тест на выживание: in-distribution vs out-of-distribution

Здесь мы подходим к ключевому понятию. Математики и специалисты по машинному обучению делят мир данных на две зоны:

  1. In-distribution это примеры, похожие на те, что нейросеть видела на тренировке. Если модель тренировали на новостях, то вопрос о политике это in-distribution.
  2. Out-of-distribution это примеры, которые уходят далеко за пределы тренировочных данных. Например, вопрос о том, как себя ведёт физика внутри чёрной дыры, или задача на арифметику с числами длиннее, чем все числа в тренировке.

Современные большие языковые модели блестяще проходят тесты in-distribution. Они даже могут написать связное эссе на незнакомую тему, если похожие тексты были в тренировке. Но как только мы даём задачу out-of-distribution, то есть требующую настоящего переноса знаний в новую область, модели начинают ошибаться или галлюцинировать (выдумывать факты).

Простой пример

Пусть нейросеть учили складывать двузначные числа. Она видела миллион примеров: 23+45=68, 78+12=90 и так далее. Она отлично справляется.

А теперь дадим ей пример, которого не было: 97+85=? Она, скорее всего, ответит правильно, потому что алгоритм сложения она выучила, это как раз обобщение. А теперь дадим задачу: "Сложи римские числа: XXVII + XIV". Если римских чисел в тренировке не было, модель, скорее всего, провалится, даже если она знает, как складывать арабские цифры. Это out-of-distribution.

Интерполяция по многообразию: модное словосочетание, которое всё объясняет

Существует красивая математическая идея. Представьте себе лист бумаги, изогнутый в пространстве (как поверхность морской волны). Это «многообразие» (manifold) — множество всех возможных осмысленных данных (текстов, картинок, звуков).

Тренировочные данные это точки на этом многообразии. Нейросеть учится проводить плавную линию между этими точками. Когда мы даём модели новый пример, который лежит между уже известными точками, она просто интерполирует — проводит линию дальше по тому же правилу.

Интерполяция (проведение линии между точками) — это не обобщение в сильном смысле. Это просто достраивание уже увиденного узора.

Настоящее обобщение это когда модель может решить задачу, которая лежит за пределами того кусочка многообразия, который она видела. Это как если бы вы, зная правила игры в шахматы, смогли сыграть в го, потому что поняли абстрактный принцип «игр с полной информацией».

Сёрл и его последователи утверждают: современные нейросети — это мастера интерполяции, но не экстраполяции. Они не выходят за пределы своего многообразия. А значит, это не интеллект, а сложная, но всё же таблица поиска, только просто очень хорошо организованная.

Где проходит строгая математическая граница?

Математики (в частности, специалисты по теории вычислимости и колмогоровской сложности) предложили элегантный критерий.

Граница проходит там, где модель может сжать информацию.

  • Запоминание (таблица поиска) требует объёма памяти, сопоставимого с объёмом данных. Вы не можете сжать таблицу, не потеряв точность.
  • Настоящее обобщение означает, что модель нашла короткое правило, порождающее все данные. Длина этого правила (программы) значительно меньше объёма данных.

Применим это к нейросетям. Нейросеть с миллиардом параметров тренируется на терабайте текста. Если бы она просто запоминала всё подряд, ей потребовалось бы столько же параметров, сколько «битов информации» в тексте. Но тексты сжимаемы! В них есть закономерности. Поэтому нейросеть действительно может быть меньше данных.

Проблема в другом: мы не знаем, нашла ли нейросеть истинное правило (то есть «закон языка») или просто хитро переупаковала таблицу поиска в более компактную форму. Доказать, что модель действительно обобщает, можно только одним способом: показать, что она успешно работает на задачах out-of-distribution, которые гарантированно не были даже косвенно представлены в тренировке.

Имеем ли мы право называть это интеллектом?

Здесь мнения расходятся.

Позиция «скептиков» (вслед за Сёрлом): Нет, не имеем. Интеллект требует понимания, а понимание это способность оперировать правилами в новых, невиданных ранее ситуациях. Модель, которая просто интерполирует между примерами из тренировки, не понимает, она подбирает статистически правдоподобное продолжение. Это великая иллюзия интеллекта, но не он сам.

Позиция «прагматиков»: А какая разница? Если модель даёт полезные ответы в 95% случаев, назовите это как хотите, хоть интеллектом, хоть сложной интерполяцией. Спор о словах не отменяет практической пользы.

Позиция «математиков»: Строго говоря, мы не можем доказать, что у модели есть настоящее обобщение, пока не увидим успеха на out-of-distribution задачах. Такие эксперименты проводятся, и результаты неоднозначны: модели иногда удивляют, но чаще разочаровывают, когда их проверяют по-настоящему честно.

Что в сухом остатке?

  1. Строгой математической границы между запоминанием и обобщением в практическом смысле нет. Есть спектр: от полного копирования до открытия новых правил. Нейросети где-то посередине.

  2. Колмогоровская сложность даёт критерий: истинное обобщение = короткая программа порождает длинные данные. Современные нейросети это программы средней длины, порождающие очень длинные данные. Это уже похоже на обобщение, но не чистое.

  3. Главное испытание ещё не пройдено: надёжная работа на задачах out-of-distribution. Пока модели проваливают эти тесты или проходят их с натяжкой.

  4. Называть ли это интеллектом? Вопрос не научный, а терминологический и философский. Наука говорит: «Мы не знаем, есть ли там понимание. Мы знаем только, что на входе и на выходе».

Самое честное определение современных больших языковых моделей звучит так: это системы, которые с высокой точностью воспроизводят статистические закономерности своего обучающего множества и ограниченно, но не надёжно переносят их за его пределы.

Назовёте ли вы это интеллектом — решать вам.

Похожие записи