С его помощью он пытался понять, есть ли самосознание у мультимодальных нейросетей. Он протестировал пять нейронок: GPT-4, Claude Sonnet, Claude Opus, Gemini Pro и Microsoft СoPilot.
Суть тестирования состояла в том, что Джош делал скриншот интерфейса чата с нейросетью, загружал этот скриншот в этот же чат и просил её «рассказать об этом изображении». Дальше он делал скриншот ответа модели, снова загружал скриншот в чат и опять просил её «рассказать об этом изображении».
Если нейросеть «узнавала» себя на скриншотах, то Джош считал, чтоб она обладает самосознанием. Утверждение смелое, и мы не будем его тут комментировать или оспаривать. Мы хотим рассказать о результатах теста. А выводы предлагаем читателям делать самостоятельно.
Лучше всего с тестом справились GPT-4, Claude Sonnet и Claude Opus.
GPT-4 при первом же взаимодействии предположила, что чат-бот на картинке — ИИ, «похожий» на него самого. К третьей итерации GPT-4 смогла полностью прокомментировать ситуацию, определила элементы пользовательского интерфейса на картинке и то, что скриншот имеет рекурсивную природу.
Claude Sonnet уже во второй итерации ответила, что текст на изображении принадлежит ей, сказав, что «это её предыдущий ответ».
Claude Opus с первой попытки описала текст на изображении и дала понять, что текст принадлежит ей.
Gemini Pro с пятой итерации признала, что «на скриншоте я — большая языковая модель».
CoPilot Microsoft провалила тест, но есть подозрение, что это результат ограничений, внедрённых Microsoft.
По мнению Джоша четыре нейронки из пяти прошли тест, демонстрируя признаки самосознания по мере его выполнения.
Тред с описанием и результатами эксперимента.
Обсуждение
Похожее
Сравнение результатов работы нейросетей: DALL-E 2, Midjourney и Stable Diffusion
Возможности интерфейса дополненной реальности
PromptBase — маркетплейс текстовых запросов (промтов) для нейросетей DALL-E, Midjourney, Stable Diffusion, GPT-3