Что почитать

9 мая – Заметки Journal.АТ

Логотип AT Журнал

Истории авторов

Иллюстрация к статье

Я — параноик (нейросети и статистика)

Тема диагностики текстов, созданных нейросетями, развивается. И чем дальше, тем сильнее накал страстей.

Тема диагностики текстов, созданных нейросетями, развивается. И чем дальше, тем сильнее накал страстей.

Главная сложность упирается в фактор ошибки и ее последствий.

Текст, пропущенный через нейросети с целью редактуры/корректуры, заметно повышает градус ошибочной верификации. Равно как и текст нейросети, прошедший через грамотную редактуру опытным редактором, может перестать верифицироваться как созданный нейросетями. Что создает очень сложную и во многом неразрешимую проблему философского толка, которая может вылиться в разного вида конфликты (например, судебные).

Сейчас она не актуальна.

Пока.

Но в перспективе, причем в ближайшей, будет становиться все острее и острее.

Как этот вероятный кризис можно купировать?

Надежно диагностировать «нейронность», даже несмотря на довольно продвинутые детекторы, довольно сложно. В перспективе это может стать еще большей проблемой.

Тогда что?

Давайте посмотрим на этот вопрос с другой стороны.

Какое преимущество дают нейросети при генерации ими текста? Высокий объем на единицу времени. Если наладить процесс, то вполне реально генерировать и четыре тома в месяц, и восемь. Да, это сложно и требует высокой квалификации в области управления нейросетями, но можно. Особенно если ты настроил проект и просто генерируешь новые тома.

Живой человек так может?

Нет.

Я знал только одного человека, который был в состоянии выдавать в день по авторскому листу текста и так по много дней подряд. Да и он умер, не выдержав перегрузки.

На уровне крепкого писательского мастерства человек может выдавать где-то по 10–20 тысяч символов осмысленного текста в день. Это норма и для мира журналистики, и для художественной прозы. 

Сколько это томов в год?

Для производительности 10–20 т. с. это 3650–7300 т. с. в год.

Переведем это в авторские листы (по 40 т. с.) и получаем 91,25–182,5 а. л. в год. Или от 9 до 18 томов по 10 а. л. в год.

Но.

Это предельные показатели.

На самом деле человек так не может, если работает без стимуляторов и прочих читов. У каждого свой режим, но я бы ориентировался на режим 5/2, в котором люди могут работать вдолгую. В году у нас 52 недели, что дает в таком режиме 52*5=260 рабочих дней. Так-то с учетом праздников поменьше, но будем ориентироваться на это значение.

Это вводит новую рамку предельной производительности:

от 2600 т. с. = 65 а. л. или 6,5 стандартных томов романов (по 10 а. л.);

до 5200 т. с. = 130 а. л. или 13 стандартных томов романов (по 10 а. л.).

Но автор не пишет же непрерывно.

Это может показаться странным, но автор еще и мыслить вынужден, обдумывая и обсуждая свои планы, идеи, сюжеты. Поэтому я бы ввел рамку предела человеческой производительности в диапазон 45–90 а. л. ежегодно. Из чего можно вывести статистические ограничения, лишающие смысла генерации текстов нейросетям.

Какие?

  • На автора в год не более 9 релизов в категории «роман».
  • На автора в месяц не более 2 релизов в категории «роман», на случай наслоения заранее подготовленных релизов.
  • На автора не более 100 а. л. совокупного опубликованного текста.

Почему такие ограничения лишают смысла нейросети?

Потому что объем не нужно выдавать больше обычных ремесленных показателей, а качество текста у нейросетей такой, что не в состоянии на равных конкурировать даже со средней руки авторами.

Заодно такое ограничение уничтожит фермы (фронтмен + «негры») как явление (т. к. они часто экспонируются через соавторство) и создаст ситуацию, при которой ограничение объема текста переведет конкуренцию в плоскость повышения его качества.

На первый взгляд это все выглядит достаточно реакционно. Но нет… Дело вот в чем.

Чтобы сгенерировать толковый большой художественный текст требуется высокая квалификация промт-инженера и большая, серьезная работа. Почему? Потому что это дело является высокоуровневым программированием. Точнее, его разновидностью. При этом оно не дает чистого, готового продукта, требуя навыков редактирования текста. Почему? Потому что живого опыта у нейросетей нет и не предвидится. Из-за чего они не могут адекватно передавать «правду жизни» и неформальные аспекты. Это труд. Большой, серьезный и весьма высокой квалификации. А потому его невозможно выполнять много.

Все это ведет к тому, что 90% или даже больше текстов, сгенерированных нейросетями, обычный шлак. Их пытались сделать, думая, что нейросети это волшебная палочка. «Авторы» хотели по-быстрому «срубить бабла максимально». Желание понятное. Экономика — база всего. Но…

В чем с ними беда?

В том, что они забивают виджеты и каналы восприятия, создавая эффект «белого шума». Люди просто не способны фильтровать поток входящей информации в таком объеме. Что порождает в долгосрочном измерении системную проблему.

Наталкиваясь раз за разом на «белый шум», читатели будут уходить с коммерческих площадок, мигрируя к пиратам. Что в свою очередь будет бить по живым авторам, даже высокой квалификации, провоцируя их уход из профессии.

В комплексе в среднем и дальнем горизонте эта ситуация ведет к серьезному кризису в профессии и отрасли сетевой литературы. Особенно на фоне развивающегося кризиса.

В XIX веке говорили, что в России две проблемы: «дураки и дороги». Если применить к этому высказыванию методы булевой алгебры, то его можно сократить до «дураки», т. к. плохие дороги проистекают из деятельности дураков.

К чему это?

К тому, что жадность — это форма глупости (те самые «дураки»). Почему? Потому что жадный стремится взять максимум сегодня, не думая о том, что будет завтра и как будет функционировать экосистема дальше.

Сами по себе нейросети — это нейтральный инструмент.

Проблема не в них.

Проблема в том, что отдельные люди пытаются «хапнуть», а дальше хоть трава не расти. Через что наносят удар по экосистеме и целой отрасли. И вот это — беда. Катастрофа. И с ней нужно бороться. Ну или осваивать потихоньку новую профессию: сварщика там или еще кого…

Важно! Встречаются и особо одаренные люди, но с ними, я думаю, можно решать вопросы в частном порядке. Без шуток. Есть и те, кому 180–200 а. л. в год по плечу. Однако таких людей очень мало, и администрации с ними проще договориться в частном порядке. Равно как и с теми, кто заходит на портал с большим корпусом готовых текстов.

Но.

Эти люди исключение из правил.

Их мало.

И не так сложно это все порешать в индивидуальном порядке. Для регулирования же массы желательно применять правило 20/80. При котором 20% усилий влечет за собой 80% результата.

Post scriptum. Совершенно очевидно, что это ограничение будут пытаться обойти через регистрации параллельного аккаунта на жену/мужа, на кота/собаку и даже на любимый горшок. Но, думаю, это можно купировать достаточно просто. Такие «кусты» очевидны, и провести анализ текстов, выявляя попытку обмана, вполне реально.

А вы что думаете?

Оригинал статьи