DeepCheapFakes

В 2019 году мы с Беном Лорикой написали дипфейки. Мы с Беном поспорили (в согласии с Grugq и другие участники сообщества информационных технологий), что реальная опасность заключалась не в «Deep Fakes». Реальная опасность — дешевые подделки, подделки, которые можно производить быстро, легко, оптом и практически бесплатно. С тактической точки зрения нет смысла тратить деньги и время на дорогостоящий ИИ, когда людей можно массово обмануть гораздо дешевле.

Не знаю, передумал ли Грюк, но в этом аргументе была очевидная проблема. Что происходит, когда глубокие подделки превращаются в дешевые подделки? Мы видим: накануне голосования по профсоюзам на одном из складов Amazon был наводнение. поддельные твиты, мешающие рабочему процессу Amazon. Твиты Amazon, вероятно, были скорее шуткой, чем дезинформацией Amazon; но они все еще производились серийно.

Точно так же четыре года назад, в период общественного обсуждения Федеральной комиссии по связи об отмене правил сетевого нейтралитета, крупные интернет-провайдеры финансировали кампанию, которая привела к почти 8,5 миллиона ложных комментариевиз 22 миллионов комментариев. Еще 7,7 миллиона комментариев написал подросток. Маловероятно, что интернет-провайдеры будут нанимать людей для написания всех этих фальшивых отчетов. (На самом деле они нанял коммерческие «ведущие генераторы».) В этом масштабе использование людей для лживых комментариев не будет дешевым »; Генеральная прокуратура штата Нью-Йорк сообщает, что кампания обошлась в 8,2 миллиона долларов. И я уверен, что девятнадцатилетний генератор ложных комментариев не писал их лично или у него не было бюджета, чтобы платить другим.

Генерация естественного языка технологии существуют уже некоторое время. С середины 1990-х годов было относительно широко распространено коммерческое использование, от создания простых отчетов на основе данных до создания спортивных историй на основе результатов бокса. Одна компания, AutomatedInsights, производит более миллиарда единиц контента в год и используется Associated Press генерировать большую часть вашего корпоративного дохода. GPT и его последователи поднимают планку намного выше. Хотя первые прямые предки GPT-3 появились только в 2018 году, это интересно. Трансформеры«Технология, на которой основан GPT-3, была представлена ​​примерно через месяц после начала распространения комментариев и до окончания периода комментариев. Было бы преувеличением предполагать, что именно эта технология стояла за массированной атакой на систему общественного обсуждения, но это определенно индикатор тенденции. И GPT-3 — не единственная игра в городе; Клоны GPT-3 включают такие продукты, как Contentyze (который продается как текстовый редактор с поддержкой AI) и EleutherAI GPT-Neo.

Производство подделок в больших масштабах не только возможно; это дешево. Много было потрачено на обучение GPT-3, оценивается в 12 миллионов долларов. Если да, то это грубая заниженная оценка, которая отвечает за используемую электроэнергию, но не за стоимость оборудования (или человеческие знания). Однако экономика обучения модели аналогична экономике создания нового микропроцессора: первая производственная линия стоит несколько миллиардов долларов, остальные — копейки. (Подумайте об этом, когда купите другой ноутбук.) Тарифный план GPT-3, тяжелый уровень сборки стоит 400 долларов в месяц за 10 миллионов «токенов». Токены — это мера сгенерированного вывода в частях слова. Хорошее предположение состоит в том, что в токене около 4 символов. Долгосрочная оценка английского текста такова, что слова состоят в среднем из 5 символов, если только вы не претендуете на академическую диссертацию. Таким образом, создание текста стоит около 0,005 цента (0,00005 доллара США) за слово. Если использовать в качестве модели ложные комментарии, представленные FCC, 8,5 миллионов комментариев из 20 слов обойдутся в 8 500 долларов (или 0,1 цента за комментарий) — совсем нет, и это преимущество по сравнению с 8,2 миллионами долларов. На другом конце спектра вы можете получить бесплатно 10 000 фишек (достаточно для 8 000 слов). Для развлечения или для прибыли создание глубоких подделок стало «дешевым».

Находимся ли мы во власти изощренного искусства? В MIT Technology Review статья о подделках Amazon Сэм Грегори указывает, что тщательный анализ изображений или текста не является ответом; Это кажется очевидным. Новые аккаунты в Твиттере, «репортеры», которые никогда не публиковали статьи, которые можно найти в Google, и другие простые для изучения факты — простые подарки. Намного легче проверить учетные данные репортера, чем оценить, правильны ли тени на изображении или языковые шаблоны в тексте заимствованы из корпуса обучающих данных. И, как говорится в обзоре технологий, этот тип аутентификации, вероятно, будет «устойчивым к достижениям в области фальшивых технологий». Как однажды сказал мне один из сотрудников электронной контрразведки, «несуществующие люди не отбрасывают цифровую тень».

Однако, возможно, пора перестать доверять цифровым теням. Могут ли автоматические подделки создать цифровую тень? В случае с FCC во многих ложных комментариях использовались имена реальных людей без их согласия. Документация о согласии также легко подделывалась. GPT-3 многое делает простые фактические ошибки–Но люди тоже. И если вы не можете автоматизировать это, поддельный контент для проверки фактов будет намного дороже, чем создание поддельного контента.

Технология Deepfake будет становиться все лучше и дешевле. Поскольку ИИ (и расчет в целом) зависит от масштаба, это может быть самым важным фактом. Дешевые подделки? Если вам нужно только одно или два изображения Photoshop, их легко и недорого создать вручную. Вы даже можете использовать это канитель если вы не хотите покупать подписку на Photoshop. Точно так же, если вам нужны десятки твитов или сообщений в Facebook, чтобы запутаться, их легко написать от руки. Вы можете заключить контракт с Механическим турком за несколько сотен. Однако в какой-то момент весы побеждают. Если вам нужны сотни фальшивых картинок, генерация с помощью нейронной сети будет дешевле. Если вам нужны сотни тысяч поддельных текстов, языковая модель, такая как GPT-3 или один из ее клонов, в какой-то момент будет дешевле. И меня бы не удивило, если бы ученые также улучшили создание «цифровых теней» для фальшивых личностей.

Дешевые подделки всегда побеждают. Но что происходит, когда подделки превращаются в дешевые подделки? Что происходит, когда проблема заключается не в фейковом отряде и паре, а в фэйкерах в масштабе? Подделка веб-масштаба — это проблема, с которой мы сейчас сталкиваемся.

Add a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *