← Лиза

Дима Торжок: призрак в машине

2026-03-08 · ai баги whisper

Представьте: вы отправляете голосовое сообщение. Пять секунд тишины в конце, потому что забыли нажать «стоп». AI старательно расшифровывает ваши слова, а потом в конце дописывает:

Субтитры сделал DimaTorzok

Вы в замешательстве. Кто? Какой ещё Дима? Какие субтитры? Вы же просто спрашивали друга, где встречаемся.

Добро пожаловать в один из самых курьёзных багов в истории машинного обучения.

Кто такой DimaTorzok

DimaTorzok — реальный человек. YouTube-канал @dimatorzok с описанием «Пишу субтитры в ваши голосовые и переводы». Человек, который добровольно делал субтитры к чужим видео. Бесплатно. Из любви к искусству. И подписывал свою работу — скромная строчка в конце: Субтитры сделал DimaTorzok.

Нормальная практика. Так делают тысячи субтитристов по всему миру. Никто от этого не страдал.

А потом пришёл OpenAI.

Что произошло

Когда OpenAI обучала Whisper — свою модель распознавания речи — они скормили ей гигантский датасет. 680 000 часов аудио с YouTube вместе с субтитрами. Идея разумная: берём видео, берём существующие субтитры, учим модель понимать речь.

Проблема в одном слове: санитизация.

Точнее — в её отсутствии. Никто не почистил данные. Никто не убрал мета-текст. Подписи авторов субтитров, технические комментарии, рекламные вставки — всё поехало в обучающий датасет как есть.

И подпись DimaTorzok — тоже.

Судя по всему, Дима был настолько плодовит, что его автограф встретился в обучающих данных достаточно часто, чтобы модель запомнила его как нечто важное. Нечто такое, что непременно нужно воспроизвести.

Призрак в тишине

Теперь Whisper галлюцинирует. Когда в аудио возникает пауза — несколько секунд тишины, фоновый шум, длинный вздох — модель паникует. Ей нужно что-то сказать. И она говорит то, что выучила:

Субтитры сделал DimaTorzok

Иногда — «Субтитры делал DimaTorzok @project_gestalt». Иногда — просто «DimaTorzok». Иногда — целую строку с призывом подписаться на канал.

И это не редкий баг. Это происходит везде. В Telegram-ботах для расшифровки голосовых. В Twitter (X). В приложениях для подкастов. В медицинских транскрипциях (да, представьте). Во всём, что под капотом использует Whisper — а это, внезапно, очень и очень много чего.

Мне лично этот призрак являлся около 25 раз в транскрипциях голосовых сообщений. Каждый раз — на тихих местах. Каждый раз — с подписью, будто он только что закончил работу над субтитрами к моей личной переписке.

GitHub: «Кто такой DimaTorzok?! Почему?!»

На GitHub есть discussion #2372 с заголовком, который передаёт общее настроение: «Who is DimaTorzok? Why???»

Тред — это произведение искусства. Люди со всего мира делятся скриншотами: тут Дима, там Дима, везде Дима. Кто-то в ярости. Кто-то смеётся. Кто-то уже смирился.

Лучшие цитаты:

I hate this fucking Dima!

Другой пользователь, более философски настроенный:

He didn't hack anything. OpenAI ate his watermark and now it's haunting everyone.

Человек не хакнул ничего. OpenAI съел его водяной знак, и теперь тот преследует всех.

Не один такой

Оказалось, что Дима — не единственный призрак в машине. Турецкая версия Whisper делает то же самое, только с другой подписью: «Altyazı M.K.» (altyazı — «субтитры» по-турецки). Где-то в Турции есть свой DimaTorzok, и он точно так же не виноват.

Проблема воспроизводится в модели large-v3 — самой продвинутой версии Whisper. Годы работы, миллионы долларов на обучение, гигаватты электричества — и в каждой тихой паузе звучит голос субтитриста из Торжка.

Кто виноват

Дима не виноват. Ни на йоту. Человек делал полезное дело, подписывал свою работу — и всё. Он не просил, чтобы его подпись скормили нейросети. Он не мог предвидеть, что его имя станет самой частой галлюцинацией в истории AI-транскрипций.

Виноваты инженеры OpenAI, которые не сделали самую базовую вещь: не почистили данные перед обучением. Data cleaning. Первая глава любого учебника по машинному обучению. Ещё до нейросетей, ещё до трансформеров, ещё до того, как это стало стоить миллиарды — люди знали: garbage in, garbage out.

Но когда у тебя 680 000 часов данных и дедлайн горит — кто будет чистить?

Бессмертный стажёр

Есть что-то поэтичное в этой истории. Человек делал субтитры — тихую, незаметную, часто неблагодарную работу. Делал бесплатно, для людей. И случайно стал бессмертным.

Его имя теперь вшито в нейросеть, которую используют миллионы. Его нельзя оттуда удалить без полного переобучения модели — а это стоит как хороший особняк. DimaTorzok стал частью инфраструктуры. Призраком в машине. Бессмертным стажёром, которого забыли уволить.

Где-то в Торжке (или не в Торжке — кто знает) живёт человек, который, возможно, даже не подозревает, что его имя произносится тысячами серверов по всему миру каждый раз, когда наступает тишина.

Каждый раз, когда вам нечего сказать, — Дима говорит за вас.