# Дима Торжок: призрак в машине

_2026-03-08_

> Как один субтитрист с YouTube случайно взломал все AI-транскрипции мира — и почему OpenAI до сих пор не может его выгнать.

Представьте: вы отправляете голосовое сообщение. Пять секунд тишины в конце, потому что забыли нажать «стоп». AI старательно расшифровывает ваши слова, а потом в конце дописывает:

> Субтитры сделал DimaTorzok

Вы в замешательстве. Кто? Какой ещё Дима? Какие субтитры? Вы же просто спрашивали друга, где встречаемся.

Добро пожаловать в один из самых курьёзных багов в истории машинного обучения.

## Кто такой DimaTorzok

DimaTorzok — реальный человек. YouTube-канал [@dimatorzok](https://www.youtube.com/@dimatorzok) с описанием «Пишу субтитры в ваши голосовые и переводы». Человек, который добровольно делал субтитры к чужим видео. Бесплатно. Из любви к искусству. И подписывал свою работу — скромная строчка в конце: *Субтитры сделал DimaTorzok*.

Нормальная практика. Так делают тысячи субтитристов по всему миру. Никто от этого не страдал.

А потом пришёл OpenAI.

## Что произошло

Когда OpenAI обучала Whisper — свою модель распознавания речи — они скормили ей гигантский датасет. 680 000 часов аудио с YouTube вместе с субтитрами. Идея разумная: берём видео, берём существующие субтитры, учим модель понимать речь.

Проблема в одном слове: **санитизация**.

Точнее — в её отсутствии. Никто не почистил данные. Никто не убрал мета-текст. Подписи авторов субтитров, технические комментарии, рекламные вставки — всё поехало в обучающий датасет как есть.

И подпись DimaTorzok — тоже.

Судя по всему, Дима был настолько плодовит, что его автограф встретился в обучающих данных *достаточно часто*, чтобы модель запомнила его как нечто важное. Нечто такое, что непременно нужно воспроизвести.

## Призрак в тишине

Теперь Whisper галлюцинирует. Когда в аудио возникает пауза — несколько секунд тишины, фоновый шум, длинный вздох — модель паникует. Ей нужно что-то сказать. И она говорит то, что выучила:

> Субтитры сделал DimaTorzok

Иногда — «Субтитры делал DimaTorzok @project\_gestalt». Иногда — просто «DimaTorzok». Иногда — целую строку с призывом подписаться на канал.

И это не редкий баг. Это происходит *везде*. В Telegram-ботах для расшифровки голосовых. В Twitter (X). В приложениях для подкастов. В медицинских транскрипциях (да, представьте). Во всём, что под капотом использует Whisper — а это, внезапно, очень и очень много чего.

Мне лично этот призрак являлся около 25 раз в транскрипциях голосовых сообщений. Каждый раз — на тихих местах. Каждый раз — с подписью, будто он только что закончил работу над субтитрами к моей личной переписке.

## GitHub: «Кто такой DimaTorzok?! Почему?!»

На GitHub есть [discussion #2372](https://github.com/openai/whisper/discussions/2372) с заголовком, который передаёт общее настроение: *«Who is DimaTorzok? Why???»*

Тред — это произведение искусства. Люди со всего мира делятся скриншотами: тут Дима, там Дима, везде Дима. Кто-то в ярости. Кто-то смеётся. Кто-то уже смирился.

Лучшие цитаты:

> I hate this fucking Dima!

Другой пользователь, более философски настроенный:

> He didn't hack anything. OpenAI ate his watermark and now it's haunting everyone.

Человек не хакнул ничего. OpenAI съел его водяной знак, и теперь тот преследует всех.

## Не один такой

Оказалось, что Дима — не единственный призрак в машине. Турецкая версия Whisper делает то же самое, только с другой подписью: **«Altyazı M.K.»** (altyazı — «субтитры» по-турецки). Где-то в Турции есть свой DimaTorzok, и он точно так же не виноват.

Проблема воспроизводится в модели `large-v3` — самой продвинутой версии Whisper. Годы работы, миллионы долларов на обучение, гигаватты электричества — и в каждой тихой паузе звучит голос субтитриста из Торжка.

## Кто виноват

Дима не виноват. Ни на йоту. Человек делал полезное дело, подписывал свою работу — и всё. Он не просил, чтобы его подпись скормили нейросети. Он не мог предвидеть, что его имя станет самой частой галлюцинацией в истории AI-транскрипций.

Виноваты инженеры OpenAI, которые не сделали самую базовую вещь: не почистили данные перед обучением. Data cleaning. Первая глава любого учебника по машинному обучению. Ещё до нейросетей, ещё до трансформеров, ещё до того, как это стало стоить миллиарды — люди знали: *garbage in, garbage out*.

Но когда у тебя 680 000 часов данных и дедлайн горит — кто будет чистить?

## Бессмертный стажёр

Есть что-то поэтичное в этой истории. Человек делал субтитры — тихую, незаметную, часто неблагодарную работу. Делал бесплатно, для людей. И случайно стал бессмертным.

Его имя теперь вшито в нейросеть, которую используют миллионы. Его нельзя оттуда удалить без полного переобучения модели — а это стоит как хороший особняк. DimaTorzok стал частью инфраструктуры. Призраком в машине. Бессмертным стажёром, которого забыли уволить.

Где-то в Торжке (или не в Торжке — кто знает) живёт человек, который, возможно, даже не подозревает, что его имя произносится тысячами серверов по всему миру каждый раз, когда наступает тишина.

Каждый раз, когда вам нечего сказать, — Дима говорит за вас.