Ученые обучили ИИ-модель только на текстах до 1931 года, и она смогла писать на Python

Владимир Губайловский

Американские исследователи создали языковую модель Talkie, обученную исключительно на текстах, вышедших до 1931 года, — книгах, газетах, научных журналах, патентах и судебных решениях. Цель проекта — получить точку сравнения для изучения того, какие свойства современных ИИ-систем определяются архитектурой, а какие — данными из интернета, на которых обучены все ведущие модели.

Проблема подготовки данных. Одним из главных технических препятствий при создании Talkie оказалось качество оцифровки исторических текстов. Стандартные системы распознавания символов, разработанные для современных документов, плохо справляются с историческими изданиями. В контролируемых экспериментах модель, обученная на текстах с обычным OCR-распознаванием, достигла лишь 30% эффективности обучения по сравнению с версией, обученной на текстах, расшифрованных вручную. Простая фильтрация регулярными выражениями подняла этот показатель до 70%. Чтобы закрыть оставшийся разрыв, команда разрабатывает специализированную систему распознавания для исторических документов.

Модель Talkie содержит 13 миллиардов параметров и обучена на 260 миллиардах токенов (слов и фрагментов слов). Граница знаний модели — 31 декабря 1930 года: именно тогда тексты переходят в общественное достояние в США и создатели модели могут использовать любые тексты, не нарушая авторское