Зачем исследователи обучили языковую модель на текстах, вышедших до 1931 года?

ТехИнсайдерHi-Tech

Ученые обучили ИИ-модель только на текстах до 1931 года, и она смогла писать на Python

Владимир Губайловский

933f8b66bae9efda143003973df58c48_ce_1290x860x174x0.jpg
Назад в 1930-е. Getty / Futurism

Американские исследователи создали языковую модель Talkie, обученную исключительно на текстах, вышедших до 1931 года, — книгах, газетах, научных журналах, патентах и судебных решениях. Цель проекта — получить точку сравнения для изучения того, какие свойства современных ИИ-систем определяются архитектурой, а какие — данными из интернета, на которых обучены все ведущие модели.

Проблема подготовки данных. Одним из главных технических препятствий при создании Talkie оказалось качество оцифровки исторических текстов. Стандартные системы распознавания символов, разработанные для современных документов, плохо справляются с историческими изданиями. В контролируемых экспериментах модель, обученная на текстах с обычным OCR-распознаванием, достигла лишь 30% эффективности обучения по сравнению с версией, обученной на текстах, расшифрованных вручную. Простая фильтрация регулярными выражениями подняла этот показатель до 70%. Чтобы закрыть оставшийся разрыв, команда разрабатывает специализированную систему распознавания для исторических документов.

Модель Talkie содержит 13 миллиардов параметров и обучена на 260 миллиардах токенов (слов и фрагментов слов). Граница знаний модели — 31 декабря 1930 года: именно тогда тексты переходят в общественное достояние в США и создатели модели могут использовать любые тексты, не нарушая авторское

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Открыть в приложении