Кубинские ученые создали собственную языковую ИИ-модель

Исследователи из Гаванского университета создали языковую ИИ-модель CecilIA

ГАВАНА, 26 июл - РИА Новости. Кубинские исследователи из Гаванского университета разработали первую языковую модель искусственного интеллекта, адаптированную к особенностям испанского языка, на котором говорят на Кубе, сообщил в интервью РИА Новости профессор факультета математики и вычислительной техники Александр Пьяд.

"CecilIA уже обучена на языковых особенностях, характерных именно для кубинского испанского. Это первая в Латинской Америке ИИ-модель, натренированная на национальной языковой базе", - рассказал Пьяд.

Идея проекта возникла после стажировки исследователей в Университете Аликанте в Испании. В марте они начали собирать корпус текстов для обучения модели, а в апреле обработали около 300 тысяч документов - 300 миллионов слов из кубинских газет, книг, песен и других источников.

В основе модели - Salamandra 2B, открытая академическая разработка Барселонского центра суперкомпьютеров. "Оборудование, необходимое для создания языковой модели, даже самой маленькой, на сегодняшний день недоступно для Кубы.

До недавнего времени попросту не существовало технологий, которые позволяли бы реализовать такой проект с минимальными аппаратными ресурсами", - пояснил Пьяд решение исследователей принять за основу испанские разработки. Кубинская модель получила название в честь главной героини известного кубинского романа "Сесилия Вальдес" Сирило Вильяверде.

По словам математика, это не просто игра слов, а отсылка к культурному и расовому наследию острова, которое теперь отражается и в цифровом пространстве. На базе CecilIA можно создавать различные приложения, в том числе чат-боты типа ChatGPT, способные, загружать документы и искать информацию в интернете.

Юдивиан Альмейда, директор Группы исследований искусственного интеллекта факультета математики, рассказал, что CecilIA будет понимать и генерировать ответы на испанском языке с акцентом на кубинскую его разновидность. "Задача состоит в том, чтобы модель учитывала не только язык, но и культурные, социальные, лингвистические особенности Кубы - местные выражения, идиомы, культурные отсылки", - объяснил Альмейда.

Разработчики планируют завершить вторую фазу обучения - "инструктивную настройку" - к концу 2025 года. На этом этапе модель научится следовать заданиям, принимать роли, отвечать на вопросы и вести полноценный диалог.