Научить ИИ говорить по-казахски можно и без ChatGPT — венчурный инвестор

Айдар Баймахан
Фото: qazradio.fm

Руководитель холдинга Advisory Board MOST, один из основателей проекта IrbisGPT по внесению в искусственный интеллект всех казахоязычных данных из открытых источников по 7 миллиардам параметров Айдар Баймахан рассказал корреспонденту агентства Kazinform о том, что занимается разработкой отечественного продукта — аналога ChatGPT.

— Господин Айдар, как лучше всего представить Вас нашему читателю?

— Холдинг Advisory Board MOST, который я возглавляю, в течение 12 лет развивает в Казахстане венчурную индустрию. В последнее время мы занимаемся созданием системы IrbisGPT, которая будет понимать казахскую речь и тексты. Например, англичане на основе цифровой базы своего языка создали искусственный интеллект под названием ChatGPT. Но в нем вся информация синтезируется на основе англоязычных данных. Даже, когда мы используем казахоязычный вариант, он обрабатывает основные данные на основании англоязычной информации. Для того, чтобы казахский язык в ХХІ веке стал языком науки и экономики, нужна модель искусственного интеллекта, который сможет читать весь цифровой казахоязычный контент в мире, понимать и анализировать его. Мы этим занимаемся, это только начало, работы еще много.

— От кого Вы получаете цифровой массив казахоязычных данных?

— Мы уже внесли всю информацию на казахском языке, которую нашли в открытых источниках. Теперь возникает вопрос о внесении информации с защищенными правами собственности. Для этого мы намерены обратиться с предложением к Президенту. Например, есть Национальная библиотека. Там все имеющиеся данные оцифрованы. Но для нас они недоступны. С одной стороны, это можно понять, это связано с государственной, национальной безопасностью. Предоставление всех имеющихся данных частным лицам, частным компаниям противоречит безопасности. Но, если не предоставят, казахоязычный искусственный интеллект не будет развиваться, мы рискуем отстать. Я беседовал со знакомыми из сфер кинематографа, музыки, науки, ІТ-сферы. Из них 80% сообщили, что пользуются в своей работе искусственным интеллектом, но для этого делают запросы на английском языке. 

Говоря проще, если этот проект реализуется, люди будут задавать вопросы «Что нужно делать, чтобы поставить моего ребенка в очередь в школу?», «Какие документы нужны, чтобы открыть бизнес?» на казахском языке и легко получать ответы.

— Сколько времени нужно на реализацию этого проекта?

— Времени у нас очень мало. Если управимся за 2-3 года, ChatGPT станет личным помощником для казахов. Но сейчас он оказывает качественные услуги, когда вопросы задают на английском или на русском языке.

— Сколько данных содержится в вашей системе в настоящее время?

— Сейчас у нас имеется «большая языковая модель» (Large Language Model, LLM — ред.), построенная на 7 миллиардах параметров. Мы уже внесли в эти параметры всю казахоязычную информацию из открытых источников. Всего за две недели система начала анализировать и понимать казахоязычные данные. Вот, смотрите, я вхожу в IrbisGPT с телефона, отправляю вопрос «Почему трава зеленая?». Если лень писать, можно отправить аудиовопрос. Смотрите на ответ, он не трудным научным языком, а понятным описывает процесс фотосинтеза. Можно сказать, что система усвоила данные, введенные две недели назад.

— Вы, наверное, знаете, что Министерство науки и высшего образования начало обучение ChatGPT казахскому языку. Не повторяете ли вы друг друга?

— Да, я знаю о том, что Министерство этим занимается. Также мне известно, что для этого они покупают суперкомпьютер. С одной стороны, мы, действительно, делаем одно и то же. Но они это делают со стороны государства. А мы за счет частного капитала, то есть, мы не просим у государства денег. Нам только нужно, чтобы дали разрешение пользоваться данными на казахском языке, мы просим только информацию. Если государство хочет работать совместно, мы готовы. Это важный тренд. Весь мир занимается искусственым интеллектом.

— Вы запатентовали Вашу систему?

— Мы ее зарегистрируем.

— Даже если государство даст разрешение пользоваться данными с защищенным правом собственности, не будут ли авторы научных трудов, литературных произведений отстаивать свои права? Как Вы решите этот вопрос?

— Урегулирование этих вопросов во всем мире представляет большую проблему. Но, если мы будем ждать, что нам подарят авторские права, то можем сильно отстать в гонке по созданию искусственного интеллекта. Думаю, что будет правильнее всего решать все по ходу работы, постепенно. В мире нет ни одного удачного кейса, который бы решал этот вопрос в целом. Есть возможность решать его совместно с авторским сообществом. 

Нужно решать совместно с государством, обществом, экспертами и всеми фондами. Например, знаменитый Илон Маск оказывает сильное сопротивление искусственному интеллекту. Другие инноваторы считают его требованием времени. Искусственный интеллект — новая ступень эпохи интернета. Он собирает, систематизирует, отбирает и предлагает все данные, которые раньше были разбросаны по мировой сети. Он может многократно экономить время, энергию, расходы. Мы уже достигли такого положения, что без интернета вся экономика остановится. В течение 10 лет искусственный интеллект так же может стать безальтернативной инфраструктурой.

— Какой объем инвестиций вложен в проект?

— Стартовый капитал проекта составил около 1 миллиона долларов. До сих пор мы формировали команду, вносили 7 миллиардов параметров, о чем я уже говорил. Теперь мы будем вводить всю собранную информацию, расширять масштаб параметров. Следующие модели основаны на 13, 20, 70 миллиардах параметров. Нам нужно достичь всех этих уровней.

— Какую пользу получит государство, оказывая Вам поддержку? Они же и сами реализуют именно этот проект с помощью другой платформы?

— По каждому направлению государственной политики можно создавать отдельные параметры, управлять и пользоваться всеми ими с помощью искусственного интеллекта. Можно данные по национальной безопасности вносить отдельно, данные, связанные с образованием — отдельно, медицинские — отдельно. Например, можно сделать и отдельный eGov. Путем интеграции IrbisGPT и eGov мы сможем облегчить получение государственных услуг. Если Вы направите вопрос «Как открыть свой бизнес?» на казахском языке, система IrbisGPT, основываясь на Ваших личных данных в eGov, определит, каким конкретном бизнесом Вы можете заниматься, какими льготами от государства можете пользоваться, с учетом Вашего возраста, опыта работы. Проанализировав всю эту информацию, система спросит «Отправить заявку от Вашего имени?». Это многократно облегчит решение вопроса и для граждан, и для государства.

Сейчас читают