РН: Они сами решили её выложить в открытый доступ, но только по условно… ну короче нужно подписать договор, что я буду использовать только для академических исследований, но кто-то почесал репу, положил все это на Torrent и сказал: «Ну ребят я что-то подписал, но вы ничего не подписывали, лежит там». С одной стороны Meta огромное спасибо, что они хотя бы для такого использования выложили. Потому что поддерживать open source опять же очень нужно, почему? Если все это в рамках одной компании сидит, то специалисты будут только высококлассные только внутри этой компании, они могут куда-то уйти, и плюс растить новых специалистов это задача внутри компании, но это очень мало кто может себе позволить и все равно не столь высококачественно. Когда это в open source находится, это протекает и в учебные курсы, и люди сами по приколу этим занимаются, кто хочет какие-то стартапы сделать, гораздо больше специалистов, гораздо лучше кто-то в этом шарит, кто-то что-то новое придумал, короче развивается быстрее.
АН: Короче, Троянский конь от Facebook.
РН: Я не знаю. Может это вообще был не баг, а фич, что они целенаправленно это сделали. Просто вот так. Это ж какой хайп был, что они что-то выложили. Сначала выложили под академической лицензией – нельзя использовать, а потом говорили много, потом утекло и опять говорили много. Черный пиар тоже пиар. Может специально было, может нет, не знаю.
АН: Понятно. Похоже на тактику Microsoft, которые там, грубо говоря, смотрят сквозь пальцы на использование Microsoft Office, скажем где-то в учебной среде, среди пиратских копий, а потом просто народ, когда у них появляются деньги они покупают лицензии. А насколько, скажем, те же китайцы зависят от западного железа для развития своих разработок в области искусственного интеллекта?
РН: Я думаю скорее от лицензии зависели долгое время. Сейчас Huawei вот долгое время под санкциями, но они свои ускорители делают и вроде как достаточно успешно. Плюс, мне кажется, часть AMD, которая была в Китае, чуть ли не полностью переехала под управление Китаем, у них там был закон, что любая компания внутри должна управляться не менее чем на 51% китайским собственником или что-то такое.
АН: Ну да, что такое.
РН: Я просто помню, что была статья на Хабре или ещё где-то, о том, что по сути произошёл отъем AMD, если мне не изменяет память, я могу сейчас наврать с названием, ну что-то в районе AMD, которые находились как раз-таки… ARM, простите, ARM, а не AMD, произошёл в некотором смысле отъем, вместе с технологиями. Так что, я думаю, они могут себе это позволить, позволить в смысле не отъем производителя, а разрабатывать все внутри. Потому что кузница или какая-то фабрика мировая и была долгое время в Китае. Там умеют воспроизводить плюс минус всё. И плюс есть еще Тайвань. На Тайване производят всякие микрочипы. Сейчас там думаю все слышали о политических проблемах, в том числе и это является некоторой причиной. Потому что там очень важные производственные мощности, и чтобы их воспроизвести нужен скорее всего не один год.
АН: Так, ну что ж, понятно, что творится в мире. А что творится у нас? На какой ступени находится развитие ЯндексGPT?
РН: Он развивается достаточно быстро и бодро. В чем плюс Яндекса, того же самого Google и так далее? В том, что это компании, которые долгие годы находятся на рынке и количество данных, что там люди искали, понятно люди куда-то всё равно пишут, пусть и обезличено, но всё равно где-то должны храниться эти данные или как-то обрабатываться, или какая-то статистика должна собираться, чтобы улучшать рекомендательный алгоритм, например. Поэтому количество данных, которые были у OpenAI и количество данных, которые есть у Google или Яндекс, тем более, оно сильно разница, плюс количество специалистов внутри, которые тоже на этом собаку съели большое. Так что развивается достаточно хорошо, но для русского языка сейчас это будет один одним из ведущих решений, просто потому что в него много сил вложено и ещё множество идей, не могу сказать каких, находится в разработке, которые должны сильно повысить качество. Так что думаю на русском языке у нас будет тоже хорошая моделька, с которой можно будет много что делать.
АН: А где с ним можно ознакомиться? На главной странице Яндекса?
РН: Там же есть этот навык «Давай придумаем в Алисе», плюс сейчас её должны вкручивать в различные продукты Яндекса, то есть они будут скорее всего и в браузере и где-то на мобильнике есть приложение. Вот навык «Давай придумаем» работает прямо сейчас. Более того Алиса уже умеет поддерживать контекст беседы. Это вполне себе можно использовать по приколу. Она не сможет условно что-то там вообще невероятное, что порвет все шаблоны, но в принципе для каких-то небольших запросов вполне себе применимо.
АН: Когда наконец Яндекс GPT сам сможет создавать и писать авторефераты, курсовые?
РН: Ну в каком-то виде уже сейчас. Другой вопрос насколько качественно? Но тот же вопрос и к GPT. Потому что он что-то генерирует, а потом если человек это прочитает может заметить что-то. Например, на западе, там некоторых адвокатов, по-моему, привлекли к ответственности, потому что они использовали для обоснования по какому-то делу…сказали, вот прецедент, который они спросили у GPT, GPT им сказала, а потом проверили, а этих событий вообще не было. А он себе напридумывал, нагаллюцинировал и адвокатам сказали, а вы вообще проверяйте, что вы тут говорите, вообще то вы не имеете на это право. Тоже самое с рефератами. Написать то можно, просто насколько там будет бред написан.
АН: Я так понимаю система Антиплагиат уже как-то маркирует.
РН: Это больная тема. У меня есть замечательный коллега, который тоже преподаватель с физтеха, с той же кафедры, где я учился. он как раз-таки руководит исследованиями в компании Антиплагиат и он буквально два дня назад целое выступление давал на тему «Как детектировать сгенерированный с помощью этих языковых моделей текст?». Ну ответ на самом деле классический. Это битва копья и щита. То есть модели становится лучше. Они генерирует более похожий на написанный человеком текст. Все модели по детекции плагиата и детекции сгенерированного текста становятся лучше. Но в приделе, мне кажется, тут будет какая ситуация? Идеально написанный плагиат, идеально написанный сгенерированный текст, не является плагиатом. Он не отличим от того, что написал человек. Поэтому если до туда дойдёт, то тут ничего детектировать. Просто будет новая парадигма, что модель может написать текст, который по сути несёт в себе какую-то ценность сам по себе целиком. Другое дело, что это абсолютно новые реалии и к ним придётся как-то адаптироваться.
АН: И что ты думаешь, кстати, по поводу апокалиптических прогнозов? Тот же Джеффри Хинтон написал статью большую.
РН: Ну он в этом гораздо дольше находится. Возможно у него взгляд, учитывая, что он знает гораздо больше чем я, и внутренних историй, гораздо более ведающих в этой области, эти прогнозы наверно имеют место быть, в том плане, что если мы сейчас, какой-нибудь ЭйДжиАй (AGI)… короче j,obq искусственный интеллект или искусственный интеллект, который обладает какой-то искрой самосознания создадим, то будет вообще не понятно, но я боюсь проблемы, что человеки могут гораздо быстрее устроить апокалипсис, чем все эти искусственные интеллекты, потому что…
АН: Без всякого искусственного интеллекта, да?
РН: Естественный интеллект пока что более всех преуспевает в создании всяких опасных ситуаций, истреблении себе подобных, к сожалению.
АН: А когда искусственный интеллект, например, достигнет уровня человеческого разума?
РН: Последние 43-го года, вот тогда был проект человек-машина как раз-таки запущен. В Нью-Йорке собрались кибернетики, математики и психологи и обсуждали, давайте-ка сделаем искусственный интеллект, давно пора, всё будет хорошо. Примерно с тех пор, в течение 20 лет что-то будет. Так что скажу, в течение 20 лет что-то будет, но, если что через 20 лет ещё повторюсь. Но по крайней мере, не уровня человеческого интеллекта глобально, потому что человек он чем отличается? Мы можем решать любые задачи, хочется верить. Пока что мы не знаем других видов живых существ, которые могли бы решать любые задачи. Вот, например, полететь в космос, условно говоря, дельфину нафиг не нужно. В космос он не хочет лететь, ему и в океане нормально. Человек зачем-то туда залез. Вот задачи достаточно сложные, я думаю на горизонте пяти лет уже будут решаться в плане задачи, типа проведи сравнительный анализ существующих решений на рынке радиоэлектроники с учётом санкций и так далее. Это плюс минус уже сейчас может быть сделано, в течение года-двух, я думаю, будет уже нормой. Буквально вчера вечером прочитал, забыл к сожалению компанию, они ближе к хранению данных и обработке и так далее, они выкатили свой или презентовали свой интерфейс для User Defined Functions, где можно просто написать вместо написания кода, типа вот есть база данных, достань из неё что-то, можно словами написать, что надо и она сама генерирует под капотом код и дает выхлоп. Причём по их утверждениям достаточно точно. Причём есть база данных всех транзакций в каком-нибудь банке, можно написать «Сформируй, сделай гистограмму, где указаны топ пять категорий трат людей из такой-то страты, а все остальные категории объедини в остальную» и оно бац и под капотом генерируются код, который рисует эту самую гистограмму. Для меня это выглядит как абсолютно какая-то волшебная магия. Кажется, немножко тёмная. Опять же таки есть некоторый называется cherry-pick в сообществе, выбираем вот вишенку на торте, некоторый не то что подлог, а скорее на хороших результатах это презентовали, что в среднем есть не очень хороший результат. Но опять же это надо руками тестировать. Но даже если 80% случаях это работает, это вообще опять же иной уровень. Если раньше надо было что-то открывать, читать документацию, то сейчас написал текст, что тебе надо, если сгенерировалось что надо – всё великолепно.
АН: А кстати одно из этих развитий у ChatGPT было в том, что он может делать простейший программный код, да? Я правильно понимаю?
РН: Да. Сейчас таких моделей сильно больше, чем одна. Есть GitHub Copilot, который тоже может код писать, анализировать и так далее. Есть опять-таки открытая модель, я за ними стараюсь активно следить, StarCoder, который тоже может хорошо генерировать код, а главное анализировать код. Кстати на его основе один из моих дипломников сейчас писал работу про поиск Антиплагиата, и на основе просто, прогоняем через StarCoder, получаем векторное сжатое представление кода, просто сравнивая попарно векторные представления, можно очень неплохо детектировать кандидатов на плагиат, причём примерно мгновенно. Там обработка пятисот строк кода занимает секунды.
АН: А насколько эффективно он пишет программный код или это касается только простейших задач?