New Info События Со&Pub News Проекты и программы Статьи и материалы Справочник Книжная полка Слоган и баннер
          
Acompnews--------------------------------------- Новости Компаний и изданий

. 5224 - 5224.
T-Bank Al Re­search
2 сентября 2024 г. в 14:11
AI Research - Российские ученые ускорили работу искусственного интеллекта с длинным текстом

Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research разработали нейросеть ReBased для ускоренной обработки длинных текстов. Новая технология сокращает расходы на использование ИИ в обработке текстов практически без потерь в качестве.
В пер­спек­тиве это поз­во­лит шире при­ме­нять язы­ко­вые мо­дели в биз­несе, так как сей­час их ис­поль­зо­ва­ние огра­ни­чи­ва­ют вы­со­кие за­траты на вы­чис­ли­тель­ные мощ­но­сти. Кро­ме того, сни­же­ние по­треб­ле­ния энер­гии в об­ласти вы­чис­ле­ний, осо­бен­но в боль­ших цен­трах об­ра­бот­ки дан­ных, по­мо­жет умень­шить нега­тив­ное вли­я­ние на окру­жа­ю­щую среду и со­кра­тить вы­бросы пар­ни­ко­вых га­зов.

Ре­зуль­таты ис­сле­до­ва­ния были при­зна­ны ми­ро­вым на­уч­ным со­об­ще­ством и пред­став­ле­ны на 63-й Меж­ду­на­род­ной еже­год­ной кон­фе­рен­ции по ком­пью­тер­ной линг­ви­сти­ке (ACL), ко­то­рая про­хо­дит в Банг­ко­ке, Та­и­ланд, с 11 по 16 ав­гу­ста 2024 года. Это глав­ная на­уч­ная кон­фе­рен­ция в об­ласти об­ра­бот­ки есте­ствен­но­го язы­ка в мире.

На­уч­ную ра­бо­ту ци­ти­ро­вали одни из са­мых из­вест­ных ис­сле­до­ва­те­лей эф­фек­тив­но­сти ис­кус­ствен­но­го ин­тел­лек­та в мире, пред­став­ля­ю­щие Прин­стон­ский уни­вер­си­тет и Уни­вер­си­тет Кар­не­ги — Мел­лона. По­чти все язы­ко­вые мо­дели в мире ис­поль­зу­ют имен­но их на­ра­бот­ки.

Суть от­кры­тия

В ос­но­ве от­кры­тия ле­жит но­вая ар­хи­тек­ту­ра язы­ко­вых мо­де­лей, на­зван­ная Re­Based. Ар­хи­тек­ту­ра в глу­бо­ком обу­че­нии — это об­щий план или струк­ту­ра, по ко­то­рой стро­ит­ся ней­рон­ная сеть. Она опре­де­ля­ет, ка­кие типы сло­ев бу­дут ис­поль­зо­ва­ны (на­при­мер, свер­точ­ные, ре­кур­рент­ные или пол­но­связ­ные) и как эти слои бу­дут со­еди­не­ны меж­ду со­бой. Про­ще го­воря, это как про­ект дома, где есть план эта­жей, ком­наты и их со­еди­не­ния. Хо­ро­шо про­ду­ман­ная ар­хи­тек­ту­ра поз­во­ля­ет ней­ро­сети луч­ше ре­шать опре­де­лен­ные за­да­чи, на­при­мер рас­по­зна­вать изоб­ра­же­ния или по­ни­мать текст. Вы­бор под­хо­дя­щей ар­хи­тек­ту­ры ва­жен для эф­фек­тив­но­сти и точ­но­сти ра­бо­ты мо­дели.

Са­мые рас­про­стра­нен­ные язы­ко­вые мо­дели ос­но­ва­ны на ар­хи­тек­ту­ре «Транс­фор­мер», пред­став­лен­ной в 2017 году ис­сле­до­ва­те­ля­ми из Google. Они хо­ро­шо за­ре­ко­мен­до­вали себя при ре­ше­нии прак­ти­че­ских за­дач, но для них тре­бу­ет­ся очень боль­шое ко­ли­че­ство ре­сур­сов, ко­то­рые рас­тут квад­ра­тич­но с удли­не­ни­ем тек­ста. Для ши­ро­ко­го прак­ти­че­ско­го при­ме­не­ния необ­хо­ди­мы ме­нее ре­сур­со­за­трат­ные ар­хи­тек­ту­ры.

Наи­бо­лее успеш­ные кон­ку­рен­ты транс­фор­ме­ров — по­след­ние SSM-мо­дели (State Space Mod­el, мо­дели про­стран­ства со­сто­я­ний) Mam­ba, но они усту­па­ют по спо­соб­но­сти кон­текст­но­го обу­че­ния, ко­то­рое поз­во­ля­ет ИИ-аген­там адап­ти­ро­вать­ся к но­вым за­да­чам без необ­хо­ди­мо­сти по­втор­но­го обу­че­ния.

В мо­дели Based, пред­став­лен­ной уче­ны­ми Стэн­фор­да в де­каб­ре 2023 года, ко­то­рая зна­чи­тель­но улуч­ши­ла спо­соб­но­сти кон­текст­но­го обу­че­ния, спе­ци­а­ли­сты T-Bank AI Re­search об­на­ру­жи­ли неэф­фек­тив­ное ис­поль­зо­ва­ние ре­сур­сов из-за неопти­маль­ной струк­ту­ры ней­ро­сети.

Про­ведя ана­лиз ар­хи­тек­ту­ры Base, уче­ные из T-Bank AI Re­search оп­ти­ми­зи­ро­вали ме­ха­низм из­вле­че­ния ин­фор­ма­ции из тек­ста, до­ба­вив но­вые обу­ча­е­мые па­ра­мет­ры, ко­то­рые от­ве­ча­ют за оп­ти­маль­ный по­иск вза­и­мо­свя­зей меж­ду ча­стя­ми тек­ста. Это поз­во­ля­ет улуч­шить про­цесс его об­ра­бот­ки и по­лу­чать бо­лее точ­ные от­веты. Уче­ные так­же упро­сти­ли ал­го­ри­тм вы­де­ле­ния тек­сто­вой ин­фор­ма­ции, что при­вело к уве­ли­че­нию про­из­во­ди­тель­но­сти, по­вы­ше­нию ка­че­ства ра­бо­ты с длин­ны­ми тек­ста­ми и улуч­ше­нию кон­текст­но­го обу­че­ния. В сред­нем по­ни­ма­ние вза­и­мо­свя­зей в тек­сте в но­вой ар­хи­тек­ту­ре стало луч­ше на 10%.

Re­Based спо­соб­на сни­зить из­держ­ки на ис­поль­зо­ва­ние ис­кус­ствен­но­го ин­тел­лек­та для спе­ци­а­ли­зи­ро­ван­ных за­дач, ко­то­рые име­ют кон­крет­ную об­ласть при­ме­не­ния и тре­бу­ют учета ее осо­бен­но­стей. На­при­мер, в ме­ди­цине та­кой за­да­чей мо­жет счи­тать­ся клас­си­фи­ка­ция тек­стов на ос­но­ве симп­то­мов и ди­а­гно­зов.

Но­вая ар­хи­тек­ту­ра, пред­ло­жен­ная уче­ны­ми, поз­во­ля­ет при­бли­зить ка­че­ство ли­ней­ных мо­де­лей к транс­фор­ме­рам. Мо­дели, в ос­но­ве ко­то­рых ле­жит Re­Based, мо­гут ге­не­ри­ро­вать тексты с бо­лее низ­ки­ми тре­бо­ва­ни­я­ми к ре­сур­сам прак­ти­че­ски без по­тери ка­че­ства.

Уче­ные про­во­ди­ли экс­пе­ри­мен­ты на да­та­сете MQAR (Multi-Query As­so­cia­tive Re­call), ко­то­рый поз­во­ля­ет опре­де­лять спо­соб­ность мо­дели к кон­тек­сту­аль­но­му обу­че­нию, а имен­но к ас­со­ци­а­тив­но­му за­по­ми­на­нию (за­по­ми­на­нию не свя­зан­ных пар объ­ек­тов), на­при­мер: лицо че­ло­века — его имя.


Рис. 1. Ре­зуль­таты по на­бо­ру дан­ных MQAR, раз­ра­бо­тан­но­му для из­ме­ре­ния воз­мож­но­стей кон­текст­но­го обу­че­ния ар­хи­тек­ту­ры Aro­ra и др. (2024). Re­Based пре­вос­хо­дит все эф­фек­тив­ные мо­дели в воз­мож­но­стях кон­текст­но­го обу­че­ния


Яро­слав Ак­се­нов, ис­сле­до­ва­тель об­ра­бот­ки есте­ствен­но­го язы­ка в T-Bbank AI Re­search:

«При­ме­ча­тель­но, что па­рал­лель­но с вы­хо­дом на­шей статьи груп­па ис­сле­до­ва­те­лей из Стэн­фор­да вы­пу­сти­ла ис­сле­до­ва­ние на эту же тему, но с дру­гим под­хо­дом к ре­ше­нию. Сей­час это одна из наи­бо­лее ин­те­рес­ных об­ла­стей ис­сле­до­ва­ний в NLP по все­му миру: транс­фор­ме­ры слиш­ком мед­лен­ные, но ли­ней­ные мо­дели усту­па­ют им по ка­че­ству. И мы, и уче­ные из Стэн­фор­да за­ни­ма­ем­ся по­ис­ком оп­ти­маль­ных ар­хи­тек­тур. Мы це­ним их вклад в раз­ви­тие тех­но­ло­гий и рады воз­мож­но­сти участ­во­вать в на­уч­ном диа­ло­ге та­ко­го уров­ня».

В пер­спек­тиве ли­ней­ные мо­дели все чаще бу­дут ис­поль­зо­вать­ся в ком­би­на­ции с транс­фор­ме­ра­ми в ка­че­стве со­став­ной части ги­брид­ных ар­хи­тек­тур. Та­кие ар­хи­тек­ту­ры со­че­та­ют в себе и ско­рость, и вы­со­кое ка­че­ство вы­пол­не­ния за­дач.

По­дроб­ное опи­са­ние мо­дели и ре­зуль­таты экс­пе­ри­мен­тов до­ступ­ны в статье Lin­ear Trans­formers with Learn­able Kernel Func­tions are Bet­ter In-Con­text Mod­els.

Ис­ход­ный код и до­пол­ни­тель­ные ма­те­ри­а­лы мож­но най­ти на GitHub.

T-Bank Al Re­search — это одна из немно­гих рос­сий­ских ла­бо­ра­то­рий, ко­то­рые за­ни­ма­ют­ся фун­да­мен­таль­ны­ми на­уч­ны­ми ис­сле­до­ва­ни­я­ми на базе биз­неса. Ла­бо­ра­то­рия вхо­дит в со­став Цен­т­ра ис­кус­ствен­но­го ин­тел­лек­та Т-Бан­ка.
Уче­ные из T-Bank Al Re­search ис­сле­ду­ют наи­бо­лее пер­спек­тив­ные об­ласти ИИ: об­ра­бот­ку есте­ствен­но­го язы­ка (NLP), ком­пью­тер­ное зре­ние (CV) и ре­ко­мен­да­тель­ные си­сте­мы (Rec­Sys). По ре­зуль­та­там экс­пе­ри­мен­тов они пи­шут на­уч­ные статьи для наи­бо­лее ав­то­ри­тет­ных меж­ду­на­род­ных на­уч­ных кон­фе­рен­ций: NeurIPS, ICML, ACL, CVPR и дру­гих.
За три года су­ще­ство­ва­ния ко­ман­ды бо­лее 20 ста­тей были при­няты на круп­ней­шие кон­фе­рен­ции и ворк­шо­пы в об­ласти ИИ. На­уч­ные ра­бо­ты T-Bank Al Re­search ци­ти­ру­ют­ся уче­ны­ми из уни­вер­си­те­тов Берк­ли и Стэн­фор­да, а так­же ис­сле­до­ва­тель­ско­го про­ек­та Google по изу­че­нию ис­кус­ствен­но­го ин­тел­лек­та Google Deep­Mind.
Ко­ман­да ку­ри­ру­ет ис­сле­до­ва­тель­ские ла­бо­ра­то­рии T-Bank Lab в МФТИ и Omut AI в Цен­траль­ном уни­вер­си­тете и по­мо­га­ет та­лант­ли­вым сту­ден­там со­вер­шать на­уч­ные от­кры­тия.
Предыдущая новость | Следующая новость
>