Три нова УСЕ вишејезична модула долазе на ТенсорФлов

Тецх / Три нова УСЕ вишејезична модула долазе на ТенсорФлов 2 минута читања

Гоогле Воице Сеарцх



Гоогле је један од пионира у истраживању уметне интелигенције и мноштво њихових пројеката се окренуло главом. АлпхаЗеро од Гоогле-а ДеепМинд тим је био напредак у истраживању вештачке интелигенције, захваљујући способности програма да сам научи компликоване игре (без обуке и интервенције човека). Гоогле је такође одлично обавио посао у Програми за обраду природног језика (НЛП), што је један од разлога ефикасности Гоогле помоћника у разумевању и обради људског говора.

Гоогле је недавно најавио излазак три нова КОРИСТИТЕ вишејезичне модуле и пружају вишејезичне моделе за проналажење семантички сличног текста.



Прва два модула пружају вишејезичне моделе за дохваћање семантички сличног текста, један оптимизован за перформансе претраживања, а други за брзину и мање употребе меморије. Трећи модел је специјализован за проналажење питања-одговора на шеснаест језика (УСЕ-КА) и представља потпуно нову примену УСЕ. Сва три вишејезична модула су обучена помоћу а мулти-таск дуал-енцодер фрамеворк , слично оригиналном УСЕ моделу за енглески језик, док смо користили технике које смо развили за побољшање дуал-енцодер са адитивном маргином софтмак приступом . Они нису дизајнирани само за одржавање добрих перформанси учења преноса, већ и за добро обављање н семантичких задатака проналажења.



Обрада језика у системима прешла је дуг пут, од рашчлањивања основног стабла синтаксе до великих векторских модела. Разумевање контекста у тексту један је од највећих проблема у НЛП пољу и Универзални кодер реченице то решава претварањем текста у високодимензионалне векторе, што олакшава рангирање и денотацију текста.



Извор структуре означавања УТЕ - Гоогле блог

Према Гоогле-у, „ Сва три нова модула изграђена су на семантичкој архитектури проналажења, која обично дели кодирање питања и одговора у засебне неуронске мреже, што омогућава претраживање међу милијардама потенцијалних одговора у милисекундама. ”Другим речима, ово помаже у бољем индексирању података.

' Сва три вишејезична модула су обучена помоћу а мулти-таск дуал-енцодер фрамеворк , слично оригиналном УСЕ моделу за енглески језик, док смо користили технике које смо развили за побољшање дуал-енцодер са адитивном маргином софтмак приступом . Они нису дизајнирани само за одржавање добрих перформанси учења преноса, већ и за добро обављање н семантичких задатака проналажења . “ Софтмак функција се често користи за уштеду рачунарске снаге тако што потенцира векторе, а затим дели сваки елемент збиром експоненцијала.



Архитектура семантичког претраживања

„Сва три нова модула изграђена су на семантичким архитектурама проналажења, које обично деле кодирање питања и одговора у засебне неуронске мреже, што омогућава претраживање међу милијардама потенцијалних одговора у милисекундама. Кључ употребе двоструких кодера за ефикасно семантичко проналажење је претходно кодирање свих одговора кандидата на очекиване улазне упите и њихово чување у векторској бази података која је оптимизована за решавање проблем најближег комшије , што омогућава брзу и добру претрагу великог броја кандидата прецизност и опозив . '

Ове модуле можете преузети са ТенсорФлов Хуб-а. За даље читање погледајте ГооглеАИ'с фулл блог пост .

Ознаке гоогле