Pixabay.com
DariuszSankowski

Как новият AI на Apple може да вижда и разбира съдържанието на екрана ни

Компанията е разработила система с изкуствен интелект, която да осигури по-естествено взаимодействие с гласовите асистенти

от Мария Карашанова

2 април 2024 16:08

Pixabay.com

Изследователи на Apple са разработили нова система с изкуствен интелект, която обещава да промени напълно начина, по който взаимодействаме с гласовите асистенти. Новото решение може на практика да "вижда" какво има на даден екран, да разбира контекст и препратки, като по този начин се осигурява по-естествено общуване с потребителите.

Системата, наречена ReALM (Reference Resolution As Language Modeling), използва големи езикови модели, за да преобразува сложни задачи за обработка на препратки - включително разбиране на препратки за визуални елементи на екрана - в такива за изцяло езиково моделиране. "Способността да разбира контекст, включително препратки, е ключово за разговорния асистент", коментират изследователите от компанията, цитирани от VentureBeat. Те допълват, че по този начин потребителите могат да общуват с гласовия си асистент единствено с реч, като му дава задачи на база на това, което виждат на своите екрани, гарантирайки си едно "хендсфри" изживяване.

Именно и затова новата разработка се оказва толкова важна. Apple от известно време загатва за AI асистент, който ще може да се управлява само с глас, и настоящата новина може би ще бъде последвана от някои значителни ъпдейти на Siri на предстоящата конференция за разработчици през юни. С постижението си гигантът също така дава знак, че продължава да инвестира в това да направи и другите свои продукти по-разговорни и отчитащи контекста.

Зад технологията

За да се справи с екранно базираните препратки, ключова иновация на ReALM е реконструирането на екрана, използвайки обработените екранни обекти и тяхната локация за генерирането на текстово представяне на визуалните елементи. Изследователите демонстрират, че този подход в комбинация с допълнително настроени езикови модели специално за работа с препратки може да надмине GPT-4 при тази конкретна задача.

Въпреки възможностите на системата изследователите предупреждават, че да се разчита на автоматизиран анализ на екрани има своите ограничения. Справянето с по-сложни визуални препратки - например различаване на множество изображения - е вероятно да изисква въвеждането на компютърно зрение и мултимодални техники.

А докато чакаме да видим разгърнатия потенциал на технологията, от The Neuron предлагат още няколко възможни приложения на ReALM:

търговците на дребно могат да използват подобни системи, за да насочват потребителите към търсени продукти на база на това какво скоро са разглеждали;
при поддръжката на клиенти ReALM може да позволи на ботовете да напътстват потребителите, например като навигиране на приложение;
за подобряване на достъпността - способността на ReALM да превежда екранното съдържание в чист текст може да помогне на хората с увредено зрение да навигират приложения и уебсайтове.

Междувременно надпреварата за AI превъзходство се ускорява и тази разработка не е единствената AI иновация, която очакваме от гиганта. По време на предстоящата конференция компанията вероятно ще представи нова рамка за голям езиков модел, Apple GPT чатботове и други AI захранвани функционалности в екосистемата си. "Развълнувани сме да споделим детайли за нашата продължаваща работа в сферата на изкуствения интелект по-късно тази година", отбеляза главният изпълнителен директор на Apple Тим Кук миналия месец.

От мултимодални модели, които размиват границата между зрение и език до техники за изграждане на високопроизводителен специализиран изкуствен интелект с ограничен бюджет - постиженията на изследователските екипи на компанията показват, че нейните AI амбиции бързо се увеличават.