Як комп'ютери з людиноподібними відчуттями змінять наше життя?

16 липня 2021

Навіть найрозумніші комп’ютери не здатні достеменно зрозуміти цей світ, якщо вони не можуть бачити, чути, нюхати, смакувати або торкатися. У довготривалих амбітних спробах створити програмне забезпечення, яке б мислило подібно до людських істот, сама ідея надати машинам людиноподібних відчуттів, видавалася занадто сміливою. Але нині ситуація кардинально змінилася – стверджують автори статті, яка вийшла на шпальтах Wall Street Journal.

Такі людські здібності, як розпізнавання облич та голосів, вже стали звичними у наших смартфонах та віртуальних помічниках. Нині спеціально налаштовані сенсори, машинне навчання та нейронні мережі, тобто той підклас штучного інтелекту, який копіює роботу людського мозку, просувають цифрові відчуття на новий рівень. Тепер можливо створити робота, який буде вирізняти крихку посилку, на нюх визначати, що радіатор перегрівся, та відрізняти гидке Шардоне від пристойного.

Дарма, що більшість досліджень нині на початковій стадії – хайп навколо теми високий. Ми зробили огляд 10 прототипів ШІ, які мають людські відчуття.

Чітке бачення

Роботи не можуть добре впоратися зі скляними пляшками або прозорими пластиковими чашками саме через використання інфрачервоних променів. Форма предмета визначається за допомогою цих променів, які ще називають датчиками глибини. Проте, вони просвічують прозорі предмети, а замість зображення показують лише якісь розпливчасті тіні. Інженери з СMU (так, так, того самого Карнегі Меллон, куди ми їздимо на стажування!)  поєднали інфрачервоні датчики зі звичайною кольоровою камерою для того, щоб отримати змогу фіксувати відтінки червоного, зеленого та синього навколо країв прозорих предметів. А потім, за допомогою цих даних, вони перенавчають систему визначати ці малопомітні ознаки для того, щоб роботи могли визначити, з якою силою можна стискати предмет. «Наш зір більше схожий на кольорову камеру – ніхто з нас не посилає лазерні промені», – каже Девід Хельд, викладач Інституту робототехніки при СMU (Carnegie Mellon’s Robotic Institute).

Роботи  з уявою

Виробник софта OрenAI розробив застосунок на основі ШІ, названий DALL-E, який  може створювати зображення, описані у тексті, що друкує користувач. Інший додаток, CLIP, навпаки описує введені зображення. Обидва застосунка використовують нейронні мережі, які «перетравлюють» вміст величезної бібліотеки текстів та зображень, аж допоки не створять свій текст або зображення, який відповідає тому, що було їм «згодовано».

Слух

Звук відіграє важливу роль у розпізнаванні предметів, що допомагає роботам визначити прихований брак виробів на конвеєрі або дізнатися вміст запечатаних пакунків. Дослідники з СMU (куди ж без них) створили базу даних оцифрованих звуків та зображень. У ній – звуки, які створює штовханина іграшкових блоків, шум ручних інструментів, яблук, взуття та тенісних м’ячиків. Розробники записали більш як 15 000 різних звуків, які створюють 60 предметів хатнього вжитку. Після цього відцифровані дані ввели до моделі машинного навчання та навчили систему настільки добре, що вона правильно розпізнавала звуки у 75% випадків.  

Голос з натовпу

Нейронні мережі навчають відрізняти голос від галасу та розрізняти різні голоси для того, щоб сфокусуватися на основному спікері. Така можливість корисна для використання у заповнених приміщеннях та на гамірних вулицях. Вчені з корпорації Оticon.Inc. створили алгоритми, яким «згодовують» мільйони зразків мовлення, деякі з галасом на тлі. Мета – навчити вирізняти людську мову та придушувати будь-які інші звуки. У результаті такого навчання прилад може «почути» звук, оцифрувати його, порівняти з мільйонами зразків мови зі своєї бібліотеки, визначити унікальні характеристики голосу і відсіяти інші побічні звуки попри їхню гучність.

Нюх

Aryballe – французький стартап, який поєднує біосенсори та машинне навчання для імітації того, як наш мозок розрізняє запахи. Сенсори вхоплюють молекули запаху та перетворюють їх на цифрові дані, а нейронні мережі порівнюють їх з базами даних де є такі характеристики, як несвіжий, солодкий, фруктовий або кислий та їхні поєднання, які були проаналізовані раніше. Мережі також можна навчити розрізняти конкретні запахи, наприклад різних сортів какао-бобів або Шанель №5. Цю технологію можна використовувати як для визначення парфумерних підробок, так і зіпсованих товарів тощо.

Зупинитися та понюхати троянди

Вчені з University of California (Riverside) йдуть далі та використовують систему машинного навчання для передбачення того, чи сподобаються людям запахи. Для цього вони проаналізували, як рецептори у людських носах реагують на аромати. Потім створили базу даних різних типів запаху, які визначаються за допомогою 40 рецепторів (людина має 400 рецепторів), а потім навчили софт-модель ретельно аналізувати дані та вимірювати реакцію рецепторів на різні запахи.

Це ваше горнятко чаю?

Учені з дослідницького дивізіону IBM в Цюріху розробили кишеньковий прилад, який назвали Hypertaste або електронний язик. Його основа – електрохімічні сенсори, які складаються з електродів. Прилад розміщують на склянці, а електроди реагують на різні молекули, які надають рідині смак. Потім кодують в електричні сигнали, що надходять від цих молекул, та створюють таким чином електричний відбиток напою. Після цього за допомогою алгоритмів машинного навчання відбиток порівнюється з базою даних, яка теж постійно зростає. А результати порівняння, які показують, чи ви п’єте Пепсі-колу чи Піно нуар, надсилаються на смартфон.

База даних смакоти

Платформа зі здатністю до самонавчання Gastrograph AI, створена компанією Analytical Flavor System Inc. Вона призначена для передбачення того, які смаки подобатимуться людям. Принцип роботи такий самий – цифрова модель тренується на масиві даних, зібраних від тисяч споживачів, які оцінюють смак страв за категоріями «рибний», «дерев’яний» , «зелене яблуко» тощо. Система розподіляє  отримані результати на графіках та включає до бази даних, з якою порівнюються нові надходження та навчаються алгоритми.

Відчуття

Роботи на виробничих лініях та складах працюють з пакунками та деталями машин. Але як зробити так, щоб вони могли розраховувати силу, з якою можна стискати предмети? За допомогою датчиків, нейромереж та баз даних. Маленький гумовий блок на робо-руці робить відбиток предмету, а камера перетворює відбиток на 3D малюнок. Далі підключаються комп’ютерний зір та алгоритмічні моделі визначають розмір об’єкта та форму та надають інформацію про те, яку силу треба докладати до об’єкта та як з ним поводитися. Розробка належить Massachusetts Institute of Technology’s Computer Science and Artificial Intelligence Lab.  

Людський дотик

Люди сприймають свої тактильні властивості за належне. Ми звикли навпомацки знаходити ключі в кишені або застібати ґудзики. Але роботам треба цього вчитися. Дослідники з Massachusetts Institute of Technology вчать роботів передбачати, які відчуття викликатимуть видимі предмети різної форми. У нагоді знову стає машинне навчання за допомогою порівняння тактильно-візуальних «дуетів» з мільйонними базами даних. Інформація про «пари» збирається за допомогою відео про 200 предметів щоденного вжитку з вебкамер та відбитків з тактильних сенсорів. Дані використовуються для навчання алгоритмів.