Sztuczna inteligencja w zasięgu każdej firmy MŚP: chmurowe usługi kognitywne

Paweł Tadejko
Ekspert współpracujący z Platformą Przemysłu Przyszłości

Wraz z popularyzacją Sztucznej Inteligencji (SI) pojawiało się wiele pojęć, które określają poziom jej zaawansowania i możliwości. Pojawiły się też nowe narzędzia ułatwiające jej wdrożenie. Celem artykułu jest pokazanie w obrazowy sposób, co ma wspólnego Sztuczna Inteligencja i maszynowe uczenie się z inteligencją poznawczą oraz dlaczego ta ostatnia jest tak atrakcyjna w biznesie. To właśnie usługi kognitywne, w których przetwarzanie maszynowe ma naśladować ludzkie rozumowanie, nawiązują swoją nazwą do „inteligencji poznawczej”. Implementacja usług kognitywnych w usługach chmurowych sprawia, że Sztuczna Inteligencja pojawia się w zasięgu każdej firmy – także segmentu Małych i Średnich Przedsiębiorstw.

Na ile sztuczna jest AI? Kilka słów o pojęciach

Sztuczna Inteligencja (AI, ang. Artificial Intelligence), maszynowe uczenie się (ML – ang. Machine Learning) i głębokie uczenie się (ang. deep learning) to pojęcia, które najczęściej pojawiają się w publikacji dotyczących współczesnych systemów z elementami naśladującymi działania określane mianem inteligentnych. Mówiąc konkretnie, można śmiało przytoczyć tu określenie sławnego kognitywisty Johna McCarthego, jednego z twórców dyscypliny Sztucznej Inteligencji, który o najbardziej zaawansowanej wersji AI – silnej Sztucznej Inteligencji (ang. strong AI / general AI) – mówił:

AI to dziedzina informatyki umożliwiająca rozwój systemów, które są w stanie robić rzeczy normalnie wykonywane przez ludzi – w szczególności rzeczy związane z inteligentnymi działaniami ludzi.

Znając pojęcie Sztucznej Inteligencji możemy określić relacje w stosunku do pojęć maszynowego uczenia się i głębokiego uczenia się. To pomoże nam w zdefiniowaniu ram, które mają znaczenie w zrozumieniu funkcjonalności i konkretnych rozwiązań implementowanych za pomocą kognitywnych usług chmurowych.

Rys. 1. Różnice między Sztuczną Inteligencją, maszynowym uczeniem się i głębokim uczeniem się (źródło: Oppermann A., Artificial Intelligence vs. Machine Learning vs. Deep Learning, Towards Data Science)

Samo pojęcie AI też może być interpretowane w różny sposób. Najpopularniejszy podział dotyczy dwóch kategorii:

wąskiej Sztucznej Inteligencji (ang. narrow AI), która skupia się tylko na wąskim, zdefiniowanym z góry zadaniu i funkcjonalnie jest ograniczona do realizacji zakresu zadania oraz
general AI, która obejmuje systemy z wiedzą ogólną i zdolnościami poznawczymi, w założeniu podobnymi do procesu podejmowania decyzji przez człowieka.

Tabela 1. Różnice między Sztuczną Inteligencją, maszynowym uczeniem się i głębokim uczeniem się

Deep learning	Podzbiór narzędzi i metod ML, dzięki którym za pomocą Sztucznych Sieci Neuronowych (SSN) możliwe jest automatyczne uczenie się postępowania z dużymi zbiorami danych. Zaleta SSN w porównaniu do ML jest taka, że potrafią one samodzielnie zidentyfikować cechy charakterystyczne danych. Można nawet posunąć się do stwierdzenia, że współczesna rewolucja przemysłowa jest napędzana przez SSN i głębokie uczenie się. Algorytmy maszynowego uczenia się poszukują wzorców i formułują reguły, działając na wzór ludzkiego mózgu, choć zdolności poznawcze maszyn są ograniczone.
Machine Learning	Algorytmy i narzędzia, które dają maszynom zdolność uczenia się działania w określony sposób, bez konieczności jawnego zaprogramowania tego działania. Maszynowe uczenie się obejmuje algorytmy do wykonywania różnego rodzaju zadań, takich jak grupowanie, regresja czy klasyfikacja. Algorytmy maszynowego uczenia się muszą być trenowane z użyciem danych – w nich odnajdywane są wzorce, będące podstawą podejmowania decyzji. Więcej danych dobrej jakości (w których występują odpowiednie wzorce) daje większe prawdopodobieństwo, że algorytm zostanie lepiej wytrenowany. Rozwiązanie to umożliwia zatem automatyczne przystosowanie się maszyny do wykonywania zadań na podstawie analizy danych.
Artificial Intelligence	Systemy, które mają zdolność uczenia się i wnioskowania na wzór procesu prowadzonego przez człowieka. Na najniższym poziomie AI może być tylko zbiorem zaprogramowanych reguł, określających sposoby postępowania w określonych sytuacjach. Na najwyższym powinna potrafić naśladować inteligencję człowieka w określonych sytuacjach. Problemem jest, że tak złożone zadanie potrafimy opisać tylko w ograniczony sposób, bez uwzględnienia wielu nieprzewidywalnych zdarzeń – emocji czy mechanizmów kojarzenia i wnioskowania – znanych z reakcji ludzkiego mózgu.

Algorytmy ukryte za tymi określeniami są programami rozwiązującymi problemy dzięki ogromnej mocy obliczeniowej, najczęściej dostępnej w specjalnych akceleratorach (np. wykorzystujących moc obliczeniową układów kart graficznych) lub usługach dostarczanych w chmurze. W przeciwieństwie do klasycznych algorytmów, implementacje ww. kategorii narzędzi naśladują poznawcze zadania człowieka, ponieważ analizują, wnioskują i uczą się. Wymienione narzędzia zmieniają nasze wyobrażenie o biznesie (nie tylko w ramach Przemysłu Przyszłości), sposobie zastosowania w nim komputerów oraz to, jak w nim działamy i podejmujemy decyzje.

Gdyby chcieć bardziej szczegółowo wyróżnić elementy składowe Sztucznej Inteligencji, to jednym z najczęściej przyjmowanych podziałów jest ten przedstawiony na rys. 2.

Bardziej szczegółowa lista z krótkimi komentarzami znajduje się w tabeli 2. Jest to oczywiście tylko zasygnalizowanie zagadnień. Każdy kto chciałby zapoznać się z poszczególnymi technikami i narzędziami powinien sięgnąć do bardziej obszernych opracowań i kursów. Swoją przygodę zacząć można od bardzo przystępnych materiałów znanego na świecie kursu, który został przetłumaczony na język polski „Popularny kurs podstaw Sztucznej Inteligencji jest już dostępny po polsku”.

Tabela 2. Elementy składowe Sztucznej Inteligencji

Nazwa obszaru/narzędzia	Skrócony opis rozwiązań
Predictive analysis	Analiza predykcyjna – prognozowanie przyszłych zjawisk i zdarzeń na podstawie obecnych lub historycznych danych
Deep learning	Deep learning – naśladowanie działania ludzkiego mózgu z użyciem Sztucznych Sieci Neuronowych
Machine Learning	Maszynowe uczenie się – automatyczne podejmowanie decyzji na podstawie analizy danych, zamiast stałego programu.
Text to speech	Proces syntezy mowy – system komputerowy nazywany syntezatorem mowy generuje mowę ludzką. Może być zaimplementowany w produktach programowych lub sprzętowych
Speech to text	Zamiana mowy na pismo – metody i techniki umożliwiające rozpoznawanie i tłumaczenie języka mówionego na tekst za pomocą komputerów. Jest częścią automatycznego rozpoznawanie mowy (ASR – ang. Automatic Speech Recognition), komputerowe rozpoznawanie mowy
Speech recognition	Rozpoznawanie mowy – maszynowe słuchanie ludzkiego języka do potrzeb komunikacji z ludźmi. Rozpoznawanie mowy jest interdyscyplinarną dziedziną informatyki i lingwistyki obliczeniowej
Image recognition	Rozpoznawanie wzorców – zdolność rozpoznawania wzorców na tym, co rejestrują na obrazach
Machine vision	Widzenie komputerowe – rejestrowanie obrazu i przetwarzanie go, np. do potrzeb wykrywania i klasyfikacji obiektów (object detection & classification). Na wyjściu systemu otrzymujemy propozycje obiektów z określonym poziomem prawdopodobieństwa
Natural Language Processing (NLP)	Przetwarzanie języka naturalnego – czytanie i interpretowanie treści, znajdowanie wzorców w tekście, jak i generowanie wypowiedzi
Classification	Klasyfikacja tekstu – proces przypisywania znaczników lub kategorii do tekstu zgodnie z jego treścią. Jest to jedno z podstawowych zadań w przetwarzaniu języka naturalnego
Translation	Tłumaczenie maszynowe – automatyczny przekład tekstu z jednego języka ludzkiego na drugi. Jest to jeden z najtrudniejszych problemów i należy do klasy problemów potocznie nazywanych AI-complete, tj. wymagających właściwego powiązania wszystkich rodzajów wiedzy, jaką człowiek posiada (gramatyka, semantyka, fakty o rzeczywistym świecie, itp.)
Data extraction	Wydobywanie danych – zadania z zakresu przetwarzania wstępnego i np. wyodrębniania cech charakterystycznych (ang. feature extraction) języka naturalnego (NLP). Niektóre z tych zadań mają bezpośrednie zastosowanie w świecie rzeczywistym, podczas gdy inne częściej służą jako podzadania, które służą jako pomoc w rozwiązywaniu większych zadań, tj. proces syntezy mowy, przetwarzanie języka naturalnego itp.
Knowledge processing	Przetwarzanie wiedzy – systemy uczą się zdolności składowania danych i informacji oraz jej udostępniania, z uwzględnieniem semantyki i inteligentnych algorytmów.
Higher-level NLP applications	Aplikacje NLP wyższego poziomu – zastosowanie zaawansowanych metod i narzędzi NLP do realizacji bardziej złożonych zadań
Automatic summarisation (text summarisation)	Automatyczne podsumowywanie – tworzenie czytelnego podsumowania fragmentu tekstu
Dialogue management	Zarządzanie rozmową – systemy komputerowe przeznaczone do prowadzenia konwersacji z człowiekiem
Natural Language Understanding (NLU)	Zrozumienie mowy ludzkiej – konwersja fragmentów tekstu na bardziej formalne reprezentacje, które są łatwiejsze do dalszego przetwarzania przez programy komputerowe.
Questioning & Answering	System pytań i odpowiedzi – system zadawania pytań w ludzkim języku i analizy poprawności odpowiedzi, także na nietrywialne pytania.

Dlaczego warto zapamiętać pojęcie „cognitive computing”

Nie ma dobrego tłumaczenia na język polski pojęcia cognitive computing. Przetwarzanie poznawcze to zastosowanie komputerowych modeli do symulacji procesu ludzkiego toku rozumowania, w złożonych sytuacjach, w których odpowiedzi mogą być niejednoznaczne i niepewne. Cognitive computing stanowi swego rodzaju próbę symulacji procesów myślowych człowieka. Celem systemów zbudowanych na bazie tej idei jest interpretacja otaczającej nas rzeczywistości i uczenie się na tej podstawie, wnioskowanie i realizacja interakcji człowiek-komputer. Do tego używana jest Sztuczna Inteligencja i jest wiele algorytmów przetwarzania sygnałów oraz innych narzędzi matematycznych. Projektowane systemy dzięki zastosowaniu algorytmów detekcji, ekstrakcji i klasyfikacji pozwalają na rozpoznawanie obrazów, analizę nagrań audio/video i mowy oraz przetwarzanie języka naturalnego.

Oto w jaki sposób cognitive computing próbuje naśladować działanie ludzkiego mózgu i ludzkich zmysłów. Nie zawsze doskonale, ale w ostatniej dekadzie jesteśmy na pewno świadkami rewolucji.

Tabela 3. Różnica pomiędzy Przetwarzaniem Poznawczym a Sztuczną Inteligencją (źródło: Cognitive computing: Moving from hype to deployment)

Cognitive computing (przetwarzanie poznawcze)	Część wspólna	Artificial Intelligence (Sztuczna Inteligencja)
Zdolność komputerów do stymulowania i uzupełniania zdolności poznawczych człowieka w zakresie podejmowania decyzji	Stosowanie tych samych zasad, w tym sieci neuronowych, maszynowego uczenia się , świadomości kontekstowej itp.	Nie ma na celu naśladowania ludzkich myśli i procesów, ale rozwiązanie problemu poprzez zastosowanie najlepszego możliwego algorytmu
Nie odpowiada za podejmowanie decyzji za człowieka	Zdolność do rozwiązywania problemów uważanych za zbyt złożone dla przeciętnego ludzkiego mózgu; są odpowiedzialne za zwiększoną i płynną wydajność	Jest odpowiedzialna za samodzielne podejmowanie decyzji, minimalizując w ten sposób rolę ludzi

Implementacja cognitive computing w środowisku chmurowym nosi nazwę cloud cognitive services i przybiera różną postać. W zależności od dostawcy jest to różnorodny wachlarz usług obejmujących tematy rozpoznawania obrazów, analizy nagrań audio/video i mowy oraz przetwarzanie języka naturalnego, podzielonych na kategorie chmurowych usług kognitywnych, które można przypisać do obszarów pokazanych na rys. 3.

Rodzaje Chmurowych Usług Kognitywnych (Cloud Cognitive Services) — Rys. 3. Rodzaje (kategorie) chmurowych usług kognitywnych (źródło: infografika własna, PPP)

Realizacją algorytmów ukrytych za tymi określeniami są programy, rozwiązujące problemy, dzięki ogromnej dostępnej mocy obliczeniowej w chmurze, w przypadku których ludzki umysł miałby trudności z przetworzeniem. W przeciwieństwie do klasycznych algorytmów, naśladują one poznawcze zadania człowieka, ponieważ analizują, wnioskują i uczą się. Projektowane systemy, z zastosowaniem wspomnianych algorytmów, z pomocą narzędzi detekcji, ekstrakcji i klasyfikacji pozwalają na próby realizacji poznawania – na wzór ludzkich zmysłów. Podział pokazany na rys. 4 można krótko scharakteryzować jak główne obszary przetwarzania poznawczego.

Zastosowań cloud cognitive services można wyobrazić sobie wiele. Wystarczy, że obejrzymy kilka przykładów demonstrujących, jak one działają. Rozpoczynając od zaawansowanych systemów w liniach produkcyjnych w fabryce, poprzez systemy monitorowania wizyjnego (biometryczne, ale także do nadzorowania bezpieczeństwa publicznego), a kończąc na prostych aplikacjach, z których możemy korzystać na co dzień. Przykładem zastosowania tego rozwiązania w codziennych czynnościach jest np. wyszukiwanie obrazem: realizuje je aplikacja w smartfonach Google Lens (Obiektyw Google).

Rys. 4. Przykład usługi kognitywnej – aplikacja mobilna Google Lens (źródło: Digital Trends)

Google Lens to jedno z darmowych narzędzi do wyszukiwania informacji za pomocą obrazu. Potrafi rozpoznać obiekty, które są na zdjęciach i za pomocą Sztucznej Inteligencji jest w stanie podać nam najpotrzebniejsze informacje na temat podanych obiektów, wyszukać je w sklepach czy restauracjach. Jest to przykład aplikacji typu visual search, w przypadku której mamy do czynienia z wyszukiwaniem na podstawie zdjęcia.

Zastosowanie usług „cognitive computing” w biznesie

Usługi kognitywne (ang. cognitive services) umożliwiają programistom tworzenie aplikacji z zastosowaniem sztucznej inteligencji bez konieczności posiadania zaawansowanych umiejętności w zakresie deep learning, Machine Learning lub data science. Oczywiście jest to pewne uproszczenie, bo muszą poznać wytyczne, warunki i specyfikę działania usług, ale nie muszą zgłębiać tajników Sztucznych Sieci Neuronowych, aby stosować w aplikacji mobilnej funkcję rozpoznawania obrazów. Natomiast chmurowe usługi kognitywne (CCS – ang. Cloud Cognitive Services) są implementacją Usług Kognitywnych w środowisku chmurowym, najczęściej w formie specjalizowanego API (ang. Application Programming Interface). Wszystko, czego potrzeba, aby dodać w naszych aplikacjach mobilnych i stronach WWW zdolność widzenia, słyszenia, mówienia, wyszukiwania, rozumienia i przyspieszania podejmowania decyzji, to zastosowanie API.

Rys. 5. Przykładowe API chmurowe Usług Kognitywnych oparte na narzędziach Sztucznej Inteligencji. Więcej na Microsoft AI – Cognitive Services: Seeing AI demo (źródło: infografika własna PPP)

Przykłady chmurowego API Usług Kognitywnych bazujących na narzędziach Sztucznej Inteligencji pokazane zostały na rys. 5. Niektóre z nich bezpośrednio nawiązują do podziału wg. kategorii Sztucznej Inteligencji, inne są bardziej szczegółowymi realizacjami, które wykonują konkretne zadania.

W aplikacji mobilnej Google Lens zastosowano wiele algorytmów Machine Vision. Poczynając od podstawowych, a kończąc na bardzo zaawansowanych. Dostajemy aplikację, która jest efektem połączonego działania wielu usług i narzędzi, m.in. computer vision (object detection, object identification), knowledge processing (object recognition) oraz image search (entity linking, semantic search). Podstawowe algorytmy są używne do:

Narzędzie/API	Zastosowanie
Computer vision	Do rejestrowania obrazu i przetwarzania wstępnego, w celu przygotowania obrazu do dalszej analizy przez oprogramowanie komputerowe
Object detection	Do detekcji obiektów w obrazie, która bazuje na podziale obrazu na obszary zainteresowania i zastosowaniu algorytmów matematycznych do wydzielenia charakterystycznych elementów obrazu
Object identification	Do rozpoznawania tego, co znajduje się w obrazie, ale nie tylko w kontekście obiektów (kształt, kolor, struktura), ale także w kontekście identyfikacji czy to przedmiot, osoba, zwierzę, itp.
Object recognition	Do rozpoznawania, jaki konkretnie obiekt (łącznie z próbą określenia nazw własnych) lub jaki gatunek zwierzęcia, lub jaka osoba znajduje się na obrazie
Image search	Do „wyszukiwania obrazem” na podstawie cech określonych w zidentyfikowanych i rozpoznanych obiektach
Entity linking, semantic search	Do wyszukiwania na podstawie relacji (m.in. ontologii), modeli i formalizmów umożliwiających rozumienie obrazu i tekstu

Głównymi dostawcami w obszarze Cloud Cognitive Services są wielcy dostawcy usług w chmurze, w tym między innymi Amazon AWS, Microsoft Azure, Google Cloud i IBM Watson. Firmy te oferują ogromną liczbę platform chmurowych i mikrousług infrastrukturalnych i przodują w badaniach nad Sztuczną Inteligencją. Według Transparency Market Research, przewiduje się, że przychody z MLaaS (ang. Machine Learning as a Service, maszynowe uczenie się jako usługa) wzrosną do 19,86 miliardów dolarów do 2025 roku. Więcej informacji o sposobie działania algorytmów machine vision / computer vision można obejrzeć poniżej.

Jak działa computer vision (How Computer Vision Works)

Oprócz złożonych platform chmurowych możemy korzystać z wysokopoziomowych interfejsów API i specjalizowanych bibliotek. Są to aplikacje i usługi z wytrenowanymi modelami „pod maską” do konkretnych zastosowań, które możemy używać do rozwiązywania problemów w zbiorach danych generowanych w przedsiębiorstwie oraz oczekiwać zbliżonych efektów w konkretnych zastosowaniach. W zależności od tego czy potrzebujemy rozwiązań chmurowych czy rozwiązań w infrastrukturze przetwarzania brzegowego (patrz także „Kiedy Data jest Big – Cloud i Edge Computing, czyli gdzie składować dane przedsiębiorstwa”) na rynku dostępne są systemy, które potrafią realizować wybrane zadania przetwarzania kognitywnego także samodzielnie, bez konieczności połączenia z chmurą. Nie zawsze są to rozwiązania tak zaawansowane jak Cloud Cognitive Services, ale zdarzają się też sytuacje odwrotne.

Dlaczego zastosowanie AI w chmurze jest tak atrakcyjne w biznesie

Usługi chmurowe mogą być rozumiane w różny sposób, w zależności od tego do jakich celów chcemy je użyć. Firmy stosują je do składowania danych, wdrażania rozwiązań do obsługi firmy, systemów CRM, LMS, ERP, DEX, czy umieszczania całych systemów w środowiskach zwirtualizowanych. Systemy cloud computing mają jednak zdecydowanie większe możliwości, które są coraz częściej stosowane nie tylko w Przemyśle 4.0. Główną ideą tej koncepcji jest użycie gotowego środowiska i narzędzi chmurowych, które pozwalają dzierżawić jako SaaS (ang. Software as a Service, dzierżawa oprogramowania) narzędzia i aplikacje zarówno do integracji urządzeń, jak i zbierania i analizy danych. Dzięki temu ograniczamy wysiłki i wydatki na tworzenie części komponentów od nowa, na rzecz użycia „półfabrykatów” w postaci oprogramowania i usług chmurowych. Internet Rzeczy w Chmurze (ang. CoT, Cloud of Things) zapewnia też idealną platformę do łączenia systemów IoT firm z usługami inteligentnego miasta, w tym usług na rzecz mieszkańców, budynków, sieci wodociągowych, szpitali i innych zasobów.

Bardziej istotne z punktu widzenia Przemysłu 4.0 są rozwiązania z obszaru narzędzi maszynowego uczenia się. Implementacja usług kognitywnych w usługach chmurowych sprawia, że sztuczna inteligencja jest w zasięgu każdej firmy – także z segmentu Małych i Średnich Przedsiębiorstw. Wszyscy „główni gracze” technik chmurowych: Amazon, Google, Microsoft i IBM dostarczają usługi cloud computing, realizujące obie wymienione koncepcje. W zakresie narzędzi ułatwiających wdrożenia platform IoT są to specjalizowane usługi, w przypadku przetwarzania poznawczego przykłady wymienione zostały na rys. 6.

Rys. 6. Kognitywne Usługi Chmurowe w kontekście Przemysłu 4.0 (źródło: infografika własna FPPP)

Kluczowym atutem przetwarzania w chmurze jest zastosowanie` automatycznego maszynowego uczenia się (AutoML, ang. Automated Machine Learning), które określa się też mianem MLaaS. Takie podejście pozwala budować zindywidualizowane rozwiązania, do zastosowania w firmie, zarówno w hali produkcyjnej, jak i wszędzie, gdzie chcemy użyć automatyczne algorytmy do detekcji, identyfikacji i przetwarzania informacji. Korzystając z MLaaS możesz szybko tworzyć wysoce zindywidualizowane modele ML. Podobnie, jak w przypadku modelu dostarczania infrastruktury chmurowej w biznesie, w MLaaS zakłada się, że specjaliści zajmujący się wdrożeniem dostarczą zestaw danych z przedsiębiorstwa, który będzie trenować zaprojektowany wcześniej model (rys. 7).

Rys. 7. Zasady działania automatycznego maszynowego uczenia się (źródło: How does AutoML works?, Jeetendra Gangele, Medium)

Dlaczego AutoML jest tak atrakcyjne w biznesie? Automatyczne maszynowe uczenie się to proces pobierania danych treningowych (np. z setek tysięcy zdjęć) w jasno określonym celu (z tzw. funkcją docelową), poprzez kombinacje algorytmów i dobór działań w celu automatycznego wyboru najlepszego rozwiązania (tzw. modelu) na podstawie wyników uczenia się.

Tradycyjny proces tworzenia modelu Machine Learning wymaga dużej mocy obliczeniowej i czasochłonnego porównywania wyników dziesiątek modeli. Automated Machine Learning w chmurze upraszcza ten proces, generując modele dostosowane do celów i ograniczeń, które zdefiniowaliśmy w naszym biznesie (w tzw. funkcji celu). W kolejnym etapie możemy zastosować dodatkowo dane pochodzące z przedsiębiorstwa w celu lepszego wytrenowania modelu, tj. dostosowania go do specyfiki danych w przedsiębiorstwie.

Przykłady zastosowania Cloud Cognitive Services w biznesie

Internet rzeczy, sztuczna inteligencja i obliczenia kognitywne odgrywają ważną rolę w czwartej rewolucji przemysłowej. Założenia Przemysłu 4.0 mówią o tym, że Sztuczna Inteligencja ma zapewnić automatyzację na dużą skalę. Wiele usług kognitywnych pozwala realizować te cele, ale często wymaga potężnych mocy obliczeniowych i zmiennego obciążenia. Dlatego chmura w części przypadków jest najlepszych rozwiązaniem.

Zastosowań Cloud Cognitive Services można wyobrazić sobie wiele. Wystarczy, że obejrzymy kilka przykładów demonstrujących, jak one działają.

Przykłady zastosowania usług kognitywnych w biznesie

Przykład: Wyszukiwanie wizualne przedmiotów za pomocą obrazów

Wyzwanie: Wyszukiwanie skomplikowanych wzorców, często produktów użytkowych, które są trudne do opisania za pomocą znanych określeń dotyczących koloru i kształtu, czy nawet przywołania podobieństwa, np. ubrań – sukienek, butów itp.

Idea: Podejście polega na zastosowaniu do wyszukiwania systemu, który bazuje na mechanizmach i narzędziach computer vision. System dostaje na wejście obraz, który jest wzorcem do wyszukiwania.

Rozwiązanie: Handel elektroniczny i wyszukiwanie obrazów mogą korzystać z maszynowego uczenia się w różny sposób, zapewniając użytkownikom spersonalizowane doświadczenia. W fazie projektowania stosujemy model wyszukiwania wizualnego i możemy go dodatkowo trenować na danych katalogu sklepu internetowego. Maszynowe uczenie się i technika widzenia komputerowego w tle, analizująca cechy produktu/obrazu, porównująca kształty, kolory i wzory, w efekcie zwracają wyniki wizualnie podobne do obrazu referencyjnego. Za pomocą ML wydobywamy cechy z przesłanego przez klienta obrazu i dokonujemy porównań, aby znaleźć najbardziej podobne wizualnie dopasowania.

Do czego nam wyszukiwanie obrazem (ang. visual search)? (źródło: Reinventing Retail with AI, Cloud Next ’19)

Przykład: Zastosowanie CCS – łatwa odprawa na lotniskach dzięki wdrożeniu wykrywania twarzy

Wyzwanie: Łatwiejsza i szybsza odprawa na lotniskach. Zachowanie wyższego poziomu bezpieczeństwa. Skoro można utworzyć konto w banku „robiąc selfie”, to dlaczego nie można odprawić się na lotnisku?

Idea: A co by było, gdybyś mógł podróżować bez „papieru”? Gdyby dzięki realizacji wykrywania twarzy pasażerowie mogli zarezerwować swoje loty i dokonać odprawy z wyprzedzeniem przed godziną lotu oraz otrzymać kartę pokładową?

Rozwiązanie: W systemie zastosowano dopasowanie biometryczne, w którym sprawdza się „od punktu do punktu” symetrię twarzy i identyfikuje każdą twarz jako niepowtarzalną. Zapewnia to wysoki poziom bezpieczeństwa i ma możliwość szybkiego skanowania twarzy podróżnych i eliminacji czasu oczekiwania. Stwierdzono, że jednym z najszybszych sposobów masowej identyfikacji jest wykrywanie twarzy. W Chinach działa to w kilku miastach na niespotykaną nigdzie indziej skalę.

Rys. 8. Urządzenie biometryczne w terminalu lotniska (źródło: 10 technology trends for airlines and airports to focus on in 2019)

Przykład: Zastosowanie CCS – kontrola jakości z zastosowaniem systemów wizyjnych

Wyzwanie: Wykrywanie wad jakościowych jest często kluczowe, aby zapobiec niezadowoleniu klienta, a nawet uszkodzeniu linii produkcyjnej. Aby zagwarantować wysoki standard jakości stosuje się stałą kontrolę, dziś często ręczną.

Idea: Zastosowanie do tych kontroli systemu Computer Vision, aby uniknąć ręcznej pracy w rutynowych przypadkach.

Rozwiązanie: Połączenie klasycznego przetwarzania obrazu z najnowszymi metodami Machine Learning pozwala na wykrycie i odróżnienie znanych obiektów od obiektów obcych lub takich, które mają nieoczekiwane zmiany.

Rys. 9. Computer Vision w zapewnieniu jakości – sztuczna inteligencja w automatyzacji procesów produkcyjnych (źródło: Computer Vision for Quality Assurance – Cloudflight)

Przykład: Zastosowanie CCS – wizualna inspekcja przemysłu opakowaniowego

Wyzwanie: Producenci chcą wdrażać rozwiązania, w których czujniki i systemy wizyjne będą przetwarzać obrazy na bazie zadanych parametrów, nie tylko rozmiaru i koloru, ale też wzorów. System w łatwy sposób zidentyfikuje pozycje, które nie pasują do wzorów i pozwoli wykrywać wady, uniknąć pakowania wadliwych produktów, inwentaryzować stany magazynowe czy załadunek.

Idea: Zastosowanie szerokiego wachlarza usług Computer Vision do detekcji defektów produktów, osiągnięcie większej satysfakcji klientów. System zapewni wysoką dokładność pakowania, która może być zrealizowania przez mniejszą liczbę pracowników w krótszym czasie w porównaniu z tradycyjnym systemem sortowania i nadzorowania przepływu produktów. Dodatkowo można zachować wysoki poziom higieny, ponieważ unika się ręcznego przenoszenia.

Rozwiązanie: Przetwarzanie obrazu jest jedną z kilku usług kognitywnych, które mogą okazać się bardzo korzystne przy obecnej rewolucji przemysłowej. A w przypadku łańcucha dostaw, będzie stosowana w wielu obszarach. Przemysł opakowaniowy może ulepszyć różne zadania, od kontroli jakości, pomiarów, liczenia i sortowania, po czynności związane z pakowaniem. Przetwarzanie obrazu daje szybsze wyniki w porównaniu z tradycyjnym sortowaniem.

Rys. 10. Maszynowe uczenie się przoduje w wizualnym rozpoznawaniu wzorców, otwierając wiele potencjalnych zastosowań w fizycznej inspekcji i konserwacji aktywów fizycznych w całej sieci łańcucha dostaw (źródło: 10 Ways Machine Learning Is Revolutionizing Supply Chain Management)

Przykład: Zastosowanie CCS – inteligentne lustro do sklepów detalicznych

Wyzwanie: Według badań Deloitte 90 procent światowej sprzedaży detalicznej nadal odbywa się w fizycznych sklepach. Aby konkurować z wygodą i niekończącym się asortymentem oferowanym online badania te sugerują, że kluczowe znaczenie mają doświadczenia klientów i rozpoznawalność marki. Głównym problemem jest lepsze dopasowania produktu do oczekiwań i wymagań klienta. W branży tekstylnej niedopasowane ubrania to główny powód zwrotów.

Idea: W kwestii satysfakcji klientów detalicznych prognozuje się, że techniki obejmujące rzeczywistość rozszerzoną i wirtualną (AR/VR) mają poprawić jakość zakupów.

Wirtualne lub inteligentne lustro to dwukierunkowe lustro z elektronicznym wyświetlaczem. Wyświetlacz może pokazywać widzowi różnego rodzaju informacje w formie widgetów, takie jak pogoda, godzina, data i aktualności. Lustra wirtualne pozwalają nam wstępnie „przymierzyć” wirtualnie ubrania, wysłać zdjęcie przyjaciołom i partnerom. Inteligentne lustra to także świetne medium reklamowe.

Rozwiązanie: Lustro to połączenie kamer, czujników i ekranów z potężnymi algorytmami poznawczymi, a nawet z cyfrowym asystentem (chatbotem). Zadanie wykrywania twarzy zintegrowane z lustrem jest w stanie analizować co najmniej kilka faktów dotyczących kupującego, takich jak wiek, płeć i strój, który ma na sobie. Inteligentne lustro będzie oferować klientom propozycje ubrań bazujące na osobistych preferencjach i trendach w modzie, a także rozpoznawać emocje, co pozwala detalistom na tworzenie istotnych dla nich relacji z klientami. Ponadto interakcje z cyfrowym asystentem w przymierzalni mogą stwarzać możliwości cross-sellingu i sprzedaży produktów poprzez udzielanie rekomendacji.

Rys. 11. Wirtualne lustra w handlu detalicznym mogą łączyć czujniki, wyświetlacze i kamery wyposażone w systemy Computer Vision (źródło: Virtual Mirrors and Computer Vision – 9 Current Applications | Emerj)

Przykład: Zastosowanie CCS – wykrywanie twarzy w celu zwiększenia bezpieczeństwa w miejscu pracy

Wyzwanie: Utrzymanie bezpieczeństwa w środowisku korporacyjnym od wielu lat stanowi ogromne wyzwanie. Jedną z kluczowych zalet korzystania z rozpoznawania twarzy dla pracowników jest zapewnienie monitorowania bezpieczeństwa i unikanie zdarzeń, takich jak kradzież, rabunek lub oszustwo, które mogą mieć miejsce w miejscu pracy.

Idea: Wykrywanie twarzy powoli zajmuje swoje miejsce w różnych miejscach i zapewnia dodatkową ochronę bezpieczeństwa. Technika ta polega na monitorowaniu ruchów przychodzących i wychodzących pracowników oraz rozpoznawaniu ich na podstawie twarzy zarejestrowanych w bazie danych.

System rozpoznawania twarzy to połączenie algorytmów sztucznej inteligencji, kamer, czujników, analizy bezpieczeństwa i innych elementów, które identyfikują twarze i łączą je z danymi, takimi jak imię i nazwisko, kod pracownika i oznaczenie.

Rozwiązanie: Dzięki technice rozpoznawania twarzy bazującej na sztucznej inteligencji możesz wyeliminować różne rodzaje zagrożeń i zwiększyć bezpieczeństwo budynku, zezwalając tylko na autoryzowany dostęp. Weryfikacja użytkownika na podstawie twarzy może pomóc w dokładnym śledzeniu czasu i lokalizacji pracowników. Systemy te mogą identyfikować i rejestrować twarze w zatłoczonych miejscach i zapobiegać fałszowaniu danych pracowników.

Rys. 12. Informacje w czasie rzeczywistym o bezpieczeństwie klientów i pracowników (źródło: Implementing AI Computer Vision for a Safe and Healthy Workplace)

Przykład: Zastosowanie CCS – analiza wideo w otwartych przestrzeniach wypełnionych tłumem ludzi

Wyzwanie: Zapewnienie bezpieczeństwa w obiektach użyteczności publicznej, np. zabezpieczenie stadionu sportowego. Aktywne wykrywanie i zapobieganie zagrożeniom, gdy ludzie wchodzą do obiektu. Wykrywanie i identyfikacja osób oraz śledzenie kibiców i zatrzymywanie ich z daleka od krytycznych miejsc w obiektach. Dodatkowo umożliwienie przyspieszonego wejścia gości VIP lub posiadaczy biletów okresowych i traktowania lojalnych „fanów” jak „superfanów”.

Idea: Analiza wideo to jeden z nowych i interesujących aspektów bezpieczeństwa w przepełnionych przestrzeniach. Dzieje się tak, ponieważ w wielu branżach organizowane są różne wydarzenia, które przyciągają ogromne tłumy. Analiza wideo może pomóc w utrzymaniu bezpieczeństwa, gdyż jest ona odpowiednia i w dużej mierze przydatna podczas wydarzeń sportowych, koncertów muzycznych, targów edukacyjnych, wydarzeń muzealnych, konferencji itp.

Rozwiązanie: Technika analizy wideo to doskonałe narzędzie, które umożliwia identyfikację i klasyfikację ludzi na podstawie danych demograficznych, w tym wieku, płci, preferencji i wykrywania parametrów ciała. Potrafi nawet dokładnie policzyć ludzi w zatłoczonych miejscach. Jest to najlepsze rozwiązanie nadzoru, o dużym potencjale pozyskiwania informacji wizualnej z analizą wideo w czasie rzeczywistym, z zastosowaniem usług kognitywnych.

Analiza wideo umożliwia rozpoznawanie emocji w zarejestrowanej sekwencji wideo i śledzenie ruchu ludzi w danym miejscu, np. gdzie się zatrzymują, a gdzie nie, na podstawie ruchów ciała. Czy to w celu znalezienia miejsc w audytorium, czy zidentyfikowania potencjalnie niebezpiecznych obiektów – w celu zapewnienia bezpieczeństwa.

Rys. 13. Obraz złożony z danych z sieci kamer bezpieczeństwa z całego miasta (źródło: Enhancing Public Safety Video Analytics with Computer Vision and Artificial Intelligence | NIST)

Przykład: Zastosowanie CCS – Analiza wideo dla otwartych przestrzeni wypełnionych tłumem ludzi

Wyzwanie: Zapewnienie bezpieczeństwa w obiektach użyteczności publicznej w specyficznych warunkach, np. reżimu sanitarnego lub wykrywanie przedmiotów potencjalnie stwarzających zagrożenie, np. pozostawionych plecaków, walizek, itp.

Idea: Wdrożyć rozwiązanie analityczne, które będzie pomagało określać liczbę odwiedzających, ich wzajemnej odległości i informacje o zagęszczeniu ludzi w miejscach imprez, centrach handlowych, restauracjach, biurach i innych miejscach publicznych na podstawie obrazów z kamer.

Rozwiązanie: Wdrożenie systemu bazującego na narzędziach Computer Vision. Rozwiązanie to przynosi potencjalne oszczędności kosztów związanych z wdrożeniem systemu analizy bezpieczeństwa, gdyż można w nim zastosować istniejące systemy monitorowania obiektów. Techniki rozpoznawania obrazu i twarzy bazują na identyfikacji ludzi związane z image detection / image recognition. Druga grupa rozwiązań to metody uczenia się w schemacie „od obrazu do obrazu” i przewidywania prawdopodobieństwa zagęszczenia ludzi w obiektach na obrazach 2D, zapewniające przy tym prywatność, bez konieczności identyfikowania osób.

Zliczanie ludzi w zatłoczonych przestrzeniach jest możliwe dzięki automatycznej analizie wideo — Rys. 14. Rozwiązanie zastosowane w Tokio w jednym z miejsc organizacji wydarzeń
(źródło: Top Data Science’s Computer Vision AI helps a leading Japanese real estate development company to re-open their event venue in Tokyo – Top Data Science)