Platforma CAISE – inteligentne usługi chmurowe

Adwertorial

Politechnika Gdańska w ramach programu IPCEI-CIS pracuje nad rozwiązaniem, które ma umożliwić efektywne wytwarzanie inteligentnych usług i aplikacji chmurowych m.in. dla sektora publicznego.

Projekt CAISE (Cloud Artificial Intelligence Service Engineering) realizowany przez Politechnikę Gdańską dotyczy programu IPCEI-CIS, który jest oryginalną formą udzielania wsparcia, przeznaczoną wyłącznie dla projektów zatwierdzonych uprzednio przez Komisję Europejską. Celem tego programu jest rozwój infrastruktury i usług w chmurze, które mają na celu wesprzeć Europę w dalszej cyfryzacji i osiągnięciu przez nią suwerenności cyfrowej.

Cele programu

Opracowywana w tym programie technologia uwzględnia rozwój rynku przetwarzania brzegowego, gdzie główne kwestie dotyczą prywatności danych, cyberbezpieczeństwa i interoperacyjności. Realizowane prace badawczo-
-rozwojowe doprowadzą do opracowania otwartego oprogramowania, które umożliwi stosowanie aplikacji w czasie rzeczywistym i przy niskim opóźnieniu, za pomocą rozproszonych zasobów obliczeniowych ulokowanych blisko użytkowników. W konsekwencji wykreowana zostanie rozproszona infrastruktura chmurowa (multicloud), swoiste kontinuum chmury obliczeniowej, umożliwiająca współpracę wielu dostawców. To nowe rozwiązanie ma być oparte na platformie OpenNebula, która jest aktualnie wzbogacana o inteligentne usługi związane ze strategicznymi obszarami UE. Infrastruktura oraz usługi będą rozwijane przez wielu partnerów IPCEI-CIS równocześnie. Dodatkowo opracowane rozwiązania pomogą efektywnie zmniejszać ogólny ślad węglowy związany z dynamicznie rozwijającą się globalną infrastrukturą chmurową.

Program ma więc doprowadzić do powstania bezpiecznej i łatwej w obsłudze, niezależnej od typu dostawców alternatywy, która zdemokratyzuje dostęp do przetwarzania brzegowego i pobudzi konkurencję przedsiębiorstw funkcjonujących na rynku chmury obliczeniowej w UE.

Celem projektu CAISE jest z kolei opracowanie i wdrożenie na rynek krajowy chmurowej platformy CAISE, umożliwiającej efektywne wytwarzanie inteligentnych usług i aplikacji chmurowych przez krajowe firmy MŚP obsługujące jednostki sektora publicznego w zakresie rozwiązań IT związanych z inteligentnym przetwarzaniem treści dokumentów cyfrowych w języku polskim. To istotne uzupełnienie głównego rozwiązania IPCEI-CIS w odniesieniu do polskiego sektora publicznego. Część przygotowywanych rozwiązań może zostać przeniesiona na realizowane europejskie kontinuum chmury obliczeniowej. Warto tutaj podkreślić, że ze strony polskiej w programie IPCEI-CIS uczestniczą cztery organizacje (trzy jako direct partners, jedna jako indirect partner) oraz Politechnika Gdańska jako jedyna polska uczelnia (indirect partner).

Architektura referencyjna opracowana dotychczas w ramach programu IPCEI-CIS składa się z wielu warstw, domen i komponentów. Rodzi to liczne wyzwania związane z realizacją programu. Konstrukcja ta, z której schematem można zapoznać się pod adresem itwa.pl/11x na s. 35, zarządza wieloma rodzajami zasobów (fizycznymi, wirtualnymi, funkcjami i usługami platformy oraz aplikacjami) i dostarcza różne rodzaje usług przetwarzania w chmurze (Infrastructure as a Service – IaaS; Container as a Service – CaaS; Platform as a Service – PaaS; Software as a Service – SaaS).

Wspólne prace dotyczą czterech strumieni (workstreams: WS1–WS4). Politechnika Gdańska uczestniczy w pracach dwóch z nich: WS2 i WS3. W ich ramach m.in. zainstalowano węzły platformy OpenNebula na superkomputerze Kraken w CI TASK (Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej – jednostka współrealizująca projekt CAISE). Węzły te wspólnie z innymi ośrodkami tworzą środowisko testowe dla prac w ramach tego programu. Poza tym istotna jest wymiana danych w celu tworzenia modeli sztucznej inteligencji, jak również usług analizy dokumentów cyfrowych (PDF i rastrowych) w języku polskim. Ta problematyka jest rozpatrywana przez Wydział Elektroniki Telekomunikacji i Informatyki Politechniki Gdańskiej.

Platforma CAISE

Projekt CAISE przewiduje wdrożenie na rynku krajowym chmurowej platformy o tej samej nazwie, która umożliwi MŚP efektywne wytwarzanie inteligentnych usług i aplikacji chmurowych. Platforma bazuje na chmurze obliczeniowej TASKcloud rozwijanej w CI TASK od kilku lat. TASKcloud jest systematycznie wzbogacana o kolejne komponenty otwartego oprogramowania, co buduje zaawansowane środowiska wytwarzania i wykonania usług inteligentnych. Do rozwoju zarówno chmury, jak i platformy, wykorzystuje się metodykę DevOps oraz techniki CI/CD umożliwiające ciągłe jej udoskonalanie w okresie trwania projektu oraz po jego zakończeniu.

Budowana platforma CAISE oferować będzie dwie kategorie usług chmurowych – bazowe i systemowe. Usługi bazowe dotyczą analizy treści trzech rodzajów dokumentów: tekstowych, obrazowych oraz hybrydowych, czyli złożonych z tekstów i różnego rodzaju obrazów. Usługi tego rodzaju skupiają się na rozpoznawaniu i analizie różnego typu obiektów umieszczonych w dokumentach, rozpoznawaniu ich kategorii, a także zawartej w nich treści i podejmowaniu na tej podstawie odpowiedniej decyzji. Przykładowo na podstawie treści zawartej w dokumencie cyfrowym określa się np. gdzie ten dokument przekierować, jakie dalsze działania wykonać, jakie kolejne dokumenty wygenerować.

Usługi systemowe natomiast zapewniają podstawową funkcjonalność platformy, taką jak obsługa czynności związanych z repozytoriami danych czy usług bazowych, wybór danych do uczenia modeli, dostrajanie i ocenę tych modeli czy budowę na ich podstawie wymaganych usług. Inne usługi systemowe umożliwiają kreowanie środowiska wytwarzania usług bazowych czy środowiska ich wykonania wraz z monitoringiem zdarzeń i zużyciem energii elektrycznej. Komputery dużej mocy obliczeniowej (HPC) umożliwiają wykorzystanie nowych rozwiązań, które przyśpieszają realizację procesu uczenia modeli czy analizy dużych zbiorów danych. W projekcie dodatkowo zakłada się współpracę z firmami zagranicznymi, będącymi uczestnikami programu IPCEI-CIS, szczególnie w celu wymiany zdobytych doświadczeń. Poza tym trzy polskie firmy IT wyłonione w postępowaniu mają za zadanie walidację platformy CAISE poprzez realizację za jej pomocą własnych usług sektorowych oraz rynkowych przypadków użycia wykorzystujących takie usługi.

W procesie wytwarzania i udoskonalania platformy procedury zarządzania jakością są zintegrowane z technikami DevOps i CI/CD, co daje wytwórcom oprogramowania obsługującym jednostki krajowego sektora publicznego możliwość korzystania z innowacyjnych rozwiązań. Z kolei otwartość platformy CAISE na zastosowania w innych obszarach rynku, takich jak bezpieczeństwo, energetyka czy logistyka, potwierdzi uniwersalność oferowanego rozwiązania. Przygotowanie platformy CAISE pozwoli Politechnice Gdańskiej przyczynić się do rozwoju krajowej gospodarki cyfrowej oraz zapewnić sobie miejsce w czołówce europejskich uczelni technicznych wspierających transformację cyfrową na obszarze UE.

Ogólną koncepcję platformy CAISE przedstawia „Schemat ogólny koncepcji platformy CAISE”. Jak wynika z rysunku, jądrem platformy są trzy środowiska wspomagające działania potencjalnych klientów, służące odpowiednio do: przygotowania modeli, wytwarzania usług oraz wykonania i zarządzania usługami. Są to docelowe środowiska zapewniane przez platformę firmom IT pracującym w sektorze publicznym, specjalizującym się w obsłudze klientów tego sektora. To uniwersalne rozwiązanie ułatwia budowę usług inteligentnych, gdyż nie wymaga integracji i automatyzacji działań różnych komponentów otwartego oprogramowania przez każdą kolejną firmę niezależnie. W efekcie czas realizacji i poniesiony koszt przez firmy korzystające z platformy CAISE będą znacznie mniejsze. Dodatkowo firmy nie będą zmuszone do poszukiwania i zatrudniania specjalistów chmurowych oraz AI, których nadal brakuje na polskim rynku.

Jak wynika ze schematu, użytkownikami platformy CAISE będą: badacze testujący nowe modele, w tym w szczególności zajmujący się dostrajaniem LLM-ów; deweloperzy różnego typu usług inteligentnych, wykorzystujących udostępnione przez platformę modele; a także deweloperzy aplikacji złożonych z wcześniej utworzonych usług. Specyficznym rodzajem użytkowników są aktualni deweloperzy platformy CAISE, którzy po zakończeniu jej budowy staną się nie tylko administratorami dbającymi o jej utrzymanie – w tym o aktualizację komponentów otwartego oprogramowania – ale też deweloperami dalszej rozbudowy jej infrastruktury obliczeniowej oraz osobami odpowiedzialnymi za udoskonalania funkcjonalności.

Platforma CAISE korzysta z repozytoriów bazujących na obiektowym magazynie danych, gdzie przechowywane są dane użytkowników, wytrenowane modele i wytworzone usługi. Użyte technologie obejmują różne komponenty OpenStacka oraz Kubernetesa – przeznaczone do realizacji usług na poziomie IaaS (usługi systemowe). Zapewniają one efektywne odwzorowanie maszyn wirtualnych lub kontenerów na platformę fizyczną chmury obliczeniowej, które minimalizują zużycie energii oraz umożliwiają skalowalność obliczeń. Z kolei integracja takich komponentów technologicznych jak Jupiter, MLflow czy Argo Workflow wspomaga realizację i wytwarzanie usług oraz przeprowadzanie treningów i strojenie modeli. Usługi monitorowania działań wykorzystują takie komponenty technologiczne jak: Prometheus, Grafana czy Grafana Alloy. Dużym wyzwaniem jest też zbudowanie przyjaznego interfejsu oraz zasad współpracy z całym szeregiem tego typu rozwiązań współtworzonych w programie IPCEI-CIS.

Skuteczna metoda walidacji platformy

Walidacja to działania mające na celu potwierdzenie (w sposób udokumentowany i zgodny z przyjętymi wymaganiami), że platforma CAISE spełnia postawione w projekcie cele. Do takiej oceny wykorzystuje się niezależną grupę ludzi, niezwiązaną z zespołami projektantów. Istotna jest równoległa praca zespołu walidacyjnego z projektantami i deweloperami platformy oraz bieżąca ocena wytwarzanego produktu. Zespół walidacyjny musi dysponować zarówno wiedzą o platformie, jak i o jej celach i zastosowaniach, żeby móc ocenić, czy jej rozwój zmierza we właściwym kierunku.

Z uwagi na złożoność funkcjonalną platformy przyjęto, że walidację przeprowadzą firmy IT, wyłonione w przetargu, poprzez budowę własnych usług sektorowych (specjalizowanych, najczęściej poprzez rozbudowanie usług bazowych o nowe funkcje), a także poprzez realizację przypadków użycia w postaci potoku usług bazowych i sektorowych o potencjale wdrożeniowym i realnej wartości rynkowej. Takie podejście pozwala na pozyskiwanie specjalistycznej wiedzy i doświadczeń związanych z funkcjonowaniem platformy na rynku usługodawców IT, kluczowych dla planowanej walidacji. Ma ona doprowadzić do zapewnienia najwyższego możliwego poziomu gotowości technologicznej platformy oraz jej przygotowania do wykorzystania w co najmniej trzech sektorach administracji publicznej: wymiarze sprawiedliwości, ochronie zdrowia i edukacji.

W projekcie CAISE zakładane są następujące zadania procesu walidacji:

Zapewnianie wymagań i działań zgodnych ze sztuką inżynierii oprogramowania oraz ze standardami jakości w celu zapewnienia wymaganej funkcjonalności platformy.
Analiza etapów wytwarzania platformy oraz usprawnianie procesu wytwarzania (DevOps) w celu zapewnienia efektywności jej działania oraz produktywności wytwarzania usług.
Ciągły monitoring realizacji zadań i dokumentacja postępu prac (zgodnie z założeniami kamieni milowych) oraz identyfikacja i eliminacja pojawiających się nieprawidłowości w celu zapewnienia wiarygodności działania platformy.
Kontrola odpowiedniości i trafności wybranych rozwiązań z punktu widzenia potrzeb użytkowników w celu zapewnienia wysokiej użyteczności i dojrzałości platformy.

Platforma CAISE oraz jej komponenty są walidowane z punktu widzenia czterech atrybutów jakości: funkcjonalności, produktywności, wiarygodności oraz dojrzałości. To prowadzi do poszerzenia zakresu działania usług systemowych, zwiększenia integracji wykorzystanych komponentów, wykrycia i wyeliminowania pojawiających się problemów, ulepszenia interfejsu użytkownika. Włączenie procesów walidacji do procedur rozwoju platformy DevOps sprawia, że wiele niedoskonałości może zostać wyeliminowanych na wczesnym etapie. Uwzględnienie specyfiki trzech obszarów zastosowań (medycyna, prawo, edukacja) zmusza do przyjęcia uniwersalnych rozwiązań, dzięki którym platforma spełni oczekiwania funkcjonalne, biznesowe, ekonomiczne, a także energetyczne różnych interesariuszy.

Ponadto zespoły firm (podwykonawców) biorących udział w kolejnych procesach walidacji wypełniają dwa rodzaje kwestionariuszy: kwestionariusz
PSSUQ (Post-Study System Usability Questionnaire) oraz ocenę TRL (Technology Readiness Level). Pierwszy kwestionariusz koncentruje się na ocenie użyteczności platformy, drugi zaś na oszacowaniu poziomu gotowości technologicznej platformy. Poza tym podwykonawcy są zobligowani do przedstawienia własnych raportów walidacji na zakończenie każdego realizowanego etapu wyznaczanego przez kamienie milowe projektu. Uwzględniają w nich zarówno jakość wytworzonych usług bazowych oraz sektorowych, jak i zaimplementowanych przypadków użycia. Oceniają stopień realizacji zakładanych zmian, również sygnalizują potrzebę wprowadzania nowych.

Wysoką jakość procesu walidacji platformy CAISE osiągnięto więc dzięki przyjęciu właściwej metody do realizacji tego zadania. Zaangażowano zespoły podwykonawców, które wykonując własne rozwiązania, poznają platformę oraz jej dobre i słabe strony. Ich doświadczenie jest odpowiednio dokumentowane w formie opinii o jakości komponentów platformy. Opinia ta zawiera zarówno subiektywne odczucia wyrażone w powyżej zasygnalizowanych kwestionariuszach, jak też zobiektywizowane poprzez wprowadzenie odpowiednich procedur oceny przyjętych parametrów jakości. Dane do tych procedur są dostarczane poprzez system monitorowania i dokumentowania wyników walidacji. To gwarantuje przejrzystość procesu i obiektywność walidacji, z kolei właściwy wybór ocenianych parametrów świadczy o jej reprezentatywności. Nie mniej ważna jest też kompletność oceny, wymagająca takiego doboru usług sektorowych i przypadków użycia, by w procesie ich wytwarzania zapewnić sprawdzenie wszystkich komponentów platformy, w tym usług systemowych.

Skorelowanie procesów walidacyjnych z procesami rozwoju platformy pozwala na ciągłe wprowadzenie niezbędnych udoskonaleń w celu stopniowego zwiększenia wartości rynkowej platformy CAISE, a przede wszystkim na uniknięcie błędów, które mogłyby skutkować stratami finansowymi, utratą zaufania klientów czy naruszeniem regulacji prawnych.

Możliwości wykorzystania platformy

Dobrze prowadzona cyfryzacja sektora publicznego oznacza zrównoważony rozwój usług publicznych, m.in. w takich obszarach jak ochrona zdrowia, edukacja czy wymiar sprawiedliwości, co pozwala sprostać rosnącym oczekiwaniom społeczeństwa i wyzwaniom cyfrowej rzeczywistości. Analiza treści dokumentów cyfrowych to jedno z rozwiązań, które ma usprawniać pracę administracji publicznej, a co za tym idzie – podnosić jakość i efektywność świadczonych usług publicznych.

Projekt CAISE dobrze wpisuje się w potrzeby tego sektora. Analiza dokumentów przez człowieka wymaga odpowiedniego wykształcenia, doświadczenia i zajmuje sporo czasu; jest też podatna na błędy. Zastosowanie platformy CAISE przyspiesza i polepsza proces załatwiania spraw, dzięki automatycznej analizie treści różnego typu dokumentów. Odpowiada za to sztuczna inteligencja dzięki wykorzystaniu głębokich sieci neuronowych i dużych modeli językowych. Niemniej aby modele się w takim zastosowaniu sprawdzały, muszą być dostrojone do konkretnego rodzaju treści. Stąd duże znaczenie platformy CAISE, która dostarcza odpowiednie środowiska wytwarzania usług inteligentnych. Co ważne, skorzystanie z platformy CAISE nie będzie wymagać specjalistycznej wiedzy informatycznej z zakresu chmury obliczeniowej czy metod treningu sztucznej inteligencji, co odpowiada na problem braku specjalistów w sektorze publicznym. Ponadto nie będzie konieczne budowanie każdorazowo od podstaw środowiska rozwoju usług przeznaczonego do cyfryzacji nowych obszarów zastosowań.

Uniwersalność platformy CAISE zapewni możliwość jej wykorzystania w różnych dziedzinach także poza sektorem publicznym, np. w nauce i dydaktyce, gdzie umożliwi przeprowadzanie eksperymentów dotyczących efektywności tworzonych modeli czy skalowalności usług inteligentnych dzięki sprzężeniu z superkomputerem Kraken (HPC). W CI TASK i na WETI prowadzone są też badania związane z energooszczędnością obliczeń chmurowych, w tym inteligentnych usług. Dodatkowo możliwe będzie uzupełnianie platformy o coraz to nowsze modele sztucznej inteligencji oraz kolejne usługi. Pozwoli to na duże oszczędności nakładów finansowych i czasowych przy rozwijaniu następnych generacji usług. Polska zyska w ten sposób wyższy stopień wykorzystania chmury obliczeniowej. We wcześniejszym etapie rozwoju dotyczył on przeniesienia wykorzystywanego oprogramowania klienta z instancji lokalnej (on-premise) do chmury publicznej. Dzięki platformie CAISE klasyczne usługi będą mogły zostać zastąpione usługami inteligentnymi, co doprowadzi do powszechnego wyręczania człowieka w żmudnych, powtarzalnych czynnościach.

Dzisiaj każdy buduje środowisko AI na swoim zaawansowanym technologicznie laptopie, ale już niedługo powszechne stanie się korzystanie z chmurowej platformy, takiej jak CAISE, oferowanej w skalowalnym, superkomputerowym i energetycznie zrównoważonym środowisku obliczeniowym, dostępnym 24/7 i wykorzystującym ogromne zbiory danych oraz aktualną wersję pakietów oprogramowania.

Autorzy projektu
prof. dr hab. inż. Henryk Krawczyk
dr inż. Piotr Orzechowski
prof. dr hab. inż. Bogdan Wiszniewski
Politechnika Gdańska, CI TASK