
Operowanie na wielkich danych
od aspektów algorytmicznych i logicznych po Data Science i AI
WIODĄCA DYSCYPLINA:
INFORMATYKA
Zakres tematyczny:
informatyka, matematyka
Kierunki studiów związane z POB:
– Informatyka
– Indywidulane studia informatyczno-matematyczne
– Data science
Rada Naukowa Priorytetowego Obszaru Badawczego Operowanie na wielkich danych – od aspektów algorytmicznych i logicznych po Data Science i AI:
- prof. dr hab. Małgorzata Bogdan
- prof. dr hab. Grzegorz Karch
- prof. dr hab. Jerzy Marcinkowski
Zakres tematyczny obejmuje fundamentalne badania informatyczne związane z operowaniem na danych. Przy czym słowo „fundamentalne” należy rozumieć dość swobodnie: odległość od badań podstawowych do zastosowań jest w informatyce mniejsza niż w jakiejkolwiek innej dyscyplinie nauki, a potęga firmy Google zaczęła się od jednego czysto teoretycznego algorytmu. W ostatnich dwudziestu latach UWr uzyskał silną międzynarodową rozpoznawalność w algorytmice oraz logicznych podstawach informatyki. Ale chcąc nadążać za przemianami wewnątrz informatyki musi rozbudować kompetencje również w działach najbardziej nowoczesnych, data science i sztucznej inteligencji.
Najwybitniejsi Uczeni
Badania naukowe Pawła Gawrychowskiego dotyczą projektowania i analizy algorytmów i struktur danych związanych z przetwarzaniem tekstów i grafów. Dane w rozważanych przez niego problemach są na tyle duże, że konstruowane rozwiązania muszą działać w czasie bliskim liniowemu od ich rozmiaru, a w niektórych przypadkach konieczne jest wręcz bezpośrednie operowanie na ich (o wiele mniejszej) skompresowanej reprezentacji. Równie istotne jest też takie dobranie metody rozwiązywania danego problemu, aby zwracane wyniki były zawsze poprawne i dokładne. Przykładami rozważanych przez niego problemów są różne warianty wyszukiwania wzorca w tekście (także dla skompresowanych tekstów) i struktury danych pozwalające na szybkie wyznaczanie odległości między parami wierzchołków w grafie planarnym.
Przedmiotem badań Jarosława Byrki są algorytmiczne aspekty trudnych obliczeniowo problemów optymalizacji kombinatorycznej. Wśród rozważanych przez niego zagadnień znajduje się klastrowanie elementów wysoko wymiarowych danych (np. w problemach k-median i k-means), jak również wybrane problemy spójności w grafach. Otrzymuje metody obliczania rozwiązań, które są dowodliwie bliskie rozwiązaniom optymalnym. Proponowane przez niego algorytmy często wykorzystują specyficzne własności liniowych relaksacji badanych modeli optymalizacyjnych.
Doktorat: BRICS PhD School na Uniwersytecie w Aarhus (2002–05)
Tematyka: Języki programowania
Małgorzata Bogdan zajmuje się konstrukcją i analizą własności statystycznych metod pozyskiwania wiedzy z dużych baz danych a także ich zastosowaniami w analizie danych genetycznych, medycznych i finansowych. W zespole dr Bogdan opracowano szereg nowych statystycznych metod uczenia z nadzorem i bez nadzoru w sytuacji, gdy liczba zmiennych w bazie danych może być znacznie większa niż liczba obserwacji. Udowodniono również szereg wyników matematycznych ilustrujących własności tych metod. W zespole tworzone jest również ogólnodostępne oprogramowanie z implementacjami nowych rozwiązań. Zespół regularnie publikuje prace w czołowych międzynarodowych czasopismach statystycznych i genetycznych.
Jerzy Marcinkowski zajmuje się, szczególnie w ostatnich latach, teorią stojącą za konstrukcją systemów bazodanowych. Choć jego badania mają charakter badań podstawowych, to są inspirowane pytaniami płynącymi z praktyki baz danych.
Najwybitniejsi Młodzi Uczeni
Współautor 7 artykułów z Yoshua Bengio, laureatem nagrody Turinga. Kierowany przez niego zespół pracowników i studentów UWr uzyskał pierwszą nagrodę na zawodach chat-botów, towarzyszących najważniejszej światowej konferencji z dziedziny deep learning/sztucznej inteligencji NIPS (NIPS Conversational Intelligence Challenge 2017)
Dwie prace na konferencji ACM STOC, najbardziej prestiżowej na świecie konferencji z teorii informatyki.
Doświadczenie w zajmowaniu się dużymi danymi zdobył w Imperial College London, gdzie pracował w koordynowanym przez IBM projekcie „Artifact-Centric Service Interoperation”. Ideą tego projektu było traktowanie danych jako obiektów z precyzyjnie określonymi sposobami tworzenia, modyfikacji i usuwania, co pozwala na analizowanie zmienności danych w czasie. Model ten stworzono na potrzeby zastosowań biznesowych, ale wnioskowanie w nim jest trudne dla użytkownika. Obecnie prowadzi badania nad technikami upraszczającymi tego typu wnioskowanie w oparciu o techniki uczenia maszynowego.
Doktorat ukończony na University of Oxford, 2015. Specjalizuje się w zakresie języków programowania.
Przemysław Uznański interesuje się konstruowaniem wydajnych algorytmów do przetwarzania dużych zbiorów danych, a dokładniej wykorzystaniem wrodzonej równoległości pojawiającej się w wielu problemach do konstruowania wydajnych algorytmów. Dotyczy to nie tylko obliczeń równoległych, ale również klasycznych obliczeń scentralizowanych i innych modeli, takich jak przetwarzanie strumieniowe lub obliczanie masowo równoległe. W swojej pracy wykorzystuje nie tylko techniki algorytmiczne, ale też algebrę i algebrę liniową, a także analizę probabilistyczną i geometrię wysokowymiarową. Interesuje go również pokazywanie ograniczeń dolnych dla istniejących technik.