Najava predavanja “ML Vision Models – Architectures and Demo Review”

Dok se područja machine learninga i computer visiona nastavljaju brzo razvijati, kompanijama postaje sve važnije razumjeti najnovija događanja i uvidjeti kako ih mogu primijeniti u rješavanju problema u stvarnom svijetu. Kako bismo rasvijetlili ovu temu, razgovarali smo sa Stepanom Novikovom, Senior Solution Architectom u EPAM-u Hrvatska, jednim od govornika na konferenciji .debug 2023.

U našem razgovoru, Stepan govori o svojoj stručnosti, strasti za computer vision i deep learning, kao i o nekima od najnovijih događanja u tom području te njihovom potencijalnom utjecaju na različite industrije.

Možete li nam reći nešto više o tome odakle dolazite i što vam je potaknulo interes za polja machine learninga i computer visiona?

Moja strast za ovim temama zapravo je počela još tijekom djetinjstva, kada sam čitao razne znanstvenofantastične romane, koji su mi probudili maštu o nevjerojatnim mogućnostima koje bi napredna AI tehnologija mogla donijeti. U biti sam prvi puta zaronio u ova fascinantna područja tijekom svojeg studija na Politehničkom sveučilištu u Kijevu, gdje sam se usredotočio na razumijevanje i implementaciju jednostavnih višeslojnih “perceptrona” za prepoznavanje brojeva. U isto sam vrijeme istraživao evolucijske pristupe optimizaciji zadaća kroz genetičke algoritme.

Što su neki od najuzbudljivijih nedavnih događanja u computer visiona na koje je važno skrenuti pozornost?

Tijekom svojeg predavanja na .debugu prikazat ću nekoliko takvih trendova vrijednih pozornosti, kao što su Variational Autoencoders (VAE), Generative Adversarial Networks (GAN) te Cycle GAN. Dodatno, istražit ćemo detektore objekata, uključujući You Only Look Once (YOLO), za koji vjerujem da ga je bitno istaknuti. Osobno sam koristio machine learning u raznim projektima, od prepoznavanja grešaka u tvornicama tkanine, o čemu ćemo također razgovarati na .debugu, pa do odabira preview slika iz video zapisa ili analize rukom pisanih dokumenata i crteža.

Koji su neki od najvećih izazova s kojima se suočavate u radu s modelima computer visiona?

Jedan od glavnih izazova je imati dovoljno računalnih resursa za treniranje modernih modela dubokog učenja. Ponekada čak niti 64 GB video memorije nije dovoljno za učinkovito treniranje naših modela. Drugi izazov je rastuća lokalna kompleksnost uključena u omogućavanje rada arhitekture modernih modela. Možda ponekad izgleda nemoguće pomaknuti se od ideje prema implementaciji, ali s mnogim poboljšanjima, uz pokušaje i pogreške, to može postati stvarnost.

Kako vidite razvoj computer visiona i machine learninga u sljedećih 3 do 5 godina?

Mnogi stručnjaci vjeruju da moderna arhitektura computer visiona zasnovana na machine learningu može već sada vidjeti jednako dobro kao i ljudi. U budućnosti, osobno predviđam da će računalni sustavi u tom području premašiti naše mogućnosti. Nadalje, computer vision i machine learning ključni su za uspjeh autonomnih uređaja, poput zrakoplova, automobila, proizvodnih strojeva ili kućnih robota. Bez opsežnog razumijevanja okoline koja ih okružuje, oni ne mogu učinkovito raditi. Tijekom svojeg predavanja istražit ću i ulogu computer visiona u modernim arhitekturama samoupravljajućih uređaja.

Možete li nam spomenuti neke od primjera korištenja tih tehnologija u stvarnom svijetu danas?

Computer vision i deep learning donose revoluciju u širok spektar industrija. U automobilskoj industriji, computer vision igra ključnu ulogu u navođenju autonomnih vozila, zrakoplova i robotskih sustava kroz njihovu okolinu. Dodatno na ove hi-tech primjene, računalni se vid koristi i u svakodnevnim aktivnostima, kao što su provjera kvalitete i otkrivanje pogrešaka u proizvodnji ili pak za nadzor i otkrivanje neovlaštenih ulazaka u prostore. Nadalje, algoritmi dubokog učenja mogu se koristiti i za kompleksne vizualne transformacije, kao što je pretvaranje običnih fotografija u umjetnička djela u stilu poznatih umjetnika s tehnologijom Cycle GAN ili pak za manipuliranje svojstvima slika uz VAE.

Kako vidite da će computer vision biti primijenjen u različitim industrijama, kao što su zdravstvo, proizvodnja ili maloprodaja?

Računalni se vid već sada koristi u medicini za ubrzavanje dijagnostičkog procesa, primjerice, kroz otkrivanje fraktura vratne kralježnice. U proizvodnji računalni je vid ključan za osiguravanje efikasnosti, sigurnosti i kvalitete proizvodnih linija, a može se koristiti, na primjer, za otkrivanje defekata na tkanini. U maloprodaji se se ova tehnologija, između ostalih potencijalnih primjena, može koristiti za provjeru jesu li proizvodi ispravno posloženi na police.

Spomenuli ste u opisu svojeg predavanja da ste radili na projektima computer visiona, poput pametne kamere za videonadzor. Možete li nam otkriti nešto više detalja o tim projektima i o tome što Vas je motiviralo za rad na njima?

Tijekom predavanja otkrit ću mnogo pojedinosti o svojem iskustvu u radu na tim, osobno najdražim projektima, uključujući i rad na pametnoj kameri za videonadzor. Ti su projekti inspirirani mojom strašću za potencijalnu primjenu computer visiona i dubokog učenja u svakodnevnom životu, kao i željom da steknem iskustvo iz prve ruke u radu s tim uzbudljivim tehnologijama.

Naposlijetku, čemu se najviše veselite u vezi nadolazeće konferencije .debug i koje praktične savjete planirate podijeliti s posjetiteljima predavanja?

Radujem se aktivnom sudjelovanju publike u predavanju, uključujući njihova pitanja i razmjene iskustava. Tijekom predavanja, prikazat ću tehnički demo i podijeliti neke praktične savjete na osnovu svojeg iskustva u radu s tehnologijama computer visiona.

Predavanje “ML Vision Models – Architectures and Demo Review” Stepana Novikova na rasporedu je u petak, 16. lipnja u 15:15 sati u dvorani #deeplearning.