Jaké jsou principy 3D strojového vidění? Principy 3D strojového vidění? - Blog

3D vidění je multidisciplinární obor zahrnující počítačovou grafiku, počítačové vidění a umělou inteligenci. Jeho cílem je umožnit strojům porozumět a zpracovat informace v trojrozměrném prostoru a dosáhnout tak hloubkového vnímání, rozpoznávání a porozumění objektům a scénám.

Hlavní úkoly

3D rekonstrukce

Odhad hloubky 3D scén nebo digitální vzorkování povrchů objektů, stejně jako zpracování a zobrazení 3D dat; monokulární rekonstrukce, binokulární rekonstrukce, rekonstrukce na základě strukturovaného světla-, rekonstrukce založená na laseru-; velkoplošná-3D rekonstrukce, mobilní 3D rekonstrukce.

Odhad pozice

Výpočet polohy a orientace kamer nebo objektů v trojrozměrném{0}}fyzickém prostoru a sledování v-reálném čase.

3D porozumění

Detekce, rozpoznávání a vyhledávání objektů, stejně jako segmentace a sémantické označování scén nebo objektů.

Principy práce

3D vidění je jednou z nejdůležitějších metod pro vnímání informací u průmyslových robotů a lze ji rozdělit na optické a ne-optické zobrazovací metody. V současnosti jsou nejpoužívanější optické metody.

Metoda -času-letu (TOF).

Tato metoda vypočítává vzdálenost k objektu měřením časového rozdílu mezi vyzařováním a příjmem světla. Vezmeme-li jako příklad kameru TOF, každý pixel používá časový rozdíl letu světla k získání hloubky objektu. V klasických metodách měření zahájí systém detektoru čas, když vyšle světelný impuls, uloží čas cesty-, když obdrží ozvěnu cílového světla, a odhadne vzdálenost cíle podle vzorce.

Dělí se na přímý TOF (DTOF) a nepřímý TOF (I-TOF). DTOF se obvykle používá v jednobodových zaměřovacích systémech a dosažení-širokého 3D zobrazení často vyžaduje technologii skenování; I-TOF nepřímo extrapoluje čas zpáteční cesty z časově-závorových měření intenzity světla, čímž eliminuje potřebu přesného načasování, a v současné době je komerčně dostupným řešením pro elektronické a optické směšovače založené na kamerách TOF. Zobrazování TOF lze použít pro velké zorné pole, na dlouhé{8}}vzdálenosti, s nízkou{9}}přesností a s nízkými{10}}náklady na pořizování 3D snímků a používá se k vnímání prostředí v inteligentních bezpilotních systémech (jako jsou roboti, bezpilotní vozidla, drony atd.).

3D zobrazení strukturovaného světla

Projekce strukturovaného světla 3D zobrazování je v současnosti hlavní metodou pro vnímání 3D vidění u robotů. Projektor promítá na cílový objekt specifický strukturovaný vzor osvětlení světla, jako jsou pruhy nebo vzory šedého kódu, a kamera zachytí obraz modulovaný cílem. Vlivem zvlnění povrchu předmětu dochází k deformaci strukturovaného světelného vzoru na povrchu předmětu. Zpracováním obrázků a použitím vizuálních modelů k porovnání vzorů před a po deformaci a analýzou deformace vzoru lze vypočítat trojrozměrné informace o souřadnicích každého bodu na povrchu cílového objektu.

V aplikacích robotických-systémů pro oči a ve scénářích, kde není vyžadována vysoká přesnost 3D měření (jako je paletizace, depaletizace a 3D uchopení), je metoda promítání pseudo-náhodných vzorů skvrn za účelem získání cílových 3D informací poměrně populární. Tato metoda se běžně používá v průmyslové kontrole a 3D modelování a dokáže rychle získat 3D data povrchu objektu. Strukturovaný světelný zobrazovací systém se skládá z několika projektorů a kamer. Mezi běžné konstrukční formy patří: jeden projektor-jedna kamera, jeden projektor-duální kamera, jeden projektor{12}}více kamer, jedna kamera-duální projektory a jedna kamera-více projektorů.

Základní pracovní princip 3D zobrazování strukturovanou světelnou projekcí je následující: projektor promítá na cílový objekt specifický strukturovaný světelný vzor osvětlení, kamera zachytí obraz modulovaný cílem a poté se pomocí zpracování obrazu a vizuálních modelů získá 3D informace o cílovém objektu. Mezi běžné typy projektorů patří: displej s tekutými krystaly (LCD), digitální projekce s modulací světla (DLP: jako jsou digitální mikrozrcadlová zařízení (DMD)) a přímá projekce laserového vzoru LED.

Na základě počtu strukturovaných světelných projekcí lze 3D zobrazování strukturovanou světelnou projekcí rozdělit na jedno-záběrové 3D a více-záběrové 3D metody. Jedno-záběrové strukturované světlo využívá především kódování prostorového multiplexování a kódování frekvenčního multiplexování. Mezi běžné formy kódování patří: kódování barev, indexování ve stupních šedi, kódování geometrických tvarů a náhodné skvrnité vzory. V současné době se v aplikacích robotických systémů pro ruce-oko, kde není vyžadována vysoká přesnost 3D měření, jako je paletizace, depaletizace a 3D uchopování, široce používá metoda promítání pseudo{12}}náhodných vzorů skvrn za účelem získání cílových 3D informací.

Více{0}}metody 3D snímků využívají hlavně časové{2}}multiplexní kódování. Mezi běžné formy kódování vzorů patří: binární kódování, kódování s více-frekvenčním fázovým-posouváním a hybridní metody kódování (jako je Grayův kód a proužky s{6}}fázovým posuvem). Základní princip strukturovaného světelného 3D zobrazování je znázorněn na obrázku níže. Strukturovaný světelný obrazec je generován pomocí počítače nebo speciálního optického zařízení a poté promítán na povrch testovaného objektu pomocí optického projekčního systému. Zařízení pro získávání obrazu (jako je CCD nebo CMOS kamera) se používá k zachycení strukturovaného světelného obrazu modulovaného a deformovaného povrchem objektu. Algoritmy zpracování obrazu jsou pak použity k výpočtu korespondence mezi každým pixelem v obraze a body na obrysu objektu. Nakonec se pomocí modelu struktury systému a jeho kalibrační technologie vypočítá trojrozměrná informace o obrysu objektu. V praktických aplikacích se běžně používá projekce Grayova kódu, sinusová fázové -posuvná okrajová projekce nebo hybridní 3D technologie s Grayovým kódem a sinusovým fázovým{16} posuvem.

U drsných povrchů může být strukturované světlo promítáno přímo na povrch předmětu pro vizuální měření obrazu; avšak pro 3D měření vysoce reflexních hladkých povrchů a zrcadlených objektů nelze projekci strukturovaného světla přímo promítat na testovaný povrch a 3D měření vyžaduje použití technik zrcadlového odrazu.

V tomto schématu se proužky nepromítají přímo na obrys testovaného objektu, ale spíše na rozptylnou obrazovku nebo se k přímému zobrazení proužků používá obrazovka s tekutými krystaly (LCD). Kamera získává informace o okrajích modulované změnami zakřivení jasného povrchu prostřednictvím dráhy odraženého světla a poté vypočítává trojrozměrnou morfologii obrysu.

Skenování 3D zobrazování

Skenovací metody 3D zobrazování lze rozdělit na metody skenování, aktivní triangulace a chromatické konfokální metody. Skenování rozsahu využívá kolimovaný světelný paprsek ke skenování celého cílového povrchu pro 3D měření. Typické metody skenování dosahu zahrnují: jedno-časový bod{5}}-metody letu, jako je kontinuální vlnová frekvenční modulace (FM-CW), měření rozsahu a pulzní měření (LiDAR); laserová rozptylová interferometrie, jako jsou interferometry založené na multi{8}}interferenci vlnových délek, holografické interferenci, interferenci s bílým světlem a na principech bodové interference; a konfokální metody, jako je chromatické konfokální a automatické ostření.

V metodách 3D skenování s jediným{0}}bodem{2}}bodem{3}}-letu je vhodná pro-skenování na dlouhé vzdálenosti, ale přesnost měření je relativně nízká, obvykle v rozsahu milimetrů. Mezi další-metody skenování jednoho bodu patří jednobodová laserová interferometrie, konfokální mikroskopie a jednobodová aktivní laserová triangulace-. Tyto metody nabízejí vysokou přesnost měření, ale první vyžaduje kontrolované prostředí. Řádkové skenování nabízí střední přesnost a vysokou účinnost. Aktivní laserová triangulace a chromatická konfokální mikroskopie jsou zvláště vhodné pro 3D měření na koncovém efektoru robotické paže. Aktivní triangulace je založena na principu triangulace pomocí kolimovaného paprsku nebo jednoho nebo více planárních paprsků ke skenování cílového povrchu pro 3D měření.

Světelný paprsek se obvykle získává následujícími způsoby: laserová kolimace, válcová nebo kvadrická povrchová prizmatická expanze paprsku, ne-koherentní světlo (jako je bílé světlo, světelný zdroj LED) promítané skrz malé otvory, štěrbiny (mřížky) nebo koherentní difrakce světla. Aktivní triangulaci lze rozdělit do tří typů: jedno-bodové skenování, jedno-řádkové skenování a více-řádkové skenování. V současné době je většina komerčně dostupných produktů pro koncové efektory robotických paží jednobodové a jednořádkové skenery.

V metodách více{0}}řádkového skenování je spolehlivá identifikace okrajových čísel výzvou. Pro přesnou identifikaci proužkových čísel se obvykle při vysoké rychlosti střídají dvě sady kolmých světelných rovin. To také umožňuje skenování "Flying Triangulation", jehož proces skenování a 3D rekonstrukce je znázorněn na obrázku níže. Více{5}}řádková projekce a jeden-záblesk vytvářejí řídký 3D pohled. Několik sekvencí 3D pohledů je generováno pomocí skenování podélnou a příčnou okrajovou projekcí a poté je pomocí registrace 3D obrazu generován úplný a hustý 3D model povrchu s vysokým{10}}rozlišením.

Zdá se, že chromatická konfokální mikroskopie dokáže skenovat a měřit drsné a hladké neprůhledné a průhledné předměty, jako jsou reflexní povrchy a průhledné skleněné povrchy, a v současné době je široce používána v oblastech, jako je 3D kontrola krytů mobilních telefonů. Chromatické konfokální skenování má tři typy: jedno-bodové jedno-rozměrné skenování měření absolutní vzdálenosti, více-bodové skenování a kontinuální skenování čar. Níže uvedený obrázek ukazuje příklady měření absolutní vzdálenosti a souvislého řádkového skenování. Kontinuální řádkové skenování je také typem skenování pole, ale s větším a hustším polem bodů.

Stereo Vision 3D Imaging

Stereo vidění obecně odkazuje na rekonstrukci 3D struktury nebo hloubkové informace cílového objektu pořízením dvou nebo více obrazů z různých úhlů pohledu. Vizuální podněty vnímání hloubky lze rozdělit na oční a binokulární (binokulární disparita). V současné době lze stereo vidění 3D dosáhnout pomocí monokulárního vidění, binokulárního vidění, více{4}}zobrazení a 3D zobrazování ve světelném poli (elektronické složené oko nebo maticová kamera). Signály vnímání hloubky monokulárního vidění obvykle zahrnují: perspektivu, rozdíly v ohniskové vzdálenosti, více-zobrazení, okluzi, stíny, paralaxu pohybu atd.

V robotickém vidění toho lze dosáhnout také pomocí zrcadlového zobrazení a dalších tvarů-z-X metod. Mezi vizuální signály vnímání hloubky binokulárního vidění patří: konvergenční poloha oka a binokulární disparita. Ve strojovém vidění se používají dvě kamery k získání dvou úhlových obrazů stejné cílové scény ze dvou úhlů pohledu a pak se vypočítá disparita odpovídajících bodů na dvou úhlových obrazech, aby se získaly 3D informace o hloubce cílové scény. Typický proces výpočtu binokulárního stereovizního vidění zahrnuje následující čtyři kroky: korekce zkreslení obrazu, oprava páru stereo obrazu, registrace obrazu a výpočet disparity mapy triangulační reprojekce.

Více{0}}zobrazení vidění nebo více-stereo zobrazení využívá jednu nebo více kamer k získání více snímků stejné cílové scény z více úhlů pohledu za účelem rekonstrukce trojrozměrných informací o cílové scéně.

Více-stereo zobrazení se používá hlavně v následujících scénářích: použití více kamer z různých úhlů pohledu k získání více snímků stejné cílové scény a následné použití funkce-rekonstrukce sterea založené na funkcích a dalších algoritmů k získání informací o hloubce scény a prostorové struktuře; pomocí techniky -from{3}}motion (SFM), pomocí stejné kamery s nezměněnými vnitřními parametry, k získání více snímků z různých úhlů pohledu k rekonstrukci trojrozměrných informací cílové scény. Tato technologie se běžně používá ke sledování velkého počtu kontrolních bodů v cílové scéně a průběžně obnovuje 3D strukturální informace o scéně a také pozici a pozici kamery. Zobrazování světelným polem se liší od tradičních principů zobrazování kamerou. Tradiční kamery vytvářejí 2D obraz přímo na zobrazovací rovině poté, co světlo projde objektivem.

Kamery se světelným polem přidávají před rovinu senzoru pole mikročoček. Světlo dopadající přes hlavní čočku opět prochází každou mikročočkou a je přijímáno fotocitlivým polem, čímž získává informace o směru a poloze světelných paprsků. To umožňuje zpracovat výsledky zobrazení později, dosáhnout efektu „nejdřív foť, zaostřit později“ a umožnit obnovení trojrozměrné struktury scény pomocí těchto informací. V oblastech, jako je virtuální realita a rozšířená realita, pomáhá technologie zobrazování světelných polí poskytovat realističtější vizuální zážitek a umožňuje přesnější trojrozměrné vnímání a interakci se scénou.

Princip 3D zobrazování světelného pole se strukturálně liší od principů zobrazování tradičních CCD a CMOS kamer. Tradiční fotoaparáty zobrazují světlo přímo na zobrazovací rovinu poté, co projde objektivem, obvykle vytváří 2D obraz. Kamery se světelným polem přidávají před rovinu senzoru pole mikročoček, což způsobuje, že světlo dopadající přes hlavní čočku znovu prochází každou mikročočkou a je přijímáno fotocitlivým polem, čímž získávají informace o směru a poloze světelných paprsků. To umožňuje následné{5}}zpracování výsledků zobrazování a dosažení efektu „nejdříve vyfotografujte, zaostřete později“.