2026/06/05

Utazások kép-nyilvántartásban

Többféle MI-vel beszélgetve a témáról elég nagy ívet megtettünk egy olyan terepen, ahol nagyon nem vagyunk otthon. Az alapfeladat, hogy bár elég agresszíven kulcsszavazok (amivel egy kvázi lyukkártya rendszert akartam létrehozni), mégsem vezet gyors találatokra a képeim között. Ennek okai, hogy eleve vannak új kulcsszavak, amik régebb még nem voltak relevánsak, de utólag, visszamenőleg, nem ártana a régi képekre is rákerüljenek, de nyilván senki nem kulcsszavazza újra a teljes fotóállományát mindegyre. Meg aztán, amikor új képeket rendezünk, a  többszáz kulcsszóból nem mindig jut eszünkbe minden releváns. Így, amikor keresni kell valamit, akkor legtöbbször brutális erővel szokott megtörténni, ami felveti az egész kulcsszavazási munkánk hiábavalóságát is.

Mindegy is, először rosszul fogalmaztam meg a problémát, MI alapú képelemzőt kerestem, ami valamennyire automatikusan kulcsszavazná a képeimet, ebben a műfajban a DigiKam képkezelő tűnt a legjobb iránynak, de közben számtalan más megoldás, technológiai is előkerült. Mondjuk az, hogy minek egyáltalán kulcsszavazni MI-vel, ha MI-vel keresni is lehet. 

Például a hasonlóság alapú keresés (Content based image retrieve), arcfelismerés (nem kardinális a mi esetünkben) és ami a legjobban tetszene, a szemantikus keresés (CLIP - Contrastive Language-Image Pre-training)). 
Na, erre elvitt a szemantikus keresés google-élménye felé, amire ingyenesben az Immich-et javasolta (annyira nem kell a dolog, hogy megvegyük az Excire-t), viszont rá kellett jönnünk, hogy bár ez is tud kezelni külső meghajtót, de az egész logikája webes, többjúzeres (emiatt kell neki Docker desktop, meg minden bánat). Ekkor merült fel, hogy esetleg lennie kell offline szemantikusan kereső programoknak is, amire visszatért a javaslatban a DigiKam. De mellette a Lap program neve is felmerült. 

Az illusztrációknál minden esetben baloldalt az Immich, jobboldalt a Lap találatai vannak, ugyanarra a keresőkifejezésre. Tapasztalatunk az, hogy az Immich bővebben merít, szabadabban asszociál, a Lap szűkebb találati listát ad, és sokszor emiatt lényegre törőbb, nincs annyi hamis találat, ugyanakkor elsikkaszt néhány releváns találatot is.


Nagyon érdekes, hogy mindkét progi elsőnek a fali festményt látta mezítelen lánynak. mindkettő hozta a kézfejet, az Immich egy képpel többet megtalált a valódi keresettek közül, viszont betekintést kaptunk abba is, hogy miként látja a képeket. Megfogta a mezítelen szobrokat, de még a krétarajzot is a földön, sőt női idomokat látott bele csomó absztrakt képünkbe is. Szóval az Immich olyan, mint Móricka, mindenhol pinákat lát.
Szóval az MI segítségével valahogy feltuszkoltuk a gépre az Immichet és a Lap-ot, nem volt könnyű, mert az Immichnek a telepítése nem felhasználóbarát.


OCR-ben az Immich teljesített egyedül, bár nem első helyen találta meg a keresett fotót, a Lap random képeket hozott, bár úgy tűnik sejtette, hogy szöveget várunk a képen, mert igyekezett szöveges fotókat mutatni.

Mondjuk az OCR-adatbázis építése is felvett vagy fél napot, az Immichnél. És erre nincs magyarázatunk, az 1980-as fotónkat csak a Lap találta meg. Mégis van benne OCR? Igaz, hogy nagyon le kellett görgetni érte, a sok hamis találat legalján volt.

BIOS-ban engedélyezni kellett a virtualizációt. Kellett egy WSL2, ami gyakorlatilag egy fapados Linux motor a Windows mellett, mert az Immich Linuxos környezetben érzi jól magát. Akkor erre kellett egy Docker Desktop, ami az Immich kontérnerét kezeli. MI nélkül ne fogj neki a telepítésnek, kismillió hiba becsúszott, amiket a Gemini elég jól lekezelt. És jegyezd le melyik meghajtón mennyi szabad helyed volt, szükség lehet egy WizTree progira, hogy megtaláld az összes modellt, adatbázist, cachet, thumbnailt fityfenét. És szánj rá 1-2 napot, mert a fél fotóbázisunk beszkennelése hosszú órákat vesz igénybe. Amíg ez nem történik meg, addig nyilván keresni sem érdemes. A Lap felpatkolása már valamivel egyszerűbb, az adatbázis építése is jelentősen gyorsabb, ha nem kapcsolod be a béta arcfelismerést. 


Na, azzal viszont már nagyon közelíti az Immich időrablását. Mindkét progi arcfelismerése kiábrándító volt. Az Immich még a vonatkereket is arcnak látta, vajon kiknek a fotóival taníthatták?




Azért az állatok felismerésében elég városiak ezek az intelligenciák. A disznóra csacsit is találtak mindketten, meg bölényt is. De az ázott talpam fotója azért a legviccesebb. A tehenes találatba már nem annyira ciki a bölényeket is belevenni, és külön díjaztam, hogy a punk-boci képet mindkettő elsőnek hozta (mennyit kerestem én ezeket a képeket a minap). Viszont a legtehenesebb tehénfotómat csak az Immich hozta.

A medvés keresés is elég vegyes, itt a Lap azért húzott pár jót. Megtalálta a plüssmacit is, sőt a plüssmajmot is. Mindketten benézték a busókat is medvének, viszont mindketten megtalálták a medvének öltözött embert, de csak az egyik fotót róla, azt amelyiken mórikálja magát és integet, azt már nem tekintették medvésnek. Gondoltuk bonyolítjuk és medve fafaragást kértünk. Mindketten hozták a keresett képeket, plusz az Immich megtalálta a tulipánok fényjátékában a malackákat és mackókat, a Lap pedig észrevette a kidőlt medveszobrot a kisgyerek mellett.



Szóval mikor már futott a két progi, mindkettőnek ugyanazt a könyvtárat adtuk oda, olyan 16 000 fotóval. A keresések szövegeit pedig vágólapoztuk a két program között és lestük, melyik mit talál ugyanarra a kifejezésre, leírásra. Volt néhány olyan keresés, amiben a Lap erősebb volt, mint az Immich, de összességében jól érezhető, hogy nem tud annyit. Viszont a rossz találatok is érdekesek voltak, egyfajta betekintést kaptunk abba, hogy miként láthat egy képet az MI.

Lássunk összetettebb keresőseket, a lovagló kutyát csak az Immich találta meg, beírtuk a Taxi kifejezést is, és baszki erre is megtalálta a lovagló kutyás fotót, ami elég meglepő asszociáció részéről.


A két rendszer a mi céljainkra jelenleg teljesen használhatatlan, telepítése nehézkes, tudása csekély. De simán el tudjuk képzelni, hogy pár év múlva már ilyen programokkal fogunk képeket keresni az fotótárunkban. A blog élete alatt számos, régen kitárgyalt és leértékelt technológia cserélődött le, vagy érett be idővel, így ebben is látunk perspektívát. 



Ha csak íjászokat keresünk, a Lap semmi relevánsat nem talált, sőt első helyre a géppisztolyos fotót szánta. Az íjászkodó gyerekekre azonban megtalált két releváns képet, úgy hogy egyiken valóban íj van a gyerekek kezében a másik fotón meg ugyanezek a gyerekek de íj nélkül. Mi lehet a fejében? Lehet, hogy kép folderének kontextusát is figyelik, mert olyan fotókat is hozott az Immich, amik ugyanazon a városnapokon készültek, de közük nincs az íjászathoz.

Lássuk az elvontabb kifejezésekkel hogy boldogulnak, elhagyott autók, elsüllyesztett templomok, elhagyatott mozi-belsők, és piros ruhás lány az elhagyatott szoba murálja előtt:






Régi vonatok és vonatbelsők, meglepően jó mindkettő ebben.



Szív-alakú zárak, hatalmas fém-krisztusok, rozsdás ajtók, és kulcsok az aszfaltban. Vegyes sikerrel, általában nem az összeset találták meg, de voltak releváns találatai mindkét programnak.





Fehér kéznyom női fenéken. A Lap nem tudta értelmezni, az Immich sem első helyre tette, de legalább megtalálta. Árnyékok és színes-ruhás lány fekete autóval, nem értjük miért találta a piros autókat is meg, bár ugyanarra a nőre gondoltunk, lehet ha itt is tudják a kontextust?




Az infra-képeket elég jól felismerik. Kicsit bonyolítottuk, hogy infra képen bringás fára mászó gyerekek, mindkét progi megtalálta.



Kézzel készített kő-boltívek, Gollam-alakú sziklák, sóbánya-belsők. Itt azért nem voltak erősek, de az meglepett, hogy a sóbánya-belső absztrakt fotót megtalálta mindkettő. 




Pina-fák, havasi gyopár, alpin-tengerek és pókháló életlen háttérrel. Itt a havasi gyopár Lap találata volt meglepő. Úgy gondolja, hogy Szászjenő egy ilyen virágszál. Nabazdmeg.





Lézerek füstön, diffraktált lézerek, lézerforgók. Vegyes eredmények.





Alternatív fotó, absztrakt fotó, kaleidoszkóp, mandala.





A tudományosabb kérdésekben nagyon vegyesen teljesítettek. A világító virágot csak az Immich találta meg, A keresztpolár fényű kristályokat szintén. 



A cymatográfiát viszont a Lap sokkal jobban vágta.


Volt még, akril-festék, mindkettő elég jól találta, réz dendrit, réz-fa, itt csak az Immichnek voltak találatai, fluid fák, ásványvíz, szappanbubi.





És termál-papír művészet. érdekes, hogy aktnak látta a termál-művet, de termálnak nem annyira. Azért az Immich azért kettőt így is talált, ami ennyire marginális témánál szerintem meglepően jó. Nem valószínű, hogy sok ilyesmivel találkozhatott a modell a tanulása során.

És legvégül: legyen tánc! Nem, ezt nem az OCR fogta, hanem a térképes keresés. Ami nagyon jó cucc lenne, ha a képeink zömén lenne GPS-infó.