4 Minuty
Xiaomi vtrhlo do závodu o autonomní řízení s rozhodným krokem. Jeho nově vydaný OneVL rámec je nyní s otevřeným zdrojovým kódem a nabídka je ambiciózní: poskytnout systémům pro autonomní řízení lepší způsob, jak číst silnici, uvažovat při nejistotě a předvídat, co se stane dál.
To má váhu, protože AI pro autonomní řízení byla dlouho rozdělena mezi dvě odlišná směry myšlení. Jedna strana se zaměřuje na modely vidění-jazyka-akce, neboli VLA systémy, které interpretují dopravní scény a překládají toto porozumění do řídicích rozhodnutí. Druhá spoléhá na světové modely navržené tak, aby simulovaly, jak se situace může rozvinout v následujících několika sekundách. Xiaomi tvrdí, že OneVL tyto dva přístupy spojuje v jediném rámci pomocí odvozování v latentním prostoru, metody určené k rychlejšímu a efektivnějšímu předpovídání a rozhodování.
Jednoduše řečeno, společnost se snaží vyřešit jeden z nejtěžších problémů v technologii autonomního řízení: nejen vidět silnici, ale chápat příčinu a následek v reálném čase. Chodec vstoupí na vozovku. Koloběžka přejede jízdní pruh. Auto vpředu váhá na křižovatce. To nejsou statické snímky. Jsou to pohyblivé hlavolamy. Xiaomi tvrdí, že OneVL je navržen tak, aby s touto nepřehledností pracoval s větší přesností než konvenční přístupy.
Společnost říká, že rámec rozšiřuje schopnosti uvažování jejího modelu XLA a zároveň zvyšuje rychlost i přesnost inferencí. Také uvádí silné výsledky napříč běžnými benchmarky souvisejícími s vnímáním, uvažováním a plánováním, třemi oblastmi, které jsou jádrem softwaru autonomních vozidel. Xiaomi jde dál a tvrdí, že OneVL může překonat explicitní řetězení myšlenek v přesnosti, přičemž si udržuje rychlosti blízké latentním inferenčním systémům optimalizovaným hlavně pro konečnou predikci odpovědi.
Nejen rychlejší, ale i důvěryhodnější
Jednou z zajímavých částí vydání je Xiaomi důraz na interpretovatelnost. V autonomním řízení jsou čísla výkonu jen část příběhu. Inženýři, regulátoři a nakonec i cestující chtějí vědět, proč stroj učinil určité rozhodnutí. Xiaomi říká, že OneVL dokáže vysvětlit své kroky jak v přirozeném jazyce, tak vizuálně, čímž vývojářům poskytuje jasnější pohled na to, jak model dospěl k závěru a co očekává, že se na silnici stane dál.
To může být užitečné daleko za hranicemi výzkumných demonstrací. Pokud systém dokáže ukázat, proč se rozhodl zpomalit, změnit pruh nebo dát přednost, je snazší jej audituovat, vylepšovat a potenciálně ověřit v bezpečnostně kritických prostředích. Pro průmysl často kritizovaný za rozhodování jako v černé skříňce to není malý detail.
Na načasování to má také význam. OneVL přichází krátce poté, co Xiaomi uvolnilo Omnivoice, svůj model pro generování zvuku s otevřeným zdrojovým kódem, což naznačuje, že společnost se více orientuje na otevřený vývoj AI napříč různými oblastmi. Nejde jen o zveřejnění kódu jako gesto dobré vůle. Je to signál. Xiaomi chce mít hlasitější pozici v debatě o AI a jasně vidí chytrou mobilitu jako jedno z území, o které stojí za to bojovat.
Konkurence v oblasti autonomního řízení a ztělesněné AI se měsíc od měsíce zintenzivňuje. Technologičtí giganti, automobilky i specializované startupy všichni usilují o stejnou odměnu: systémy, které dokážou natolik porozumět fyzickému světu, aby v něm mohly bezpečně jednat. Uvolněním OneVL s otevřeným zdrojovým kódem Xiaomi nejen vstupuje do tohoto závodu. Snaží se také ovlivňovat pravidla hry.
Zanechte komentář