Låt mig måla bilden. Säg att du vill att en Humanoid ska laga en utsökt middag medan du sitter i soffan och tittar på Netflix. Hur skulle detta fungera på en teknisk nivå eftersom Humanoid kräver flera hjärnor för att laga din middag? Robotens intelligens är inte monolitisk, utan ett team av AI-moduler som kombinerar långsam överläggning med snabba reflexer (System 2 + System 1-design). Dess VLA-modell (vision-language-action) delar upp kognition i en resonemangsmodul och en reaktiv kontrollpolicy. Eftersom roboten körs på en kognitiv arkitektur med flera hjärnor, skulle den snurra upp en dedikerad "kock"-operatör för att hantera din begäran, som att undersöka köket med sina kameror, leta upp ett recept och sedan styra sina lemmar för att börja hacka grönsaker. Dessa hjärnor kan delas upp i följande operatorer. Hjärna #1: För att laga en utsökt middag behöver du en verkställande planerare. Den tolkar ditt kommando ("förbereda middag") för att bestämma målet (göra pasta). Med hjälp av naturlig språkförståelse bestämmer den vilka deluppgifter som behövs (hitta ingredienser, laga pasta, duka bordet etc.) och vilka andra hjärnor som ska hantera varje. Den samordnar multiagentsystemet och aktiverar specialiserade moduler för syn, kunskap och rörelse. Denna deliberativa hjärna (system 2) fattar beslut på högsta nivå, lägger fram tillvägagångssättet och fördelar ansvar innan några fysiska rörelser börjar. Hjärna #2: Nu när du har receptet behöver du lite robotögon och rumslig medvetenhet. Den bearbetar kameraflöden för att identifiera ingredienser, verktyg och deras platser i köket. Med hjälp av avancerat datorseende ser den skärbrädan, grönsakerna i kylen, kniven på bänken etc. Den bygger en 3D-karta över miljön och spårar relevanta objekt (som var saltet eller kastrullerna finns). Denna perceptuella hjärna (System 2) går långsammare än reflexer, men ger en korrekt scenkontext för planering. Genom att känna igen alla inblandade delar utbildar den roboten i den verkliga världen. Hjärna #3: Denna hjärna fungerar som robotens kunskapsbas och minne (System 2). Den hämtar och tolkar information som behövs för uppgiften, i det här fallet ett lämpligt recept och matlagningsinstruktioner. Den kan fråga en onlinekokbok eller dess interna databas efter ett pastarecept och sedan tolka stegen (koka vatten, hacka vitlök, etc.). ...