Архитектура «восприятие → действие»

Универсальная инженерная модель Маска: любой агент — это «фотоны на входе → управляющие сигналы на выходе». Эта формула объединяет:

Биологического человека (глаза → действие)
Tesla с FSD (камеры → руль/педали)
Optimus (камеры → суставы)
Любой будущий ИИ-агент

Эта модель — архитектурная ставка Маска на vision-based, end-to-end нейросети без символьного программирования.

Ключевая цитата

“Humans are photons in, controls out. The vast majority of information reaching our brain is from our eyes. Photons in, controls out. The same is true of the car.” 🔗

«Люди — это “фотоны на входе, управляющие сигналы на выходе”. Подавляющее большинство информации, достигающей мозга, поступает через глаза… То же самое верно для автомобиля.»

“The car is a robot on four wheels. Optimus is a robot with hands and legs. They are very similar.” 🔗

«Машина — это робот на четырёх колёсах. Optimus — это робот с руками и ногами. Они очень похожи.»

Архитектурная ставка

Vision-based vs. сенсорный коктейль

Большинство автономных машин (Waymo, Cruise) используют лидар + радар + камеры + HD-карты + GPS. Маск настаивает на только камерах: «если человеку хватает глаз — значит хватит и машине».

Аргумент:

Природа решила задачу «глаза + мозг» 500 млн лет назад
Дорожная сеть спроектирована для биологических нейросетей и глаз
Поэтому правильное решение — цифровые нейросети + цифровые глаза
Лидар и HD-карты — костыли, маскирующие плохую обработку зрения

End-to-end neural net

Tesla перешла на end-to-end нейросеть в FSD v12 (2024). Раньше было: камеры → нейросеть распознавания → правила → управление. Стало: камеры → нейросеть → управление напрямую.

Это то же самое, что в мозге: нет «правил вождения» как кода, есть прямая ассоциация восприятия и моторики.

В verified Earnings Calls Tesla за 2024 год эта архитектура становится мостом к Optimus: Q1/Q2/Q4 связывают FSD, real-world AI, humanoid robot и factory deployment как одну stack-программу, а не отдельные продукты.

Интервью Лекс Фридман #252 (декабрь 2021) даёт более раннюю техническую версию этой же архитектуры. Маск описывает FSD как построение vector space из потока фотонов, с памятью через время и пространство, низкой latency и переходом от heuristic C/C++ к neural nets. Фраза «neural nets are kind of eating software» — ранняя форма того, что в 2024 станет end-to-end риторикой.

Ещё более ранняя earnings-call формулировка архитектурного шага: видео-лейблинг с 8 камер (Q4 2019)

На Q4 2019 earnings call (29 января 2020) Маск формулирует архитектурный шаг в FSD-программе:

“a really fundamental thing is moving to video training. So in terms of labeling, labeling with video in all eight cameras simultaneously. This is a really, I mean in terms of labeling efficiency, arguably like a three order of magnitude improvement in labeling efficiency.” 🔗

«Действительно фундаментальная вещь — переход к видеотренировке. С точки зрения лейблинга — лейблинг видео со всех восьми камер одновременно. С точки зрения эффективности лейблинга это, можно сказать, улучшение на три порядка.»

Это самое раннее earnings-call упоминание Маском архитектурного шага в направлении video-based, multi-camera end-to-end labeling — за полтора года до AI Day 2021. Документировано позже как Hydranet / Bird’s Eye View в AI Day-презентациях. Раннее заявление в earnings-call формате становится ретроспективной точкой опоры: к 2024 это превратится в end-to-end neural net (FSD v12).

Трёхуровневая таксономия автономии (Q3 2019)

На Q3 2019 earnings call Маск даёт формальную трёхуровневую таксономию автономии. Уровни 1 (feature complete с supervision) и определение того, что значит «most of the time»:

“there’s three major levels to autonomy. There’s the car being able to be autonomous, but requiring supervision and intervention at times. That’s feature complete. Then there’s – and it doesn’t mean like every scenario, everywhere on earth, including ever corner case, it just means most of the time.” 🔗

«Существует три основных уровня автономии. Машина может быть автономной, но временами требовать supervision и вмешательства — это feature complete. И это не значит каждый сценарий повсюду на Земле, включая каждый corner case — это просто большую часть времени.»

Уровни 2 (Tesla-внутренняя уверенность без supervision) и 3 (регуляторное согласие):

“And then, there’s another level which is that we think it’s – that from a Tesla standpoint, we think the car is safe enough to be driven without supervision. Then the third level would be that regulators are also convinced that the car can be driven autonomously without supervision. Those are three different levels.” 🔗

«И ещё один уровень — с точки зрения Tesla мы считаем, что машина достаточно безопасна для езды без supervision. Третий уровень — регуляторы также убеждены, что машина может ехать автономно без supervision. Это три разных уровня.»

Это редкий момент формальной таксономии в коммуникации Маска. Уровни 1, 2, 3 разделяют техническую возможность, корпоративную уверенность и регуляторное согласие — три независимые переменные. Через несколько лет этот язык будет регулярно появляться в FSD-discourse.

Radar elimination — implementation (Q1 2021)

На Q1 2021 earnings call Маск объявляет переход от декларации (Q3 2020 «if LIDAR was free, we wouldn’t use it») к implementation:

“I think with the elimination of radar, we’re finally getting rid of one of the last crutches. Radar was really – it was making up for some of the shortfalls of vision, but this is not good. You actually just need vision to work.” 🔗

«С удалением радара мы наконец избавляемся от одного из последних костылей. Радар компенсировал недостатки vision, но это плохо. На самом деле нужно, чтобы vision работало само.»

С обоснованием через биологическую аналогию:

“And when your vision works, it works better than the best human because it’s like having eight cameras, it’s like having eyes in the back of your head, beside your head and has three eyes of different focal distances looking forward.” 🔗

«Когда vision работает, она работает лучше лучшего человека — это как иметь восемь камер, глаза на затылке, по бокам головы и три глаза с разными фокусными расстояниями вперёд.»

Q1 2021 — реальный point of no return: Tesla физически убирает radar из новых машин. К 2022-2023 удалит USS-сенсоры. Pure vision как реализованная архитектурная ставка, не только декларация.

Что это объясняет

Универсализация инженерной программы

Если FSD = «фотоны на входе, управление на выходе», то Optimus — то же самое. Поэтому наработки FSD напрямую применяются к роботу. Это даёт Tesla архитектурное преимущество перед конкурентами в робототехнике.

Скептицизм к лидарам

Маск сильно критикует лидары: «костыль, fool’s errand, дорогой обходной путь». Это не просто экономическая позиция — это архитектурная вера: если природа справляется без лидара, то и инженерия должна.

Связь с Neuralink

Neuralink — обратное направление: управление → восприятие. Имплантат снимает «выходные сигналы» мозга (моторные) и передаёт во внешний мир. Это зеркальная к FSD архитектура.

Связь с Optimus в #252

В #252 переход к Optimus объясняется не маркетингом, а архитектурой: если Tesla решает real-world AI для автомобиля, то робот с руками и ногами — следующий носитель той же системы. Это делает Optimus не отдельным продуктом, а расширением perception/action stack в более общий физический мир.

4D video architecture transition (Q2 2020) — implementation FSD

На Q2 2020 earnings call Маск формулирует главный milestone в FSD-программе: переход от 2D-image-recognition к 4D-surround-video с временным измерением:

“the actual major milestone that’s happening right now is really a transition of the autonomy system or the cars, like AI, if you will, from thinking about things in – like two-and-a-half feet. It’s like think – things like isolated pictures and doing image recognition on pictures that are harshly correlated in time but not very well and transitioning to kind of a 4D, where it’s like – which is video essentially. You’re thinking about the world in three dimensions and the fourth dimension being time.” 🔗

«Главный milestone сейчас — переход autonomy-системы машины (или AI, если хотите) от мышления изолированными картинками с image recognition к 4D — фактически видео. Мы думаем о мире в трёх измерениях плюс время как четвёртое измерение.»

Это реальная implementation того, что в Q4 2019 было анонсировано как «3 orders of magnitude улучшение в labeling». Архитектура развернётся на AI Day 2021 как Hydranet/BEV, и в 2024 — как end-to-end neural net (FSD v12).

Cameras-only doctrine — «if LIDAR was free, we wouldn’t put it on» (Q3 2020)

На Q3 2020 earnings call Маск даёт самую жёсткую формулировку cameras-only doctrine в earnings-call формате:

“I mean totally free, well, I think probably — I think even if it was free, we wouldn’t put it on.” 🔗

«То есть совсем бесплатно — ну, думаю, даже если бы он был бесплатным, мы бы его не ставили.»

С обоснованием на основе универсальности passive optical:

“you obviously need to focus — if you care about autonomy, you need to focus on vision because the entire road system is based on passive optical. So you have to solve passive optical for — to have a self-driving system that is a generalized solution. And once you solve passive optical, you’ve solved self-driving, so why bother with anything else?” 🔗

«Если тебя волнует автономия — фокусируйся на vision, потому что вся дорожная система построена на passive optical. Чтобы получить generalized self-driving, надо решить passive optical. А когда ты решил passive optical — ты решил self-driving. Зачем тебе ещё что-то?»

Это архитектурная ставка, не просто экономический выбор. Через 2 года Tesla убирает radar и USS-сенсоры, оставляя только камеры — реализация «pure vision» обещания.

Связи

Мышление первыми принципами — вывод из физики/биологии, а не из инженерных норм
Законы физики как единственные правила — биология как физическая система
Оптимус как экономическая сингулярность — Optimus = расширение архитектуры
Инженерия как первичная функция — общая инженерная позиция Маска
Neuralink — зеркальная архитектура
Tesla — главная реализация
Интервью Лекс Фридман #252 (декабрь 2021) — подробная ранняя формула vector space и raw photons
Илон Маск

Критика

Критика 1: Нерепрезентативность данных

Vision-based система обучается на видео из реальных поездок. Но редкие критические события (ребёнок выбегает на дорогу) могут быть редко представлены в данных. Без лидара система не «видит» в темноте, тумане, при ослеплении.

Возражение Маска: люди тоже не видят и иногда попадают в аварии, цель — быть лучше людей, а не идеально.

Критика 2: Биологическая аналогия ограничена

Глаза-мозг эволюционировали 500 млн лет для конкретной экосистемы. Это не значит, что лучшая инженерная архитектура для машины должна копировать биологию. Колесо лучше ног для дорог, лидар может быть лучше глаз для машины.

Маск отвечает: «но дорогая сеть spроектирована для глаз, не для лидара».

Критика 3: Безопасность

В 2024–2025 несколько смертельных аварий с Tesla на Autopilot. Критики связывают с отказом от лидара. Маск публикует данные, показывающие, что аварии случаются реже, чем у людей в среднем (1 на 7 млн миль vs 1 на 700к).

Но смертельные аварии и редкие события могут быть другой статистики, чем средние. Дискуссия продолжается.

Хронология формулировки и операционализации

Архитектурная ставка «восприятие → действие» сложена публично задолго до того, как Маск присваивает её у Фридмана в 2023.

На AI Day 2021 Карпатый формулирует «synthetic animal» с biological-visual-cortex как рамку всего Tesla Vision stack:

“We are effectively building a synthetic animal from the ground up. So, the car can be thought of as an animal, it moves around, it senses the environment and, you know, acts autonomously and intelligently.” 🔗

«По сути мы строим синтетическое животное с нуля. Машину можно представить как животное: она перемещается, ощущает окружение и действует автономно.»

Это первичная формулировка того, что у Фридмана-2023 станет «photons in → controls out». Маск присваивает формулу Карпатого через два года.

На Q1 2022 earnings call Маск делает самое раннее публичное verified-явное приравнивание FSD к AGI:

“To solve Full Self-Driving, you actually have to solve real-world artificial intelligence, which nobody has solved.” 🔗

«Чтобы решить Full Self-Driving, нужно фактически решить реальный искусственный интеллект, который никто ещё не решил.»

На AI Day 2022 (сентябрь) Маск даёт прямое описание end-to-end FSD за 2 года до его релиза (FSD v12 в 2024):

“The thing that’s happened over time with respect to Tesla autopilot is that the neural nets have gradually absorbed more and more software. And in the limit of course you could simply take the videos as seen by the car and compare those to the steering inputs from the steering wheel and pedals… in principle you could train with nothing in between. Because that’s what humans are doing with the biological neural net.” 🔗

«Со временем нейросети постепенно поглотили всё больше софта. В пределе можно просто взять видео, которое видит машина, и сопоставить с управляющими сигналами руля и педалей… В принципе можно тренировать без чего-либо посредине. Потому что именно так делает человек со своей биологической нейросетью.»

На We, Robot 2024 это операционализируется как unsupervised FSD launch (Texas + California, 2025):

“Unsupervised FSD in Texas and California next year.” 🔗

«Unsupervised FSD в Техасе и Калифорнии в следующем году.»

Это финальный шаг архитектурной ставки: end-to-end FSD из 2022-го объявления переходит в 2024 продукт, который реально стартует в Остине в июне 2025.

Эпистемическое значение

Это программное утверждение инженерной картины мира Маска. Не «как сделать лучшую машину», а «какова правильная архитектура агента». Это философско-инженерный уровень, на котором живёт Маск.