Лучше один раз увидеть, чем сто раз услышать
Русская поговорка
Зрение и слух – важнейшие каналы, через которые мы узнаем, что происходит вокруг: смотрим на окружающий мир, подмечаем что-то интересное, а потом делимся своими мыслями с другими, обмениваясь идеями и накапливая знания. Кажется, нет ничего проще, чем зрение и слух. В мире много сложных для понимания штук, но то, что мы видим и слышим – это понятная и простая основа, на которую можно положиться. Когда люди хотят поставить точку в спорах о том, как все было на самом деле, они говорят, что видели что-то собственными глазами или слышали своими ушами. «Очевидный» – синоним доступного и простого для понимания: это когда достаточно посмотреть и убедиться, что все так и есть. Действительность, данная в ощущениях, кажется простым и незыблемым фундаментом, на котором строится наша жизнь.
Научить компьютер видеть и слышать так, как это делает человек, пока невозможно.
Обычно мы допускаем, что люди разные, подразумевая, что они думают и действуют по-разному. Но при этом мы исходим из того, что слышим и видим так же как и другие (если, конечно, у нас нет объективных проблем со слухом и зрением). Понятно, почему нам сложно признать, что люди воспринимают мир неодинаково: в этом случае непонятно, как вообще искать общее пространство для коммуникации, а жить с такой мыслью как-то неуютно. К тому же у нас нет достаточно серьезных оснований, чтобы подозревать, что мы настолько разные. Каждый день мы наблюдаем, как люди говорят, двигаются и реагируют на происходящее вокруг, – надо быть слепым, чтобы отрицать различия между людьми, если знаешь их достаточно хорошо. Но мы не можем прямо пронаблюдать за тем, как люди слышат и видят.
Проблема, однако, кроется еще глубже: вообще-то мы очень плохо представляем себе, как видим и слышим мы сами. Слух и зрение достаются нам просто как данность, сами собой и без особых усилий – точнее, без осознанных усилий. У нас есть представление о простых и сложных задачах: вот, скажем, арифметика – это непросто, надо специально учить таблицу умножения и правила деления. Или вот история, где нужно помнить даты и имена, или география, где важно не путать Иран с Ираком, Ливию с Ливаном и Австрию с Австралией. А зрение – это легкотня: чтобы узнать знакомого на улице, достаточно кинуть беглый взгляд в толпу, и мысль «Ой, да это же Олег из параллельного класса!» сама собой появляется в голове. Главное, что алгебре, истории и географии приходится долго учиться в школе, а зрению и слуху и учить не надо – кажется, они даются детям от рождения.
Чтобы понять, что дела с математикой и восприятием обстоят с точностью до наоборот, нужно было изобрести роботов, а затем постараться научить их видеть и слышать.
Справиться с перемножением может простой допотопный калькулятор, но задачи, которые любой трехлетка выполняет в два счета, становятся непреодолимым препятствием для самых сложных и совершенных роботов.
При этом нет никаких проблем с тем, чтобы записать и воспроизвести изображения и звуки, однако наш мозг делает совсем не это. Он умеет анализировать и интерпретировать то, что видит и слышит. Мы не просто пассивно потребляем информацию из окружающего мира – эти сигналы проходят множество стадий обработки. Мозг их фильтрует, вычленяет из потока сигналов важные, разделяет на категории, проверяет на соответствие разным признакам, а затем на основе отдельных элементов создает цельную картину, интерпретируя информацию в соответствии с тем, что мы знаем о мире, и с тем, что имеет для нас смысл.
Нам не нужно прикладывать осознанные усилия для того, чтобы слышать и видеть, но это не значит, что эти процессы – простые.
Правда, мы не замечаем всех этих сложнейших процессов: чаще всего ответы на вопросы, что мы сейчас видим и слышим, приходят на ум сами собой, а вся сложная внутренняя работа скрыта от нашего сознания. Если человек каждый день видит аккуратно нарезанную и упакованную колбасу только в магазине, скорее всего, он не представляет себе, как она там появляется. Она просто каждый день ждет его на полке супермаркета, а все премудрости того, как ее готовят и доставляют в магазины, для конечного потребителя остаются невидимыми. Со зрением и слухом дела обстоят примерно так же – мы не представляем себе, насколько сложно устроена обработка зрительных и слуховых сигналов до тех пор, пока какой-нибудь любопытный ученый не заглянет внутрь, чтобы попробовать в этом разобраться.
На рубеже XX–XXI веков появилось несколько культовых фильмов, ставивших под сомнение незыблемость реальности, данной нам в ощущениях, – «Темный город» (1998), «Матрица» (1999) и «Тринадцатый этаж» (1999). Во всех трех фильмах в центре сюжета герои, которые живут в иллюзорном мире, но воспринимают его как настоящий и до поры до времени не подозревают о подмене. Когда смотришь такое кино, невольно задаешься вопросом о том, насколько реален мир, который мы ощущаем, и как это проверить, если нельзя доверять ощущениям. Можно ли обмануть мозг и заставить его видеть и слышать не то, что есть на самом деле?
Ученые до сих пор не до конца понимают, как мозг интерпретирует электрические сигналы, поступающие в него.
Это отчасти философский вопрос (особенно касательно того, что мы знаем о «на самом деле» и существует ли оно вообще за пределами нашей психики). Но чтобы решить такую невообразимо сложную задачу и заставить мозг услышать и увидеть то, чего нет на самом деле, для начала нужно разобраться с более простой проблемой – понять, каким образом реальные звуки и изображения кодируются в мозге. Однако даже это современной науке пока еще не по зубам: простая задача оказывается совсем не такой простой, и сотни и тысячи ученых уже много лет ломают над ней головы.
Что мы уже знаем о восприятии? У всех органов чувств общий принцип работы – они переводят разные типы сигналов извне на понятный мозгу язык нервных импульсов. Чтобы понять, что кодирует нейрон, необходимо выяснить, что это за нейрон и откуда он получает сигналы. Залп разрядов у нейрона в зрительной коре кодирует особенности изображения, а в слуховой – характеристики звуков.
Стимулируя нервные окончания, ведущие в мозг, мы будем вызывать разные ощущения, в зависимости от того, откуда и куда идет отросток нейрона. Все, что активирует зрительный нерв, воспринимается как элементы видимого мира, а все, что активирует нейроны спирального ганглия во внутреннем ухе, – как звуки10.
С точки зрения мозга звуки и образы – это всего лишь симфония электрической активности в огромной сети специализированных нейронов. В мозге нет звуков, форм и цветов, потому что для нервной системы в них нет никакого смысла – у него есть электрические импульсы, стремительно бегущие вдоль нервных окончаний. Мы еще очень слабо представляем, как мозг интерпретирует электрические сигналы, чтобы построить на их основе цельную картину окружающего мира – это чрезвычайно сложная вычислительная задача. Здесь задействовано множество специальных отделов, каждый из которых контролирует несколько сравнительно простых этапов, передает информацию дальше, а заодно отправляет обратную связь о том, что получилось, в нижележащие отделы. Передавая информацию вдоль конвейера отделов, мозг выделяет внутри нее все более сложные признаки. В зрительной системе линии и пятна постепенно преобразуются в фигуры, из которых выстраиваются объекты сложной формы; сопоставляя изображения от двух глаз, мозг оценивает расстояние до объекта и его размер, распознает в мозаике пятен на сетчатке знакомые нам предметы и т. п.
Получая информацию извне, мозг не выстраивает внутри себя точную копию внешнего мира. Скорее он пытается сопоставить поступающие сигналы с тем, что мы знаем о мире, чтобы придать смысл тому, что мы видим и слышим. Мозг все время подбирает подходящие интерпретации для потоков входящей информации: если что-то выглядит, двигается и крякает, как утка, оно получает бирочку «утка», а затем бирочки присваиваются деревьям, кустам, небу и прохожим. Мир, который видит биолог, отличающий березу от дуба, а крякву от огаря, отличается от мира, видимого горожанином, для которого все птицы и деревья примерно на одно лицо: чем богаче наш зрительный опыт и глубже знания, тем больше интересного мы замечаем вокруг.
Мозг способен вычленять из огромного количества сигналов только те, что для нас важны.
Мы извлекаем из какофонии сигналов информацию, имеющую для нас смысл, – фактически соединяем между собой некие закономерности внутри воспринимаемых сигналов со своим опытом и ожиданиями. Так выстраивается согласованная модель мира, которую удобно использовать для прогнозов и планов на будущее. Вся эта внутренняя работа идет незаметно для человека и обычно дает довольно точные предположения о том, что происходит вокруг, – по крайней мере, до тех пор, пока все работает как следует.
В общем, качественному восприятию мира необходимо учиться: чем больше наши знания о мире, тем глубже восприятие.
Самая общая настройка зрения и слуха начинается сразу после рождения человека11: младенцы обучаются различать знакомые предметы и лица близких, звуки родной речи, а затем и узнавать отдельные слова, запоминая их значение. Примерно то же самое происходит, когда человек учит иностранный язык: мы обучаем слуховую и зрительную системы узнавать новые объекты – звучание и написание слов – и связываем их со значениями. Спустя время натренированный мозг перестает воспринимать иностранный язык как абракадабру и тарабарщину и начинает улавливать значение того, что видит и слышит. В арсенале мозга появляются новые шаблоны, которые можно прикладывать к реальности, чтобы придавать происходящему смысл.
Слух «самонастраивается» еще до рождения ребенка, так как новорожденные по-разному реагируют на звуки, которые слышали и не слышали, пока были в утробе матери.
Зрительное восприятие можно разделить на два этапа: то, что происходит со светом внутри глаза, и обработку зрительной информации, отправляемой по зрительным нервам, внутри мозга. Начальный этап, на первый взгляд, напоминает работу фотокамеры (хотя даже здесь все намного сложнее, чем в фотокамере), а второй не имеет с фото- или видеофиксацией ничего общего.
Принципиальное устройство глаза действительно напоминает фотокамеру: спереди расположена система фотофиксации, а сзади находится чувствительная матрица, на которую попадает изображение. Передняя часть глаза работает на фокусировку и может регулировать поток света, попадающий внутрь, а задняя улавливает и анализирует сфокусированный свет. Фокусное расстояние изменяется с помощью хрусталика: его растягивает специальная цилиарная мышца, меняя радиус кривизны, фокусируясь на предметах вдали или, наоборот, перед самым носом. Радужная оболочка придает глазам цвет и может менять диаметр зрачка, регулируя размер диафрагмы – отверстия, через которое свет попадает в глаз.
В нашей сетчатке примерно 4,5–6 миллионов колбочек и 90-120 миллионов палочек.
Сфокусированное изображение попадает на сетчатку перевернутым: то, что находится справа, проецируется в левую часть сетчатки, а то, что было снизу, – наверх. На сетчатке свет улавливают специальные фоторецепторы – палочки и колбочки. Колбочки имеют коническую форму, они малочисленны12, сосредоточены в центре сетчатки и отвечают за цветное зрение. Колбочки содержат один из трех типов йодопсина – это фоточувствительные пигменты, способные различать синий, красный или зеленый цвета13.
Палочки имеют цилиндрическую форму, их особенно много на периферии сетчатки, и они способны улавливать даже слабый свет благодаря фотопигменту родопсину – он гораздо чувствительнее, чем йодопсин, и способен реагировать даже на единичные фотоны. Палочки обеспечивают нам сумеречное зрение, но при ярком свете не слишком полезны, поскольку родопсин засвечивается даже в темных областях изображения.
Глаза улавливают свет с помощью палочек и колбочек. Всего их около 200–250 миллионов.
Над палочками и колбочками располагается несколько слоев нервных клеток, сквозь которые свет проходит перед тем, как его улавливают фоторецепторы. Возбуждаясь, палочки и колбочки передают сигналы не дальше в сторону мозга, а в обратном направлении – к слою биполярных клеток, лежащих снаружи от фоторецепторов, а те в свою очередь – на ганглионарные клетки, лежащие еще ближе к хрусталику и дальше от мозга. В итоге отростки ганглионарных клеток собираются все вместе и идут прямо через сетчатку по дороге к мозгу. Здесь возникает слепое пятно, где проходят только нервные волокна, и нет никаких светочувствительных клеток. Обычно мы не замечаем, что в глазном дне есть слепые пятна: во-первых, в правом и левом глазах они расположены в разных участках зрительного поля, а во-вторых, мозг умеет достраивать тот кусочек изображения, который, как ему кажется, может быть в слепом пятне.
Строение сетчатки неоднородно: в центре находятся желтое пятно и центральная ямка – область наибольшей четкости и максимальной цветности изображения [2]. В центральной ямке расположены только рецепторы-колбочки, чувствительные к цветовым различиям. Здесь они очень плотно упакованы, и над ними нет слоя нервных клеток и волокон, которые могут искажать световые волны. В центральной ямке передача зрительной информации идет без сжатия – каждая колбочка передает сигнал своей биполярной клетке, а та, в свою очередь, – единственной ганглионарной клетке, которая отправляет сигнал по собственному нервному волокну в составе зрительного нерва.
Отростки центральных ганглионарных клеток составляют 70 % всех волокон в зрительном нерве, то есть огромная область зрительного поля за пределами центральной ямки дает только 30 % информации о том, что мы видим. Так происходит потому, что чем дальше от центральной ямки, тем сильнее сжатие информации – здесь преобладают не колбочки, а палочки, помогающие нам видеть в сумерках, при этом множество палочек передают свои сигналы небольшому числу клеток в следующих слоях. По этой причине мозгу сложно точно определить форму и расположение объектов, которые проецируются на периферию сетчатки – для этого необходимо перевести взгляд в сторону, чтобы изображение попало в центр поля зрения.
Чем же заняты остальные клетки сетчатки, помимо палочек и колбочек (их, между прочим, насчитывается более 50 типов)? Эти клетки обрабатывают и ужимают информацию, облегчая мозгу задачу. У нас в глазах около 200–250 миллионов палочек и колбочек, при этом на 20 палочек приходится всего 1 колбочка, зато она сидит в центре и получает эксклюзивный доступ к остальным клеткам сетчатки. А вот в каждом зрительном нерве миллион аксонов, так что всего глаза покидает 2 миллиона аксонов. То есть уже в самой сетчатке информация ужимается как минимум в сто раз.
Чем больше ученые изучают процессы, происходящие в сетчатке, тем очевиднее, что она не просто воспринимает световую информацию и слегка фильтрует ее перед отправкой в мозг – здесь она проходит предварительную обработку, чтобы отправить мозгу отчет, содержащий результаты анализа изображения на сетчатке [3].
Например, сейчас описано 15 типов ганглионарных нейронов, отправляющих информацию из сетчатки в мозг. 90 % из них составляют мелкоклеточные нейроны – они анализируют мелкие детали того, что мы видим. Еще 5 % – крупноклеточные нейроны, они реагируют на перемещение объектов по сетчатке. Ганглионарные клетки специфичны: каждая из них предпочитает определенное направление движения и мало интересуется стимулами, которые движутся в другие стороны. При этом сетчатка различает, когда изображение двигается целиком, потому что мы перемещаем взгляд, и когда в поле зрения есть отдельные подвижные объекты. Получается, что сетчатка умеет замечать в мешанине сигналов движение объекта против потока. Если же одновременно двигается все изображение, сетчатка на мгновение гасит сигналы и передает изображение с нового положения после того, как оно стабилизировалось. Благодаря этому мы не замечаем, что постоянно совершаем саккады – быстрые движения глазами, позволяющие нам бегло осматривать поле зрения14 [4].
Отдельно глаз умеет выделять приближающиеся объекты – те, что движутся не вправо и влево, а прямо на нас. Для этого тоже есть специальные ганглионарные клетки – они срабатывают, когда в области зрения, за которую они отвечают, появляется пятно и увеличивается в размерах.
Сетчатка умеет подкручивать резкость и контраст на границах между контрастными объектами. Это происходит благодаря латеральному (боковому) торможению. Возбуждаясь, фоторецептор не только отправляет сигнал дальше, но еще и подтормаживает соседей через горизонтальные клетки. Чем активнее клетка, тем сильнее она тормозит соседей. Пока освещенность одинаковая, все тормозят друг друга с одинаковой силой, а вот на контрастной границе получается перекос в силах: в итоге краевые клетки в светлой зоне, примыкающие к тени, передают сигнал чуть ярче, чем клетки, у которых нет темных соседей, а темные, наоборот, дополнительно затемняют сигнал на границе со светлыми. Этот эффект особенно хорошо заметен на контрастной решетке: перекрестье будет выглядеть темнее, чем вертикальные и горизонтальные линии. Так получается, потому что латеральное торможение усиливает контраст у тонких линий, а вот в центре светлого пятна темных соседей нет, перекрест дополнительно не подсвечивается и поэтому выглядит темнее. Боковое торможение сигналов на границе работает не только в пространстве, но и во времени: благодаря этому мы видим относительно четкие силуэты объектов, когда они стремительно проносятся мимо нас.
У наших глаз есть специальный инструмент для того, чтобы вовремя увидеть летящий в нас объект, – ганглионар-ные клетки.
Приведенные изображения демонстрируют особенности работы сетчатки наших глаз. Справа вверху: если зафиксировать взгляд на минуту на четырех точках в центре картинки, а затем перевести на однородный фон, можно увидеть послеобраз – инвертированный «засвет» сетчатки. Сверху справа: простой тест на слепое пятно: если прикрыть один глаз, а взгляд второго зафиксировать на букве (правый на П или левый на Л) и отодвинуться от картинки примерно на три расстояния между П и Л, вторая буква пропадет из поля зрения – ее проекция попадет как раз в область слепого пятна на сетчатке.
Ниже показано, как работает латеральное торможение (слева) и решетка Германа, демонстрирующая эффект латерального торможения: нейроны сетчатки подтормаживают соседей, благодаря этому край между пятнами света и тени выглядит более контрастным. Если у проекции на сетчатке нет контрастных соседей, то участок не подсвечивается: по этой причине узлы решетки кажутся темнее, чем горизонтальные и вертикальные линии.
Еще одна важная функция сетчатки – адаптация к освещенности и контрасту: когда мы долго фиксируемся на контрастных изображениях, они меняют восприимчивость сетчатки. Если после этого перевести взгляд на равномерно освещенную поверхность, можно заметить инвертированный след, в котором на месте темных пятен будут светлые, а на месте светлых – темные. Когда определенная область сетчатки воспринимает один и тот же сигнал долгое время, нейроны «устают»: в их клетках истощаются запасы нейромедиатора, и они хуже проводят сигналы по сравнению с теми областями, которые все это время были неактивны и имеют в запасе свежие пузырьки с нейромедиаторами для передачи сигнала.
Бывают и другие варианты послеобразов, например подвижные: если долго смотреть на водопад, а затем перевести взгляд на неподвижные объекты, может возникнуть иллюзия, что часть изображения медленно поднимается вверх. Таким же образом сетчатка адаптируется к паттернам в изображении: области сетчатки, куда долго проецируются горизонтальные полосы, намного сильнее среагирует на появление вертикальных [3].
Наверное, самая удивительная особенность сетчатки – это ее способность предсказывать будущее. Правда, речь идет о предсказании будущего изображения на интервалах в несколько десятков миллисекунд, но даже с такими оговорками это очень впечатляет! Дело в том, что зрительная информация попадает в мозг с опозданием: для того чтобы сигнал отправился в мозг, сначала должна произойти целая цепочка событий, начиная с возбуждения фоторецептора.
Как назло, наши фоторецепторы – самое слабое звено в вопросах скоростной передачи изображения: от того момента, когда свет попал в колбочку, до того, когда она запускает нервный импульс, проходит несколько десятков миллисекунд15 (далее – мс). Кажется, что это немного, но, например, теннисный мяч при умелой подаче за это время может пролететь один-два метра: чтобы его отбить, теннисисту нужно как можно точнее знать, где он находится, но у него нет ничего, кроме зрения с неизбежными задержками.
Оказалось, что когда изображение мяча перемещается по сетчатке, его проекция запускает волну активности вдоль ганглионарных клеток. Удивительным образом эта волна в точности соответствует положению мяча, если бы его перемещения отображались без задержки на передачу сигнала от колбочек [3]! Получается, что сетчатка способна рассчитывать прогнозируемое положение объекта без задержек на работу фоторецепторов, если этот объект стремительно, но без скачков перемещается в пределах нашей видимости – за счет коллективной активности ганглионарных клеток16.
Бесплатный фрагмент закончился.