livelogic

Штрихи к научной картине мира

Человеку свойственно ошибаться


Previous Entry Share Next Entry
Теория Дефицита Информации (в геноме)
livelogic
Информации, содержащейся в геноме, недостаточно для построения и поддержания организма

- Это твое?
- Мое
- Откуда?
- Оттуда

Из к/ф "Бриллиантовая рука"


Все привыкли в к мысли, что гены являются носителями наследственной информации, но можно ли, исходя из ее объема, построить организм? Дмитрий Андреевич Шабанов излагает вопрос таким образом:


Наш генотип содержит совсем немного информации, помещаясь в незаархивированном виде на CD-диск. Собственно гены составляют его небольшую часть; около 25 тысяч наших генов требуют для записи менее 10 мегабайт (а архиватор ужмёт их намного сильнее). Напомню известную шутку, что файл с детальным описанием формы коленной чашечки (одной из самых простых наших костей) в AutoCad займёт больше места. Информация, необходимая для описания нашего строения, несоизмеримо больше ёмкости нашего генома.

Дмитрий Шабанов, Краткое изложение эпигенетической теории эволюции

Такое состояние дел позволяет выдвинуть интересную фальсифицируемую теорию:


Не существует 3D-принтера с объемом памяти 12 Мб, который мог бы напечатать себя и боевого робота, способного охотится ночью на мышей.


Пройдемся по элементам теории. Откуда берутся 12 Мб? Это информационная емкость всех генов. Википедия сообщает нам такие сведения о геноме человека:


  • Двадцать две пары аутосом, две половые хромосомы Х и Y, а также митохондриальная ДНК человека содержат вместе примерно 3,1 млрд пар оснований (3.1*10^9)

  • Только 1,5 % всего генетического материала кодирует белки или функциональные РНК


Пар оснований четыре - (A, T), (T, A), (G, C), (C, G), для описания четырех состояний нужно два бита, т.е. пара оснований занимает четверть байта, таким образом, объем всего генома, в байтах, равен 3.1*10^9 / 4 = 7.75*10^8 байт или, грубо, 800 Мб.

Гены, т.е. то, что кодирует белки и функциональные РНК, из всего этого занимают 800 Мб * 0.015 = 12 Мб.

Целых 12 Мб! Как раз перед написанием этой статьи скачал на свой телефон программу Radio-FM - она занимает 15 Мб, но это же радиоплеер, а не какая-то сова!

Теперь про робота. Ясно, что человека скопировать невозможно, теория с повторением человека будет ненаучна априори, поэтому предлагается скопировать сову. Что должен уметь робот?

Конечно, уметь летать ночью и добывать мышей.

Далее, источник питания. Если робот будет летать на батареях, принтер должен напечатать батареи и комплекс для их подзарядки. Возможно, "сова" должна будет летать и собирать дрова, на которых будет работать генератор (его тоже нужно напечатать).

3D принтер нужен для завершения комплекса тело - поведение - копирование. Ограниченная память, это конечно, ROM - т.е. принтер должен после включения "загрузиться" из такого объема, объем памяти типа RAM неограничен.

В принципе, можно ослабить гипотезу, и дать для повторения весь геном, т.е. 800Мб. Это уже совсем круто - целых 25% размера ОС современного телефона. Есть где развернуться и исправить "ошибки Дизайна". Но такое ослабление возможно после принятия следующих условий.


  • В генах информация о человеке практически отсутствует

  • Надо перестроить филогенетические деревья с учетом всего генома



[Бонус в виде цитаты для тех, кто нормально относится к Карлу Попперу]
Как учит нас Поппер, Карл Раймунд:

Естественнонаучные теории, и в частности то, что мы называем законами природы, имеют логическую форму строго универсальных высказываний. Поэтому они могут быть выражены в форме отрицаний строго экзистенциальных высказываний или, можно сказать, в форме неэкзистенциальных высказываний (высказываний о несуществовании). Например, закон сохранения энергии можно выразить в форме “Не существует вечного двигателя”, а гипотезу об элементарном электрическом заряде—в форме “Не существует иного электрического заряда, чем заряд, кратный элементарному электрическому заряду”.
Логика и рост научного знания




Формулу объёма генома в байтах я бы переписал:
3,1e+9 / 4 = 7,75e+8

Да, это грамотное замечание, подправлю.

(Deleted comment)
>Объяснение не годное.

?

Это фальсифицируемая теория, а не объяснение.

(Deleted comment)
Я не выдвигаю таких объяснений, речь про теорию в форме неэкзистенциального высказывания, которое можно опровергнуть.

(Deleted comment)
>философия - философией, а доказательства, что генов не хватает для описания человека не годятся.

Я и не собирался доказывать это утверждениe, речь про формулировку фальсифицируемой теории.

Edited at 2016-02-05 12:50 am (UTC)

Я не совсем понял. Там же ещё мусорная часть есть: https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D1%81%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D0%94%D0%9D%D0%9A
Которая может быть совсем не мусорной.

>Там же ещё мусорная часть есть:

Пока она называется "мусорной" теория про "12 Мб" верна. Собственно, это критерий фальсификации.

Ну каг бэ это очевидно, если не ударяться в "программную" метафору генома. Геном - не программа, а, скорее, библиотека функций, к которой организм обращается. "Полная информация" заложена в "организме как целом" - через строение клетки, градиенты концентраций, свойства белков, etc.

>"Полная информация" заложена в "организме как целом" - через строение клетки, градиенты концентраций, свойства белков, etc.

Давайте попробуем развить. Вот есть яйцо совы, где там информация, кроме как в ДНК?

Как далеко ушла наука за каких-то полтора года. И мусорная ДНК теперь далеко не мусорная, и информации в ней куда больше, чем просто количество нуклеотидов. Оказывается, информация содержится не только в последовательности нуклеотидов, а и в трехмерной структуре ДНК. А тут еще метилирование и прочие прелести. Да еще информация в ДНК эффективнейше сжата - за счет трансляции со сдвигом рамки и сплайсинга один ген может кодировать до тысячи белков.
Кстати, нуклеотиды в генах - не двоичный код. Бит может принимать два значения, а нуклеотиды четыре – это называется тетрит, и соответственно вместо байтов здесь тройки нуклеотидов (вместо восьми в байте). Но это касается только транслируемых участков, все остальное - нечто совсем другое.

Возможно, я чего-то не понимаю, но трансляция со сдвигом рамки мне не представляется способом увеличения хранимой информации.

>Кстати, нуклеотиды в генах - не двоичный код.

Это понятно. Но это не мешает их информационную емкость выражать в общепринятых байтах и битах.

Edited at 2017-02-22 04:58 pm (UTC)

Как так? Ведь сдвиг на один нуклеотид позволяет получить абсолютно иную последовательность кодонов. Еще на один - тоже. Получается увеличение количества информации втрое. Разве не так?
Меня этот вопрос волнует с той позиции, что для хранения всей информации об организме, начиная от формы органов, до размещения каждого нейрона в мозге нужна просто фантастическая емкость.
Впрочем, альтернативный сплайсинг дает куда больше.

>Ведь сдвиг на один нуклеотид позволяет получить абсолютно иную последовательность кодонов.

Можно еще задом напред прочитать, тоже другая последовательность будет. Т.е. вот слово "кит", 3 байта, в кодировке windows-1251. Оказывается, в нем еще запаковано "тик", т.е. еще три байта :)

Нет, количество информации надо оценивать до интерпретации, интерпретацией можно один байт вообще превратить в терабайт. Собственно, я как раз "продвигаю" "теорию", что сложность - в интерпретаторе, см. http://livelogic.livejournal.com/1778.html.


Edited at 2017-02-23 10:17 am (UTC)

Гены - не файл Автокада. В них кодируется не описание устройства объекта, а алгоритм построения тела.

Вот, например, куча фракталов: http://getbg.net/search/%D0%A4%D1%80%D0%B0%D0%BA%D1%82%D0%B0%D0%BB/23.html

Всё их бесконечное многообразие генерируется одной формулой, на описание которой вряд ли уйдёт больше 100 байт информации.

Или, например, железная дорога от Москвы до Владивостока — это 20 млн. шпал, около миллиона рельсов. Прикиньте, каков объём описания её как объекта? А вот описание одной рельсы, одной шпалы и алгоритм сборки железной дороги из шпал и рельсов гораздо компактнее. Он уместится в памяти даже неграмотного узбекского гастарбайтера :~)

>Всё их бесконечное многообразие генерируется одной формулой, на описание которой вряд ли уйдёт больше 100 байт информации.

Ну т.е. их сложность, по Колмогорову, невелика. То же относится и к описанию железнодорожного полотна.

Собственно, я совершенно не против, и даже совершенно "за" оптимизации по размеру.

С другой стороны, я теперь склоняюсь к тому, чтобы снять вообще какие-либо ограничения по памяти для 3d-принтера - все равно самого себя печатать, и чем больше память, тем больше печатать.

Т.е. "Не существует 3D-принтера который мог бы напечатать себя и боевого робота, способного охотиться ночью на мышей".

Edited at 2017-05-05 08:29 pm (UTC)

?

Log in

No account? Create an account