Viktor Zhumatiy / Віктор Жуматій ([info]vi_z) wrote,
@ 2006-01-15 20:04:00
Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Current music:Arnold Schoenberg - LITANEI LANGSAM
Entry tags:decision making, planning, reinforcement learning

О соотношении должного и желанного, или почему нет естественного термина для Q-значений
"Разумный гедонизм" требует учета удаленных последствий действий. В естественном языке нет понятия, которое бы соответствовало ожидаемому суммарному последствию действий (как Q-value в RL, с учетом дисконта или без). Желанность используется как руководство на небольшом расстоянии от целей, на большом расстоянии используется планировщик, игнорирующий желанность "дороги". Я обсуждаю, почему, на мой взгляд, в эволюционно-запрограммированном механизме для человека не используются Q-значения и к каким последствиям это приводит.



Гедонистическая этика утверждает непосредственное следование желанному. Однако, непосредственное следование, с точки зрения computer science является жадным алгоритмом, а такие алгоритмы, как известно, не обязательно приводят к максимизации (возможно, дисконтной) суммы счастья по всему времени. Так, например, избыточное употребление алкоголя может сразу дать приятный результат, но возмущенный желудок позднее, причём сумма обоих удовольствий может оказаться меньше, чем воздержание от алкоголя. Таким образом, "разумному гедонисту", которому хотелось бы получить от жизни как можно больше, нужно одновременно учитывать близкие и далекие последствия своих действий, и как-то балансировать распределение ресурсов между ними.

Желанность, по всей видимости, учитывает только непосредственную ценность явлений. Мне не приходилось встречать конструкций вроде "ох, как мне хочется открыть дверь" (в спальню любимой) и т п. Эмоциональное окрашивание (переход приятности с самого явления на способы его достижения и одновременные явления), конечно, происходит, и оно используется в НЛП в якорении, но оно не производится глобально и происходит достаточно бессистемно. Вообще, "окраска" у человека напоминает поведение несошедшегося алгоритма RL.

Возможным техническим решением проблемы балансирования между непосредственными и удаленными эффектами действий было бы введение некоторой производной чувственной величины, которая бы окрашивала все действия, но учитывала бы не только непосредственную желанность, но и опосредованную. Действуя "жадно" согласно этой величине, мы бы автоматически действовали оптимально с точки зрения сорванных плодов желания с учетом удаленных эффектов наших действий. В Reinforcement Learning в AI такую величину называют Q-значениями. (формула с объяснениями).

Используется ли такое техническое решение в человеке? Если используется, то какое модальное слово в естественном языке соответствует Q-значениям, если рассматривать R как модель желания? Если бы такое решение применялось, то наверняка существовало бы некоторое слово, обозначающее желанное, но обозначающее также и неприятные вещи, которые являются средством достижением желанного в будущем. Кандидатами являются слова "нужно", "должно", "необходимо".

На мой взгляд, ни одно слово не отражает такого смысла. Более желанное по умолчанию (при прочих равных удаленных последствиях) не нужно, не необходимо, и не должно делать. Все эти слова означают несколько другое: что желанность/нежеланность в их контексте следует игнорировать.

Обычно считается, что RL хорошо описывает способ действия живых организмов, и в частности человека. Однако, с учетом отсутствия соответствующего термина в естественном языке, это скорее всего не так. Теоретически, в простых условиях Q-значений достаточно для оптимального поведения. На практике, RL не позволяет правильно считать направление движения в достаточной удаленности от цели, при недостаточности данных, или при большом шуме. Создается впечатление, что желания, конечно, образуют Q-значения, но значения, которым не дают достаточно времени и данных сойтись. Поэтому человеку приходится применять планировщики. Человек не использует Q-значений (дискаунтных сумм перспективной выгоды), но вместо этого применяет сочетание целевого планирования и жадного алгоритма.

Отстутствие подобных Q понятий приводит к невозможности униформного по времени поведения для человека. Простая правильная стратегия, работающая в обыденных терминах, будет переключаться с должного на желанное и обратно, в каждый момент времени четко понимая, занимается ли человек самым желанным, или самым должным. [TODO: Процитировать того специалиста, который говорил про "хотя бы час" в день на желанное. Кто помнит?]



(Post a new comment)


[info]gr_s
2006-01-15 12:06 pm UTC (link)
Эмоциональное окрашивание (переход приятности с самого явления на способы его достижения и одновременные явления), конечно, происходит, и оно используется в НЛП в якорении, но оно не производится глобально и происходит достаточно бессистемно. - Да ладно. Вы же знаете, что делается на предприятии каждые две недели в день зарплаты. Или в корпорации, в предрождественскую пору выплаты бонусов. Систематически и глобально, я бы сказал.

(Reply to this)(Thread)


[info]vi_z
2006-01-15 12:20 pm UTC (link)
Да, однако качества эмоционального окрашивания недостаточно для того, чтобы только его использовать для долговременной деятельности. Иначе бы было постепенное нарастание "того, что делается на предприятии" в течение долгого времени перед этим событием. Возможно, человеческий дисконт очень невелик. Скажем, 0.5 или 0.(3).

(Reply to this)(Parent)(Thread)


[info]gr_s
2006-01-15 02:36 pm UTC (link)
Вообще-то, говоря о "способах достижения" я имел в виду зарплату, тогда как то, что вы называете "само явление", представляет из себя самые разнообразные вещи и процессы, на эту зарплату покупаемые.

Поэтому упомянутое вами "нарастание" и еще "в течение долгого времени" для меня осталось непонятным.

И смысл коммента был в том, что это - (упоминаемый перенос) обычное, рутинное и даже, я бы сказал, генеральное свойство человеческой деятельности (ценность средствам придают цели, а не наоборот).

Состоит перенос в том, что люди радуются зарплате и ждут ее, хотя получаемые сегодня деньги ни на что другое, кроме как на выменивание на них нужного, не годятся. В этом смысле деньги представляют собой средство (в использованном вами смысле) почти в идеальном виде ("почти" оставим бонистам и нумизматам).

Таким образом, перенос [положительной] эмоции с цели на средство - и системен, и глобален. Праксеологическая рефлексия на этот счет вполне достаточна, поэтому можно, конечно, упоминать и НЛП, - но можно и не упоминать, зависит от целей :) (я, в отличие от Толи Левенчука, не продаю НЛП, поэтому ценность этого изделия для меня равна нулю).

Собственно, помещение в один ряд фундаментального (перенос) и ситуативного (НЛП) и подвигло взяться за перо. Как если бы кто-то говорил: вот, есть дом, это такой важный компонент цивилизации, там держат спички. Я (в этом условном примере) тут же вскидываюсь: ох, говорю, ну при чем здесь спички, хотя да, держат и спички, но бывает, что и нет, вобщем спички тут дело десятое, можно и электроплитой, можно и спички держать не в доме, а пристроенной кухне.

Ох, не знаю, понятно ли получилось. Все, не буду усугублять путаницу.

(Reply to this)(Parent)(Thread)


[info]vi_z
2006-01-16 12:16 pm UTC (link)
Поэтому упомянутое вами "нарастание" и еще "в течение долгого времени" для меня осталось непонятным.

Да, это я вас не понял, подумав, что вы про радостное возбуждение от дня зарплаты.

И смысл коммента был в том, что это - (упоминаемый перенос) обычное, рутинное и даже, я бы сказал, генеральное свойство человеческой деятельности (ценность средствам придают цели, а не наоборот).

Я о том, что такой перенос нужно осуществлять с очень точно просчитанной приятностью, поскольку если эту приятность использовать как единственное руководство к действию, легко зацикливаться. Ну, допустим, что приятность с зарплаты распространилась на процесс работы, с процесса работы на лестницу, ведущую на рабочее место, с нее к входной двери, с входной двери работы на машину, на которой доблестный сотрудник ездит на работу. В таких сложных условиях машина должна быть заметно менее приятной чем входная дверь на работу, чтобы человек не кайфовал, сидя в машине перед работой в локальном минимуме приятности.

конечно, упоминать и НЛП, - но можно и не упоминать, зависит от целей :) (я, в отличие от Толи Левенчука, не продаю НЛП, поэтому ценность этого изделия для меня равна нулю).

Я упомянул якорение НЛП для тех, кто хорошо знаком с этим понятием, чтобы им было проще понять, о чем я веду речь. Якорением слишком легко манипулировать эмоциями, что делает сомнительным достаточно тонкую настроенность приятности, необходимую для управления. НЛП служило для пояснения мысли и не более.

Спасибо за Ваш комментарий, приятно знать, что Вы меня читаете :)

(Reply to this)(Parent)


[info]ailev
2006-02-18 09:15 pm UTC (link)
Ты прав, в этом контексте якоря НЛП использовать "для иллюстрации" -- не по делу. Хотя в НЛП обсуждается много моделей того, как устроен планировщик, связывающий на уровне автоматического поведения сознания цели и ряд промежуточных средств, и ты тут просто реагируешь на переход с одного логического уровня (обсуждение наличия динамического планировщика против статического определения значения) на другой логический уровень -- обсуждение устройства планировщика. Действительно, якорение (которое не "простановка якоря", а импринт) лежит в основе многих таких автоматических механизмов, которые направляют внешне проявляемое поведение по однотипным рельсам в зависимости от проходимого пути промежуточных целей (типа как "хочется всегда разного, но заканчивается всегда сигаретой и бутылкой водки"). В НЛП обсуждают разные варианты этого явления -- импринт, образы-триггеры (используются в паттерне взмаха) и т.д. "Якорение" -- это общее имя для подобных механизмов сбоя сознательного планирования на бессознательное.

Почему я говорю, что якоря тут не по делу? Потому что в контексте статьи и в том, что ты говоришь, более адекватно использовать упоминание "сдвига мотива на цель" -- механизма формирования новых мотивов, автор А.Н. Леонтьев. Те действия, которые раньше служили для достижения целей, подчиненных какому–то определенному мотиву, приобретают самостоятельное значение и отщепляются от первоначальной мотивации. При этом вспомогательные цели, на которые данные действия были направлены, приобретают статус самостоятельного полноценного мотива. Синоним — функциональная автономия Г. Олпорта. И никакого НЛП :)

P.S. А НЛП я не продаю. Я НЛП использую.

(Reply to this)(Parent)


[info]lzh
2006-01-15 03:13 pm UTC (link)
То есть ты полагаешь, что удовольствие от пьянки и муки похмелья можно как-то естественным образом сравнить? Причём численно, чтобы можно было сказать, сколько часов и какой интенсивности похмелья обнулят суммарное удовольствие от данной бутылки. Или сколько поездок в Ялту эквивалентны "увидеть Париж и умереть".
(Я имею в виду, что по-прежнему отрицаю аддитивность.)

(Reply to this)(Thread)


[info]vi_z
2006-01-16 12:04 pm UTC (link)
Думаю, да. Люди прекрасно принимают решения о том, лучше ли покататься на лыжах, послушать Биитховена, или потрахацца. Более того, я полагаю, что если человеку предложить линейные комбинации делимых событий, или вероятностные неделимых, он по прежнему будет способен принимать решения. А значит, на этих вещах есть порядок -- по крайней мере в момент принятия решения.

(Reply to this)(Parent)(Thread)


[info]lzh
2006-01-16 12:18 pm UTC (link)
Для RL критична стационарность, хоть какая-то. Нет, мы конечно можем усреднить и сказать, что с вероятностью 11% Бетховен, а 24% - лыжи... ;)

(Reply to this)(Parent)(Thread)


[info]vi_z
2006-01-16 12:26 pm UTC (link)
...А 65% -- трахацца?
Мы можем предположить, что дело в частичной видимости состояния, а не в настоящей нестационарности, и что весь контекст, правильно проанализированный (как в моем случае с помнящей метрикой на состояниях) позволяет извлечь порядок предпочтений.

(Reply to this)(Parent)


[info]t_gra
2006-01-16 03:10 am UTC (link)
Я давно размышлял на тему того, какие функционалы люди могут оптимизировать. Можно оптимизировать интеграл счастья по всей жизни, тогда можно позволить себе быть всю жизнь несчастным ради того, чтобы незадолго до смерти получить просветление, которое повышает счастье почти до бесконечности. Но это стрёмно - кирпич на голову упал и до счастья не дожил.
Либо с этим интегралом можно, скажем, жить 1000 лет с очень низким уровнем счастья.

Можно избегать несчастья, т.е. устанавливается некий лимит счастья и минимизируется длительность нахождения ниже этого лимита либо интеграл значения (лимит минус текущее счастье).

Можно максимизировать максимум счастья - т.е. терпеть всё подряд ради одного момента абсолютного счастья.

Можно максимизировать счастье в текущий момент.

У меня где-то так - максимизируется интеграл плюс есть некоторое ограничение на уровень несчастья в некоторый период.

Соглашусь с [info]lzh в сомнениях по поводу аддитивности.
Кстати, есть средства, которые уменьшают дискомфорт от похмелья, так что напиваться становиться выгодным даже с его учётом. Плюс организм тренируется :)

(Reply to this)(Thread)


[info]vi_z
2006-01-16 11:52 am UTC (link)
В RL обычно оптимизируют дисконированную прибыль

sum_{i = 0..\infinity} \gamma^{-i} * R_i

или усредненную прибыль

lim_{n -> \infinity} 1/n * sum_{i = 1..n} R_i
(этот вариант у нас [info]lzh любит очень)

Смысл дисконтирования двойной. Во-первых, бутерброд сегодня важнее бутерброда завтра. Кроме того, наши действия всегда неточны и обладают вероятностью окончиться неудачей. Принцип поведения (полиси) p, обещающая бутерброд завтра, может быть оборвана падением метеорита и т п. Поэтому деньги завтра всегда автоматически "страхуются".

Можно избегать несчастья, т.е. устанавливается некий лимит счастья и минимизируется длительность нахождения ниже этого лимита либо интеграл значения (лимит минус текущее счастье).

Нижний лимит суммируемого счастья (с дисконтом или в среднем), как я понимаю, имеет смысл только для агента, ведущего исследование (он может прекратить исследование, как только достиг достаточно хорошей полиси).

Если же требовать что-то вроде
lim_{n -> \infinity} 1/n * sum_{i = 1..n} R_i > R_min,

где R_i > R_min возвращает 1 или 0 как в Си, то получается вариант, о котором я не слышал. Спасибо ;-)

Если интергал значения, то, по моему, получается классический средний случай, вычитай начальную точку или нет.

Можно максимизировать счастье в текущий момент.

Это чистый жадный алгоритм.

У меня где-то так - максимизируется интеграл плюс есть некоторое ограничение на уровень несчастья в некоторый период.

Любопытно. Для периода k, положительных R_i что-то вроде
lim_{n -> \infinity} 1/n * sum_{i = 1..n} R_i * (sum_{j= n-k..n} > R_min)
Так?

Соглашусь с lzh в сомнениях по поводу аддитивности.
Вы отменой аддитивности всё удовольствие от жизни портите...

(Reply to this)(Parent)(Thread)


[info]t_gra
2006-01-17 01:32 pm UTC (link)
Можно максимизировать счастье в текущий момент.
Это чистый жадный алгоритм.

Ага. :)

У меня где-то так - максимизируется интеграл плюс есть некоторое ограничение на уровень несчастья в некоторый период.
Любопытно. Для периода k, положительных R_i что-то вроде
lim_{n -> \infinity} 1/n * sum_{i = 1..n} R_i * (sum_{j= n-k..n} > R_min)
Так?

Похоже на правду. Интересно ты умножением присоединил это к оптимизируемому функционалу (я рассматривал как ограничение). Похоже, нужно ещё поделить на k.
Плюс, если учесть, что приоритет сохранения уровня несчастья в период в разумных пределах выше (или ниже), то вот это [(sum_{j= n-k..n} > R_min)/k] можно возвести в некоторую задаваемую параметром степень (\sigma) - чтобы управлять штрафами за выход за границы желательной области.
Можно ещё рассмотреть более обобщённую модель: есть набор диапазонов счастья T_j = {r | R < R_min_j && R > R_max_j}, и есть набор коэффициентов \sigma_j, и набор размеров периодов k_j.
Тогда функционал принимает вид:
lim_{n -> \infinity} 1/n * sum_{i = 1..n} R_i * multiplication_{j=1..m [(sum_{j= n-k..n} in T_j)/k_j]^Sigma_j}

Кстати, в этом случае можно и попробовать интеграл отбросить и учитывать только веса органичений.

Соглашусь с lzh в сомнениях по поводу аддитивности.
Вы отменой аддитивности всё удовольствие от жизни портите...

Кстати, не знаю, как роботы, но люди умеют перекодировать свой опыт время от времени (девиз техники НЛП "Изменение личностной истории": никогда не поздно иметь счастливое детство), т.е. пересматривать значения R_i в предыдущих моментах времени.
То есть можно оптимизировать не сумму, но [пере]оценку своего счастья в момент смерти или в какой-то другой точке. Или какую-то их комбинацию.
Очень интересно, как это можно учесть, скажем, при планировании, и рассчитывать ли на прогнозируемый уровень счастья, или на прогнозируемый пересчёт уровня счастья в такой-то момент. Есть ли вообще сие сходящийся процесс?

Другой момент, что человеческим существам свойственна адаптация, то есть человек привыкает к некоторому постоянному уровню счастья и далее это счастье принимается за нейтральное значение. И то, насколько счастливо воспримется то или иное счастье, зависит от уровня счастья в текущее время и - в меньшей степени - от уровня счастья в прошлом. Как это можно учитывать?

(Reply to this)(Parent)


[info]vi_z
2006-01-16 11:59 am UTC (link)
Вообще пост был про то, что в естественном языке нет понятия, поторое бы означало интегрированную прибыль -- будь то дисконтированную, среднюю, или твой "интеграл плюс ограничение". Поэтому я утверждаю, что человек испольует сочетание жадного алгоритма и планировщиком, игнорирующим на пути к цели промежуточные приятности/неприятности ("действовать, стиснув зубы", "я говорю себе НАДО и делаю" и т п.). Причем они сочетаются простым разделением во времени -- в каждый момент мы либо стремимся к цели, либо следуем жадно приятному. вот такая во модель. Она, кстати, хорошо сочетается с тем, что ты сказал -- мы иногда жадно собираем прибыль, чтобы на любом участке времени не было слишком мало прибыли; и при этом мы заботимся о перспективе -- о том, чтобы собрать по-больше, запуская планировщик. Под планировщиком я имею в виду традиционный поиск в ширину по графу возможных будущих, возможно, игнорирующий промежуточные суммы и учитывающий только цель ("все для победы").

(Reply to this)(Parent)


[info]p_govorun
2006-01-16 03:37 am UTC (link)
ИМХО то самое слово -- "целесообразно". Но, действительно, оно странно звучит в применении к конкретному человеку (хотя формально, человек вполне может сказать, например: "Мне целесообразно сейчас выпить 65 грамм водки").

(Reply to this)(Thread)


[info]vi_z
2006-01-16 12:01 pm UTC (link)
Прошу прощения, но я не понял, что Вы хотели сказать. Что человек применяет планировщик но не интегральный показатель?

(Reply to this)(Parent)(Thread)


[info]p_govorun
2006-01-16 12:05 pm UTC (link)
Я вот на это отвечал:
Кандидатами являются слова "нужно", "должно", "необходимо". На мой взгляд, ни одно слово не отражает такого смысла.

По-моему, нужный смысл -- у слова "целесообразно".

(Reply to this)(Parent)(Thread)


[info]vi_z
2006-01-16 12:22 pm UTC (link)
А, теперь понял Вас.

Однако, "целесообразно" -- аргумент как раз в пользу моего вывода -- что человек планирует цель ИЛИ пользуется жадной стратегией. "Целесообразно" не подразумевает интегральной характеристики вроде тех, что я перечислил в ответе [info]t_gra, он не является термином для Q-значений.

Спасибо, я не подумал об этом слове.

(Reply to this)(Parent)

Кто-либо зарабатывает в интернете ?
(Anonymous)
2007-04-06 12:36 pm UTC (link)
Hi всем пользователям форума vi-z.livejournal.com!
Вероятно я не в тему тут, но очень уж интересует вопрос, как можно заработать в интернете?
Испытала кучу различных вариантов, таких как клики, Nocs, регистрации, но жаль, время потрачено впустую.
Вот и хотелось спросить, может кто выручит девушку - даст пару ссылок на толковые проекты. Единственно , плиз, никаких MLM и разного рода пирамид.

(Reply to this)


Create an Account
Forgot your login?
Login w/ OpenID
English • Español • Deutsch • Русский…