-> в АРГЕМОНУ <-
Аргемона: лето 26-27 трим.
сегодня: 8 августа 2020

ЗЕЛЬЕМЕТРИКА

читать
распечатать


Лекция #4 для модуля #1


Оценка модели простой зависимости

В кабинете привычно мерцали объявления, оставленные преподавателем специально для студентов.

Напоминаю что вы можете выключить в кабинете графику или же распечатать лекцию: заклинания для этого висят в правом верхнем углу.
Почти все колдографии в лекции, кстати, можно рассмотреть поближе.

Студенты проходили в кабинет, занимали места, а возле доски их, как всегда, уже поджидала Фиби Холливал.
- Приветствую всех студиозов. Сегодня мы продолжим разговор о модели линейной зависимости: попробуем оценить саму модель и ее эффективность.

Возьмём модель ЛСЗ с прошлого занятия:

RP = a + b * P + ε

В этой модели RP (результирующий параметр) - количество ингредиента, P (влияющий параметр) - масса зелья.

Также из прошлой лекции берём уравнение регрессии (она же линия тренда), соответствующее той модели:

RP = 14.89 + 0.063 * P

Вспомним данные, которые мы взяли для проведения экспериментов по изготовлению зелья с эффективностью 100%, а также на основе которых мы вывели уравнение регрессии:

nn масса зелья (P) количество ингредиента в эксперименте (RPэ) количество ингредиента теоретическое, рассчитанное по уравнению регрессии (RPм)
11002021.20
22002527.51
33004033.83
45004446.46

Показатели RPм мы получаем, просто подставив значения P для каждого эксперимента в наше уравнение регрессии.
Например, для первого эксперимента (nn=1):
RPм1 = 14.89 + 0.063 * P1 = 14.89 + 0.063 * 100 = 21.20

Как мы помним, линия тренда у нас линейная, полученная с помощью МНК.
Но зельевар должен задуматься - а действительно ли эта линия является близкой к идеальной - той, к которой максимально приближены точки наших экспериментов? Действительно ли разница между всеми экспериментальными RPэ и теоретическими RPм стремится к нулю? Это первый вопрос, который задаст себе зельевар, получив уравнение регрессии.
Для этого в Зельеметрике используется оценка эффективности модели: насколько хорошо модель работает и выполняет свою цель, которая заключается в максимально точном прогнозировании.

Но помимо оценки эффективности, есть еще и оценка значимости модели: насколько модель имеет смысл, право на существование, насколько она адекватна, релевантна.
Модель является не значимой - значит, она совсем не подходит для нашего эксперимента, нашего зелья. И надо её менять и, возможно, даже менять форму линии тренда - а вдруг зависимость выглядит как нелинейная на самом деле?

В Зельеметрике есть два постулата.

Модель может быть значима, но не эффективна.
Если модель не значима, то она не может быть эффективной.

Чтобы разобраться в этих двух утверждениях, начнём с обсуждения оценки значимости.
Для оценки значимости простой модели ЛСЗ используются несколько методов. Будем рассматривать их по порядку.

Во-первых, мы должны оценить значимость коэффициентов модели - «a» и «b».
Ранее мы вычисляли эти коэффициенты, выстраивая наилучшую, на наш взгляд, линию тренда.
Для оценки значимости коэффициентов мы должны будем использовать несколько формул и расчётные таблицы.
Чтобы не загружать занятие математическими расчётами, мы поступим следующим образом. В Библиотеке кабинета лежит Методичка #6, в которой представлена схема всех расчётов, необходимых для оценки значимости как коэффициентов, так и модели в целом. Эта схема дана для того, чтобы разобраться, что и откуда берётся. Хотите - изучайте внимательно, хотите - только пробегитесь по алгоритму.
На занятии мы будем пользоваться уже готовыми вычислениями из этой методички. Указатели на конкретные строки методички будут по ходу всей лекции.

Для начала нам нужно отклонение, оно же - средняя дисперсия коэффициентов модели.
Термин «дисперсия» вообще означает разброс; в нашем случае - разброс точек эксперимента относительно линии тренда. И мы оцениваем, насколько велик этот разброс.

Введём величину - расчётную дисперсию, которая также называется остаточная дисперсия и рассказывает нам о том, насколько модель не объясняет наш RPэ.
Из методички d2 = 25.943
Чтобы сделать выводы о значении этой величины, нам надо ещё кое-что посчитать.


Для оценки значимости коэффициентов модели будем использовать такую величину как дисперсия коэффициента:
da - дисперсия коэффициента a - эта величина покажет нам, насколько верно мы определили этот коэффициент и имеет ли право он на существование в нашей модели;
db - дисперсия коэффициента b - эта величина покажет нам, насколько верно мы определили этот коэффициент и имеет ли право он на существование в нашей модели.

Из методички вытаскиваем:
дисперсия коэффициента a da = 5.377
дисперсия коэффициента b db = 0.017

Эти расcчитанные величины помогут нам оценить значимость коэффициентов нашей модели с помощью используемого в Зельеметрике t-критерия, который рассчитывается дя каждого коэффициента отдельно.
Согласно методичке, имеем:
ta = 2.769
tb = 3.667

Кто хочется углубления, тот может самостоятельно почитать про t-критерий подробно. Правда, я планирую добавить в Библиотеку кабинета ещё методички - по всем таким вот углублениям.


Теперь небольшое отступление от изучения t-критерия - о том, что очень важно в Зельеметрике при любых оценках.
Помните нашу ε? Конечно, мы стремимся к тому, чтобы ε=0. Однако это не реально, разумеется. Поэтому при любых оценках мы должны для себя установить уровень допустимой погрешности. При этом, это именно наше допущение, допущение со стороны зельевара. Если зельевар полагает, что погрешность (ошибка) в 5% - допустима для этого зелья, то пусть так и будет. Отсюда, оценочная погрешность (УДП - далее) составит 5%.
Также существует термин коэффцициент правдивости оценки (КПО - далее):
КПО = 1 - УДП/100%
Установим, что для нашей модели КПО = 0.95

Ещё немного о терминах.
При оценке чего-либо в модели используется понятие степени свободы.
Степень свободы показывает минимальное количество независимых параметров, которые необходимы для того, что наша модель работала.
Согласно методичке, nf = 2


А теперь вернёмся к t-критерию и заглянем в волшебную таблицу. Эта таблица представляет теоретически рассчитанные величины, которые существуют для сравнения с ними.

Увидим, что величина теоретического t-критерия при КПО = 0.95 и двух степенях свободы составляет 4.3020
Простое сравнение дает нам понять, что ta<t и tb<t. А раз так, раз они меньше, то снова делаем вывод о незначимости наших коэффициентов.
Однако, если мы допустим, что погрешность наших расчетов 20%, то из таблицы t=1.8850. А значит, коэффициенты a и b уже становится значимыми!
Но стоит вернуться к здравому смыслу и понять, что ошибка в 20% в Зельеварении всё же недопустима. Поэтому на данном этапе считаем нашу модель нерелевантной = недостоверной = незначимой.
Но мы в курсе Зельеметрики, поэтому не опускаем руки и идём дальше.


И переходим к оценке значимости модели в целом.

Сначала рассчитываем коэффициент детерминации, который показывает тесноту связи модели с исходными данными, то есть насколько наша модель (уравнение регрессии) вообще отвечает экспериментальным данным, насколько она хорошо их объясняет.
«Детерминация», по сути своей, означает взаимовлияния параметров модели друг на друга.
Согласно методичке kd2 = 0.87

Для уточнения взаимозависимости параметров моделей в Зельеметрике используется такая величина как коэффициент корреляции, который так и переводится - коэффициент взаимозависимости.
Согласно методичке kr = 0.93

Чем ближе коэффициенты kd2 и kr к единице (а они находятся между 0 и 1), тем выше взаимозависимость параметров модели, а значит, мы своей моделью отлично уловили суть этой взаимосвязи.

В итоге наших подсчётов мы получили, что количество ингредиента в конкретном данном зелье на 87% определяется массой зелья! Кроме того, очень высокий коэффициент корреляции (kr → к 1) тоже это подчеркивает!

Как же так? Коэффициенты модели незначимы, но зависимость высокая? Да всё просто.
Зависимость определена экзогенно (внешне), от нас она не зависит. Она есть! И это подтверждает наша модель.
Но сама модель, её параметры - чисто наше изобретение, и мы его построили неверно. А вот суть своей модели мы определили очень точно. В этом мы были правы. Можно идти дальше.


Теперь мы вспомним о том, что масса зелья у нас измеряется в граммах и т.п. Количество ингредиента вполне может быть в штуках. В этом случае мы не сможем вот так, напрямую по модели объяснять зависимость.
Здесь на помощь нам придет коэффициент эластичности - тот, который покажет процентное отношение взаимозависимости параметров.
Согласно методичке ke = 0.54
Это означает следующее: при изменении массы зелья на 1% (влияющий параметр, P) количество ингредиента (результирующий параметр, RP) должно увеличиться на 0.54%. Прелестно, не правда ли?

Значимость модели в Зельеметрике оценивается также с помощью F-критерия
Согласно методичке F = 13.45
Кто хочет углубления, тот может самостоятельно почитать про F-критерий подробно. Но напоминаю, я планирую добавить в Библиотеку кабинета ещё методички - по всем таким вот углублениям.

Заглянем во вторую волшебную таблицу, которая отражает теоретические, рассчётные значения этого критерия.
В этой таблице f - количество влияющих параметров P (в нашей модели один), nf - всё же те же степени свободы для модели (у нас две).
Надо сказать, что таких таблиц существует несколько - для разных оценочных погрешностей «УДП» Эта таблица составлена для УДП = 5%.

Находим на пересечении f=1 и nf=2 теоретическое Ft = 18.51
И в итоге F = 13.45 < Ft = 18.51
Таким образом, делаем вывод, что наша модель незначима, она неадекватно отражает исходные данные.
Отчаиваться пора? Отнюдь! Ведь помним, что мы уловили зависимость количества ингредиента в данном зелье от массы зелья? Помним. Значит, пора продолжать наши исследования!


А продолжить наши изыски мы можем с помощью построения нелинейных линий тренда.
Дело в том, что при таких выводах (коэффициенты зависимости высокие, а модель незначима) - скорее всего, мы ошиблись с выбором линии тренда и, соответственно, уравнение регрессии было построено неправильно.
Освежить знания по зависимостям и их графикам можно в Методичке #4.

Взгляните, как могут выглядеть различные линии тренда для нашей модели:
логарифмическая:   логарифм-тренд
Степенная:   степень-тренд
Экспоненциальная:   экспонента-тренд

Вариантов - много, да. Расчёты покажут, какой из вариантов будет отражать значимую и релевантную модель - когда получим такие оценки значимости, которые нас устроят.
Однако, и это не всё!

Ведь мы помним, что у нас наша погрешность ε также может отражать то, что мы учли не все параметры, влияющие на количество ингредиента в данном зелье. А значит, пришло время поговорить о сложной модели ЛСЗ:

RP = a + b1*P1 + b2*P2 + .. + bi*Pi + .. + bp*Pp + ε

- Однако сделаем мы это через занятие, - Фиби улыбнулась студентам. - А на сегодня вас отпускаю, до следующей встречи.

Только запишите сводную таблицу критериев оценки модели и её коэффициентов:

критерийназваниезначения и их интерпретация
d2расчётная (остаточная) дисперсия
daдисперсия коэффициента a
dbдисперсия коэффициента b
tat-критерийta>tt - коэффициент a значим
tbt-критерийtb>tt - коэффициент b значим
kd2 коэффициент детерминации
  • от 0 до 1
  • чем ближе к 1, тем выше значимость модели
krкоэффициент корреляции
  • от 0 до 1
  • чем ближе к 1, тем выше значимость модели
keкоэффициент эластичности
FF-критерийF > Ft - модель значима


Контрольные задания:

1. Что в оценке модели ЛСЗ (модели простой зависимости) вызывает у Вас наибольшие трудности? Почему? Каким Вам видится решение возникающих проблем?

2. Возьмите данные из предыдущего контрольного задания (модель). Вы уже составляли по ним уравнение регрессии.
Проведите оценку одного (!) из коэффициентов модели, а также - по любому одному(!) методу - оценку значимости модели.

3. Сделайте выводы. И поразмышляйте, а как же во всем этом мы должны ещё учитывать и символику чисел? Ведь на Зельеварении мы подбирали ингредиенты согласно некоторым постулатам, например, Нумерологии. Как с этим быть?


* Контрольное задание для тех, кто ранее уже выполнял предыдущее задание:

1*. На занятии мы говорили о том, что ошибка в 5% является допустимой для нас, тогда как в 20% - нет. Вернитесь к модели, которая была в контрольном задании, и конкретизируйте утверждения по ошибкам. Сделайте свои предположения о конкретных аспектах рассматриваемой ошибки.

2*. Аналогично заданию «2)», только модель берём из задания со звездочкой.

3*. Сделайте выводы. И заново поразмышляйте о том, что наиболее сложным для Вас видится в оценках ПМЛСЗ?
Внимание: вариативное выполнение Контрольного задания:

Если, прочитав материалы занятия, Вы всё ещё не знаете, как подступиться к выполнению заданий, то Вам предлагается вариация выполнения работы, а именно - online-занятие.
Приходите в КЦ, пишите, что хотели бы посетить online-вариацию по 4-й лекции.
Мы с Вами договариваемся о дате и времени занятия.
Все online-вариации проходят в индивидуальном режиме (голосовые - возможно; по необходимости - с видео).
Цель этих занятий - разъяснение всего непонятного, совместное логическое разложение проблем "по полочкам" и поиск путей их решения.



Не забудьте записать информацию по Курсовой.

Напоминаю, что максимальная оценка за выполнение Контрольного Задания = 15 баллов.
Надеюсь, что про обоснованность и логичность ответов вам напоминать в каждом задании не надо.
Отправить выполненное контрольное задание вы можете через свой ЛК.

Контрольная работа по данному материалу принимается до конца триместра.



Если вы ещё не являетесь студентом Магистериума мира магии и волшебства Аргемона, то можно заполнить вот эту анкету. Поступив, Вы сможете ответить на все увлекательные вопросы этой лекции, посетить другие интересные предметы программы обучения из Расписания занятий, окунуться с головой в волшебный мир и раскрыть свои магические таланты.