-> в АРГЕМОНУ <-
Аргемона: лето 26-27 трим.
сегодня: 8 августа 2020

ЗЕЛЬЕМЕТРИКА

читать
распечатать


Лекция #3 для модуля #1


Модель простой зависимости

В кабинете привычно мерцали объявления, оставленные преподавателем специально для студентов.

Напоминаю что вы можете выключить в кабинете графику или же распечатать лекцию: заклинания для этого висят в правом верхнем углу.
Почти все колдографии в лекции, кстати, можно рассмотреть поближе.

Студенты проходили в кабинет и занимали места, а возле доски их, как всегда, уже поджидала Фиби Холливал.
- Приветствую всех студиозов! Сегодня мы с вами начинаем разговор о моделях зелий. Поговорим о том, какие они бывают, какие схемы существуют для их постройки, и зачем эти модели вообще нужны зельеварам.
Давайте начнём занятие, которое откроет тематику «Модели линейной зависимости».

Для начала мы попробуем построить модель, которая поможет нам определить необходимое количество конкретного ингредиента. То есть, займёмся моделью линейной средней зависимости.
Начнём мы с простой модели ЛСЗ. Её формула выглядит вот так:

RP = a + b*P + ε,

где RP - количество исследуемого ингредиента, измеряется обычно в весовых категориях или штучных - это будет результирующий параметр нашей модели (параметр «количество ингредиента» взят для примера),
a - минимально допустимое количество (МДК) ингредиента в конкретном зелье, - это коэффициент нашей модели (параметр «количество ингредиента» взят для примера),
P - масса зелья, - это параметр нашей модели (параметр «масса зелья» взят для примера),
b - коэффициент зависимости,- это коэффициент нашей модели,
ε - ошибка измерения, вычисления и т.п. (она же погрешность).

Таким образом, мы пытаемся исследовать следующую зависимость:
«зависит ли количество ингредиента от планируемой массы зелья и каким образом? и зависит ли вообще?»

Модель, формулу которой мы написали, называется линейно зависимой по двум причинам.

  • Во-первых, про линейность: мы говорим о линейности модели тогда и только тогда, когда её линия тренда является линейной (см. Методичку #4 о линейности).
  • Во-вторых, про зависимость: как вы видите, результирующий параметр зависит от остальных, представленных в модели (см. Методичку #4 о зависимости).

Кстати, мы ещё использовали в названии нашей модели слово «средней», объяснение этому таково: в расчётах будут представлены простые средние величины: это когда всё складываем и делим на общее количество этого всего (если кратко).

Теперь поговорим более подробно о каждом коэффициенте и каждом параметре нашей модели.

МДК ингредиента в конкретном зелье может быть равно или выше 0.
Если же зелье можно изготовить без данного ингредиента (коэффициент равен нулю), то зельевар должен сразу задаться вопросом: а нужны ли дальнейшие исследования вообще? Или всё же нужны, так как сей ингредиент легко доступен, дешёвый и может послужить заменителем какому-либо другому, например, дорогому аналогу?
Решив этот вопрос лично для себя, зельевар идёт дальше: он ищет ошибки в построении модели. Возможно, что-то было не учтено, или стало лишним в этой модели, или не такой коэффициент зависимости был взят. А может быть, модель и вовсе не линейная.

Масса зелья: здесь всё понятно - количественно измеряется в граммах, килограммах и т.п.
Хотя есть варианты и с другими измерениями, но пока остановимся на количественных.

b - вот та величина, которая интересует зельевара, наравне с МДК, вот она. Этот коэффициент зависимости отражает характер зависимости результирующего параметра RP от влияющего параметра P.
Существует несколько методов для вычисления данного коэффициента.

Первый их них - это собственно решение полученного уравнения, с использованием метода наименьших квадратов (МНК). Суть данного метода заключается в следующем. Мы имеем в наличии несколько замеров, полученных экспериментальным путём: брали разное количество ингредиента и смотрели полученную с этим количеством массу зелья, то есть провели несколько экспериментов.
Перед вами вот такая таблица, составленная по итогам проведённого эксперимента:

nn масса зелья (P) количество ингредиента (RP)
110020
220025
330040
450044

Визуализируем сие на Графике 1: график 1

Мы видим построенную автоматически линейную линию тренда (линию, отражающую тенденцию) для данных замеров.
Эта линия тренда как раз и отражает нашу простую модель ЛСЗ.
Зельеварам, у которых нет под рукой специальных программ, следует научиться рассчитывать коэффициенты модели самостоятельно. Ведь не всегда вы находитесь в лаборатории, укомплектованной по последнему достижению. Итак.

На Графике 1 чёрные точки - экспериментальные замеры. Им соответствуют одни и те же ключевые (без которых не обойтись) параметры изготовления зелья. Например, выбрали в качестве такого параметра эффективность зелья.
То есть мы изготовили одно и то же зелье несколько раз с разными показателями массы зелья и количества ингредиента, затем выбрали те эксперименты, где эффективность зелья (к примеру) составляет 100%. Таких экспериментов получилось 4 штуки (к примеру).
Зелёные точки - точки соответствия на линии тренда. Они расположены так, чтобы сумма расстояний между зелёными точками и ближайшими к ним чёрными - минимальна.

Обозначим по вертикальной оси вычисляемое количество ингредиента:

  • экспериментальное - RPэ,
  • модельное (рассчитанное по модели) - RPм (оно же трендовое, так как все расчёты идут на основе линии тренда).

Суть МНК заключается в том, чтобы найти наименьшие отклонения от линии тренда. Другими словами, мы пытаемся минимизировать следующее выражение: ∑(RPэ - RPм)2. Математическая запись такой минимизации выглядит так:

∑(RPэ - RPм)2 → 0

Отсюда и название используемого метода: берутся квадраты разности между экспериментальным значением и значением по расчётам по нашей модели.

Кстати, оговорим, что мы будем использовать знак суммы ∑ сокращённо, без написания индексов i=1 под знаком и i=n над знаком. Эти индексы обычно обозначают с какого по какой по счёту параметр ведётся расчёт суммы.

Если помните, на предыдущей лекции мы говорили об аппроксимации - приближении, грубо говоря, к идеалу.
Так вот МНК - и есть один из вариантов нахождения наилучшей аппроксимации. Другими словами, нахождение такой линии тренда, которая наиболее приближена ко всем точкам наших экспериментов одновременно.
Не вдаваясь в математические подробности (минимизацию функционала и нахождение экстремумов - для увлекающихся), запишем итоговые формулы для расчёта коэффициентов a и b из нашей модели:

a * n + b * ∑P = ∑RPэ [1]
a * ∑P + b * ∑P2 = ∑(RPэ * P) [2]

где n - количество замеров, экспериментов.

Рассчитаем для нашей модели:
n = 4
∑P = 100 + 200 + 300 + 500 = 1100
∑RPэ = 20 + 25 + 40 + 44 = 129
∑P2 = 100*100 + 200*200 + 300*300 + 500*500 = 10000 + 40000 + 90000 + 250000 = 390000
∑(RPэ * P) = 20*100 + 25*200 + 40*300 + 44*500 = 2000 + 5000 + 12000 + 22000 = 41000

Теперь подставим в формулы [1] и [2]:
     a * 4 + b * 1100 = 129 (1)
     a * 1100 + b * 390000 = 41000 (2)
Вычисляем:

  • выразим a через b в выражении (1):
         a * 4 = 129 - b * 1100
         a = (129 - b * 1100) / 4
  • подставляем a, выраженное через b, в выражение (2):
         ((129 - b * 1100) / 4) * 1100 + b * 390000 = 41000
  • раскрываем скобки: 129*1100/4 - b * 1100*1100/4 + b * 390000 = 41000
    переносим: - b * 1100*1100/4 + b * 390000 = 41000 - 129*1100/4
    решаем: - b * 87500 = - 5525
    убираем минус с двух сторон равенства: b * 87500 = 5525

Отсюда,
b ≈ 0.063
a ≈ 14.89
И наша модель приобретает вид: RP = 14.89 + 0.063*P [3]
и называется сие уравнение уравнением регрессии.
Она же - линия тренда - в рамках этой лекции.

Название этой зависимости объясняется просто.
Слово «регрессия» обозначает взгляд в прошлое. Мы строим наше уравнение, основываясь на данных, уже полученных, - они уже в прошлом.
Однако, несмотря на кажущуюся направленность «назад», уравнение регрессии позволяет также делать прогнозы. Таким образом, мы можем обращаться к будущему - тому самому, что нас так интересует, например, при создании нового зелья.

Теперь, имея формулу линии тренда (оно же уравнение регрессии), мы можем рассчитать, какое количество ингредиента нам придётся взять, если захотим сварить зелья с массой в 1 кг, или 200 кг, или 1000 кг! Для этого мы просто подставим нужную массу в формулу [3].

Возвращаемся к нашей модели. Ведь там есть ещё кое-что.
ε - погрешность, ошибка. Как мы уже отмечали, может существовать в наших измерениях некоторая погрешность, вызванная случайными отклонениями.
Однако нельзя упускать из виду, что модель - это упрощение действительности, желаемый идеал, которого не существует в природе. Именно поэтому здесь тоже отмечается погрешность измерений.
Мы, используя МНК, нашли лучшую линию тренда - максимально приближенную к нашим экспериментальным точкам на графике, а это значит, что погрешность наша должна минимизироваться! Значит, ε->0 (стремится к нулю), что позволяет нам убрать ε из уравнения регрессии совсем.

Кроме того, надо понимать, что вряд ли количество ингредиента зависит исключительно или в большей степени от массы зелья.
Здесь, скорее всего, важную роль играют и другие параметры. Это значит, в данном случае в нашей модели величина ε будет неоправданно большой. Следовательно, модель не выдержит проверку на значимость (достоверность, релевантность, адекватность).
Кроме того, как мы рассчитали, коэффициент b стремится не к 1, а к 0, что означает, что зависимость параметров модели не так уж и хороша. Это также косвенно доказывает наши предварительные выводы. Что же делать? Оценивать нашу модель!
Что мы и проделаем на следующем занятии.

Фиби улыбнулась студентам и завершила занятие:
- На сегодня вас отпускаю.


Контрольные задания:

1. Насколько хорош МНК для заявленной цели? Попробуйте оценить, используя уже полученные знания и свой опыт. Оценка должна быть по существу, а не с математической точки зрения.

2. Куда девается ε из расчётной модели, когда мы получаем уравнение регрессии?

3. Составьте свою простую модель ЛСЗ для представленных замеров. Постройте линейную линию тренда (уравнение регрессии), используя МНК. Сделайте предварительные выводы по полученной модели.
Исходные данные:
nn масса ингредиента температура зелья
1 10 20
2 20 30
3 40 50
4 70 60



* Контрольное задание для тех, кто ранее уже выполнял предыдущее задание:

1*. Расскажите, как Вы понимаете параметр «a» в простой модели ЛСЗ? Зачем он вообще там нужен? Как понять, что именно подходит на его роль? Какую нагрузку этот параметр вообще несёт в модели, на Ваш взгляд? Почему нельзя обойтись без него? Или можно? Порассуждайте.

2*. Насколько верным Вы считаете использовать регрессию для прогнозирования? А насколько допустимым? Пределы? Ошибки?

3*. Составьте свою простую модель ЛСЗ для представленных замеров. Постройте линейную линию тренда (уравнение регрессии), используя МНК. Сделайте предварительные выводы по полученной модели.
Исходные данные:
nn длина ингредиента, мм эффективность зелья, %
1 7 30
2 10 85
3 15 90
4 18 80


Внимание: вариативное выполнение Контрольного задания:

Если, прочитав материалы занятия, Вы всё ещё не знаете, как подступиться к выполнению заданий, то Вам предлагается вариация выполнения работы, а именно - online-занятие.
Приходите в КЦ, пишите, что хотели бы посетить online-вариацию по 3-й лекции.
Мы с Вами договариваемся о дате и времени занятия.
Все online-вариации проходят в индивидуальном режиме (голосовые - возможно; по необходимости - с видео).
Цель этих занятий - разъяснение всего непонятного, совместное логическое разложение проблем "по полочкам" и поиск путей их решения.



Не забудьте записать информацию по Курсовой.

Напоминаю, что максимальная оценка за выполнение Контрольного Задания = 15 баллов.
Надеюсь, что про обоснованность и логичность ответов вам напоминать в каждом задании не надо.
Отправить выполненное контрольное задание вы можете через свой ЛК.

Контрольная работа по данному материалу принимается до конца триместра.



Если вы ещё не являетесь студентом Магистериума мира магии и волшебства Аргемона, то можно заполнить вот эту анкету. Поступив, Вы сможете ответить на все увлекательные вопросы этой лекции, посетить другие интересные предметы программы обучения из Расписания занятий, окунуться с головой в волшебный мир и раскрыть свои магические таланты.