Лекция #5 для модуля #1

Сложная линейная модель

В кабинете привычно мерцали объявления, оставленные преподавателем специально для студентов.

Напоминаю что вы можете выключить в кабинете графику или же распечатать лекцию: заклинания для этого висят в правом верхнем углу.
Почти все колдографии в лекции, кстати, можно рассмотреть поближе.

Фиби Холливал внимательно посмотрела на студентов и улыбнулась:
- Здравствуйте, рада вас видеть вновь! Давайте начнём занятие.

Итак.. модели линейной средней зависимости, сложная модель (она же многофакторная регрессия). Вот её общий вид:

RP = a + b₁ * P₁ + .. + b_i * P_i + .. + b_f * P_f + ε

RP - результирующий параметр модели (например, количество ингредиента как на прошлых занятиях),
P₁..P_i..P_f - параметры, от которых зависит наш результирующий параметр, - влияющие параметры (например, один из них - масса зелья с прошлого занятия),
a, b₁, b_i, b_f - коэффициенты модели,
f - соответственно, количество влияющих параметров.

Чтобы представить такую модель, необходимо иметь в визуализации систему координат с осями в количестве (f+1), что сложно даже магам, если f больше трёх.

Для наглядности можно остановиться на трёхмерной системе координат, 3D-пространстве, например.. вашей комнате в Аргемоне.
Пол будет представлять плоскость влияющих параметров в количестве двух, стена - RP. И вот в пространстве комнаты вы можете начертить прямую линию - это и будет двухфакторная регрессия, она же сложная модель линейной зависимости для двух параметров (она же СМЛСЗ, она же СМЛЗ).
Встаньте в углу комнаты, вытяните палочку вперёд и наметьте взглядом конкретную точку на палочке. От этой точки опустите перпендикуляр на край пола слева от Вас, второй перпендикуляр - на край пола справа от Вас и третий перпендикуляр - на стену справа от Вас.
Две точки внизу - это будут значения влияющих параметров P₁ и P₂, точка на стене - значение RP. А Ваша палочка - представляет собой линию тренда. Вот как-то так.

Когда же возникает такая необходимость - в сложных моделях? В Зельеметрике она обусловлена следующими причинами.

Во-первых, зелье - это целая система, включающая в себя процессы различного рода в ходе изготовления.
Отсюда, мы обязаны учитывать множественность параметров, которые в совокупности влияют на результирующий.
Безусловно, простые модели тоже хороши, но только тогда, когда влияние других факторов пренебрежительно мало или же когда так поступать позволяет эксперимент. Например, мы исследуем два зелья или два процесса изготовления, и отличаются они только одним параметром.

Во-вторых, зелье - это открытая система. И процесс изготовления - тоже.
А это значит, что мы обязаны учитывать различное множество (совокупность) факторов, которые влияют на наше зелье и, соответственно, на параметры нашей модели.
Более того, благодаря анализу факторов мы можем построить наилучшую модель.
Ведь на основе исследования сможем отбросить те параметры, которые её "портят".
Например, из двух взаимозависимых параметров надо выбрать тот, который сильнее влияет на результирующий параметр. Также мы можем понять, что, например, влияние какого-то фактора настолько велико, что наша погрешность ε является весьма существенной. Тогда нам пора менять форму модели: уходить от линейной зависимости.
А может оказаться и так, что мы ничего не сможем сделать. Мы сможем лишь записать результаты эксперимента и оставить модель в покое, ибо влияние фактора является случайным и никаким закономерностям не поддаётся. И такое бывает тоже.

Ну и наконец, зелье - это динамическая система.
Параметры нашей модели не остаются неизменными в ходе изготовления зелья: это изменчивый процесс, динамический. Отсюда, нам следует учитывать, что наши замеры всегда будут подчинены временнЫм рядам, временнЫм зависимостям. Но об этом мы поговорим, скорее всего, в рамках следующего модуля.

Таким образом, в рамках Зельеметрики мы не занимаемся МСА ради получения каких-то исключительно математических или статистических результатов.
Зельеваров интересует именно ФМСА, о котором шла речь на первом занятии и который мы ещё можем обозначить термином «системный анализ». Его основа - построение моделей на основе эмпирических (полученных опытным путём, в результате экспериментов) данных в целях принятия решений об изменениях в методике изготовления зелья.

Вернёмся к нашей сложной модели.
Как и в случае с простой моделью ЛСЗ, всё начинается с отбора параметров и выбора вида зависимости.

Параметры должны быть не взаимозависимыми, а также измеримы количественно.
Если последнее условие не выполняется, тогда мы делаем хитрую вещь: придаём определённому качественному описанию некоторое количество баллов.
Например, параметр «настроение зельевара» оценим на 100 баллов как «счастливое», на 50 баллов как «неопределённое», на 1 балл как «плохое». Утрировано, конечно, но суть ясна, я думаю.
Другой вариант работы с качественными переменными: «положительное настроение» - приравниваем к 1, «отрицательное» - к 0.
Выбор способа - дело самого зельевара, тут за него никто решить не сможет, что лучше для его модели.

Про независимость параметров мы уже говорили, но надо отметить ещё вот что.
Возможно, существует какой-то фактор или параметр, который сильно влияет на сразу два и более параметра, выбранных нами. В таком случае зависимость двух последних будет неявной, скрытой. Тогда мы вспоминаем, что мы занимаемся системным анализом, и ищем тот самый, супер-влияющий параметр или фактор.

Но как же распознать взаимозависимость параметров нашей модели, чтобы избежать мультиколлинеарности?
Мультиколлинеарность - это множественная взаимозависимость, когда параметры влияют друг на друга косвенно, через какой-либо ещё параметр.
Например, RP = a₁ + b₁*P₁ + b₂*P₂.
При этом P₂ = a₂ + a₃*P₁ или P₂ = a₂ / P₁. А мы об этом не знаем.

Чтобы "углядеть" мультиколлинеарность параметров, существут, во-первых, визуальные признаки:

при добавлении одного-двух параметров в модель или малом изменении исходных данных - существенно меняются оценки коэффициентов модели;
оценки параметров - незначимы, с большими ошибками, в то время как сама модель оценена как значимая;
оценки коэффициентов модели - неоправданно больших значений или с точки зрения теории Зельеварения нереальны.

Кроме того, на данном этапе изучения Зельеметрики я предлагаю вам воспользоваться исследованием интеркорреляции, которая устанавливает силу связи между параметрами.
Для обнаружения интеркорреляции используются парные коэффициенты корреляции - они показывают тесноту связи параметров между собой.
Для их расчёта, как и других критериев оценки, в Библиотеке кабинета лежит Методичка #7, в которой представлена схема расчётов. Она дана для того, чтобы разобраться, что и откуда берётся. Опять же: хотите - изучайте внимательно, хотите - только пробегитесь по алгоритму.
На занятии мы будем пользоваться уже готовыми вычислениями из этой методички. Указатели на конкретные строки методички будут по ходу всей лекции.

Итак. Парные коэффициенты корреляции pkk, как установлено в Зельметрике, должны быть не выше 0.7.
Как только pkk двух параметров показал величину выше 0.7 - зельевар должен обратить на это пристальное внимание и либо убрать один из параметров из модели, либо что-то сделать ещё.

Для особо увлекающихся Зельеметрикой скажу, что существуют ещё и коэффициенты чистой корреляции. Они нужны как раз для исключения влияния всего остального и исследования взаимозависимости исключительно двух параметров между собой.

Кстати, выбор тех параметров, которые (при наличии достаточно высокой связи с результирующим параметром RP) имеют наименьшими pkk, называется спецификацией модели.
Мы определяем модель в этом процессе, делаем её специфичной, индивидуальной, определённой.

Допустим, мы отобрали такие параметры. Что же дальше?

А дальше мы изучаем оставшиеся параметры и пытаемся найти такой, который ещё должен быть включен в нашу модель, но которого ещё не было в исходном варианте нашей модели.
При этом необходимо, чтобы соблюдались следующие условия:

коэффициент детерминации должен расти при увеличении параметров;
остаточная дисперсия при том же увеличении параметров - уменьшаться.

Если эти условия не соблюдаются - то новый параметр «никуда не годится».

Остаточная дисперсия - рассказывает нам о том, насколько велико влияние неучтённых в модели параметров и факторов.
Остаточная дисперсия d² - она же расчётная, которую мы рассматривали в лекции «Оценка модели простой зависимости».

Надо также отметить ещё один нюанс использования коэффициента детерминации (тоже рассматривали в лекции «Оценка модели простой зависимости») при увеличении числа параметров в сложной модели.
Ели мы возьмём число параметров = числу замеров, то этот коэффициент будет равен 1 (математически). Что вовсе не означает, что наша модель имеет реальный смысл. Из этой ситуации надо как-то выкручиваться, поэтому в Зельеметрике используют скорректированный коэффициент детерминации kd_sk².
Разумеется, что использование скорректированного коэффициента уместно для сравнения моделей при увеличении количества параметров.

Для сложной модели мы также можем рассчитать с помощью дисперсий коэффициент множественной корреляции, который рассчитывается точно так же, как и коэффициент корреляции для простой модели.
Коэффициент множественной корреляции будет отражать влияние всех включённых в модель параметров, поэтому его имеет смысл рассчитывать только тогда, когда коэффициенты модели - значимы - есть тесная связь влияющих параметров с результативным.

Теперь о том, как вычисляются коэффициенты сложной модели.

Для двух параметров модель будет выглядеть следующим образом:

RP = a + b₁ * P₁ + b₂ * P₂ + ε

Для нахождения коэффициентов мы будем использовать почти тот же метод, что и для простой модели ЛСЗ.
Запишем установленные в Зельеметрике уравнения для двухфакторной модели:
a * n + b₁ * ∑P₁ + b₂ * ∑P₂ = ∑RP
a * ∑P₁ + b₁ * ∑(P₁²) + b₂ * ∑(P₁ * P₂) = ∑(RP * P₁)
a * ∑P₂ + b₁ * ∑(P₂ * P₁) + b₂ * ∑(P₂²) = ∑(RP * P₂)
Решить эту систему уравнений можно двумя способами:

"в лоб" через выражение одних переменных через другие;
методами матриц, определителей, Гаусса и т.д. (для особо интересующихся можно посмотреть Методичку #5).

Для параметров в количестве трёх система уравнений будет выглядеть так:
a * n + b₁ * ∑P₁ + b₂ * ∑P₂ + b₃ * ∑P₃ = ∑RP
a * ∑P₁ + b₁ * ∑(P₁²) + b₂ * ∑(P₁ * P₂) + b₃ * ∑(P₁ * P₃) = ∑(RP * P₁)
a * ∑P₂ + b₁ * ∑(P₂ * P₁) + b₂ * ∑(P2²) + b₃ * ∑(P₂ * P₃) = ∑(RP * P₂)
a * ∑P₃ + b₁ * ∑(P₃ * P₁) + + b₂ * ∑(P₃ * P₂) + b₃ * ∑(P3²) = ∑(RP * P₃)

Думаю, логика дальнейшего построения системы уравнений для параметров в количестве более трёх - вполне ясна.

Разумеется, целью нашего курса не является подсчёт вручную всего и вся. Самое главное - понимать, что и откуда берётся и зачем оно нам надо.
Для расчёта коэффициентов в сложных моделях в Библиотеке кабинета существуют спецзаклинания: для модели с двумя параметрами и для модели с тремя параметрами.

После того, как мы рассчитали коэффициенты модели, можем смело приступать к оценке значимости.
Для этого мы будем использовать, во-первых, почти все те методы, что применяли на прошлых занятиях к простой модели, и те показатели, которые затронули в начале занятия - они все отражены в методичке к этому занятию.
В-вторых, мы не успели тогда рассмотреть ещё несколько важных показателей.

Средняя ошибка аппроксимации - это показатель, который отражает отклонения замеров относительно линии регрессии.
Средняя ошибка аппроксимации - mMA - выражается в процентах и должна быть меньше 12-15% для того, чтобы наша модель была значимой.

Есть ещё среднеквадратическая ошибка аппроксимации.
Среднеквадратическая ошибка аппроксимации - sMA - не должна превышать 7-8%.

Думаю, каждый студент, глядя на многомерные модели, широко раскрыл глаза и приподнял брови. А в глазах отразился вопрос «это ж сколько считать-то!»
Спешу успокоить: на занятиях и в контрольных мне от вас нужны будут не расчёты, за исключением некоторых позиций, а понимание, что означает тот или иной коэффициент или критерий, каким образом он получается и почему, а также зачем он нужен нам.
Сами же расчеты можно осуществить в специальных программах, наиболее доступной которой, я думаю, является программа MsExcel, где необходимо использовать заклинание «Сервис → Анализ данных». Подробно работу этих заклинаний мы рассмотрим в рабочем порядке индивидуально - для желающих.
Также можно, разумеется, пользоваться всеми теми заклинаниями расчётов, которые найдёте в Библиотеке кабинета, в разделе Таблицы.

Фиби посмотрела на студентов и улыбнулась:
- Сей непростой материал, я думаю, на сегодня мы завершим.

Контрольные задания:

1. Поясните смысл ε в сложной модели ЛСЗ. Почему он там существует, если мы включаем столько параметров, сколько захотим. Где подвох?

2. Аспекты системного анализа в Зельеметрике - как вы их увидели? Перечислите и поясните.

3. Исходные данные таковы:

nn	масса зелья	средняя плотность всех ингредиентов	растворимость специфического ингредиента
1	2	6	8
2	6	8	10
3	10	12	20
4	12	16	18
5	20	24	30

Рассчитайте коэффициенты модели. Дайте оценку одному из них. Сделайте выводы. Рассчитайте ошибку аппроксимации и поясните полученные результаты.

* Контрольное задание для тех, кто ранее уже выполнял предыдущее задание:

1*. Различаются ли ε в простой модели и ε в сложной модели? Почему?

2*. Что самое главное в системном анализе в Зельеметрике? Почему? Бывают ли ситуации, где ответ на этот вопрос будет другим?

3*. Исходные данные таковы:

nn	эффективность зелья	масса ингредиента 1	температура ингредиента 2
1	90	10	10
2	95	20	20
3	90	30	20
4	80	40	30
5	80	50	40

Рассчитайте коэффициенты модели. Дайте оценку одному из них. Сделайте выводы. Рассчитайте ошибку аппроксимации и поясните полученные результаты.

Внимание: вариативное выполнение Контрольного задания:

Если, прочитав материалы занятия, Вы всё ещё не знаете, как подступиться к выполнению заданий, то Вам предлагается вариация выполнения работы, а именно - online-занятие.
Приходите в КЦ, пишите, что хотели бы посетить online-вариацию по 5-й лекции.
Мы с Вами договариваемся о дате и времени занятия.
Все online-вариации проходят в индивидуальном режиме (голосовые - возможно; по необходимости - с видео).
Цель этих занятий - разъяснение всего непонятного, совместное логическое разложение проблем "по полочкам" и поиск путей их решения.

Не забудьте записать информацию по Курсовой.

Напоминаю, что максимальная оценка за выполнение Контрольного Задания = 15 баллов.
Надеюсь, что про обоснованность и логичность ответов вам напоминать в каждом задании не надо.
Отправить выполненное контрольное задание вы можете через свой ЛК.

Контрольная работа по данному материалу принимается до конца триместра.

Если вы ещё не являетесь студентом Магистериума мира магии и волшебства Аргемона, то можно заполнить вот эту анкету. Поступив, Вы сможете ответить на все увлекательные вопросы этой лекции, посетить другие интересные предметы программы обучения из Расписания занятий, окунуться с головой в волшебный мир и раскрыть свои магические таланты.