Оценка и погрешность оценки в выездке

20 декабря 1999

Если вы хотите лучше понимать оценки в выездке...

Автор: Н. Чебышев

Статья любезно предоставлена автором, Н.А. Чебышевым

Это небольшое исследование проведено с целью определени эффективности применяемых в судействе выездке методов определения результата с точки зрения теории ошибок. Как обычно в математике, для выяснения действующих закономерностей применяется абстрагирование от несущественных, с точки зрения математики, свойств предмета исследований. Именно поэтому за скобками настоящей работы остается собственно процесс сопоставления выполненного упражнения оценке от 0 до 10.

Если бы каждый спортсмен мог выполнить любое упражнение точно в свою силу, а судья абсолютно точно мог это выполнение оценить, то достаточно было бы одному судье посмотреть, как спортсмены выполняют одно и то же упражнение, что бы определить расстановку участников по уровню их мастерства в данный момент времени в данном месте. Но это невозможно. Неточности и ошибки есть неотъемлемая часть любой человеческой деятельности.

Оценка в выездке с точки зрени метрологии

Измерением какой-либо величины называется операция, в результате которой мы узнаем, во сколько раз измеряемая величина больше (или меньше) соответствующей величины, принятой за эталон.

Это определение измерения традиционно применяется для измерения физических величин: массы, длины и т.п. Однако нет никаких причин, чтобы не использовать этот же процесс и для измерения более сложных, не сведенных к элементарным, явлений.

С нашей точки зрения, судейство в выездке несет в себе все признаки измерения и является таковым по своей сути. Судите сами, правила соревнований устанавливают четкие идеальные параметры выполнения того или иного упражнения. Это и есть величина, принятая за эталон.

Происходит ли в процессе судейства соотнесение выполняемого упражнени с эталоном? Да, конечно. И так же, как других случаях измерений, сравнение производится не прямо с эталоном, а через некие приборы, в нашем случае называемые судьями. Надеюсь, что представление таким образом судей, как носителей эталона никого не обидит. Да и случай не уникальный. Например, как определяют расстояние до какого либо предмета без физических приборов? Да так же, на глазок . Только человек без специальных навыков (как человек с улицы в судейской будке) измерит расстояние очень неточно, а геодезист или военный укажет его с точностью до 10 метров.

Как и в случаях с измерениями в физических экспериментах, измерение в выездке не может быть выполнено абсолютно точно. Оно всегда содержит некоторую ошибку. И, наконец, присутствует и такой признак измерения, как погрешность измерительного устройства (Да простят меня судьи еще раз!). В метрологии это ошибка, полученная при сравнении измерительного прибора с эталоном, а в выездке ошибка связана с личным пониманием судьи эталонного выполнения упражнения.

Таким образом, приняв, что и измерение, и судейская оценка суть одно и тоже, мы получаем возможность оценить погрешность последних математическими методами.

Сущность судейства с точки зрени метрологии.

Вполне очевидна цель соревнований определить относительную силу участников, т. е. кто кого сильнее в данный момент в данном месте в данных условиях. С точки зрения собственно соревнования важно только относительное положение участников в итоговом протоколе от первого места до последнего. Зритель неспециалист оценивает разных спортсменов и выносит собственное суждение: этот мне нравится больше чем тот, но меньше чем первый участник . Фактически процесс оценки зрителем совпадает с целью соревнований и, по форме, с работой судьи, но имеет принципиальное отличие по сути. Зритель не учитывает существования эталона , т. е. описанного в правилах идеального выполнения упражнения, и сравнивает спортсменов между собой. Судья же обязан проводить сравнение с эталоном . Требование сравнени с эталоном необходимо вытекает из определения измерения. Только это позволяет субъективную оценку перевести в строго объективный показатель.

Просматривается еще одно принципиальное отличие оценки судьи и зрителя. Зритель на соревновании использует непрерывную и очень грубую шкалу измерений (хуже лучше), а судья дискретную, сейчас десятибалльную шкалу. Очевидно, что речь идет о точности прибора измерения.

Судейская оценка в выездке есть измерение качества выполнения всадником с лошадью какого-либо упражнения в схеме езды по сравнению с эталоном. Это основная единица в определении первенства в соревновании. Количество упражнений в схеме, количество судей, правила обработки полученных оценок, все это вспомогательные механизмы, позволяющие получить наиболее достоверное распределение спортсменов по местам по окончании соревнования. Необходимо учесть, что такое распределение является вероятным, то есть может отличаться от истинного, которое мы получили бы, если бы смогли точно сопоставить истинной силе спортсменов какие-либо числовые величины.

Точность измерения.

Вполне понятно желание определить результат спортсмена с наибольшей возможной точностью, т. е. сделать ошибку измерения по возможности малой. Но насколько это необходимо? Для расстановки по местам 50 спортсменов ошибка в 0.5 места дает требуемую точность определения места в 1%. Именно определения места, а не его измерения, что очевидно невозможно. В принципе нельзя узнать место, которое займет первый участник, до того как закончит свое выступление последний. Поэтому место вычисляется на основе других показателей, в случае соревнований по выездке это оценки судей за упражнения.

Точность работы судьи должна быть 5%, что определено правилами соревнований (Ст. 432.2 Правил соревнований по выездке FEI). Поскольку оценки выставляются в интервале от 0 до 10 с округлением до целого, то это значит, что при идеальной работе судьи округление оценки до ближайшего целого дает ошибку не более 0,5 балла. Это значит, что оценка 6 на самом деле означает, что истинное значение уровня выполнения этого упражнени лежит где-то в интервале 6 SQRT 0.5 балла. Соответствует квалификация судьи (погрешность измерительного прибора) предъявляемым правилами требованиям или нет, тема отдельного исследования. По нашим расчетам, среднеквадратичное отклонение зависит от квалификации судей и лежит в пределах от 0.5 до 1 балла.

Типы ошибок.

Принято различать систематические ошибки, случайные ошибки и промахи. Поскольку процесс определения первенства состоит из нескольких этапов (собственно измерение, запись в протокол, обработка протокола, запись в сводный протокол, объявление результатов соревнования), то и ошибки могут возникать на любом из них.

Систематические ошибки.

Систематические это ошибки, величина которых одинакова во всех измерениях, проводящихся одним и тем же методом с помощью одних и тех же измерительных приборов.

В случае выездки чаще всего это так называемые добрый или злой судья. Злой судья занижает оценку в каждом измерении, а добрый наоборот, завышает. Причем, судья поступает одинаковым образом для каждого упражнения каждого спортсмена. Считается, что подобный метод не влияет на окончательное распределение мест и, поэтому, приемлем. Тем не менее, это ошибка измерения, искажающая результат. Другой пример систематической ошибки национальная интерпретация эталона , правил соревнований. Известный факт: в России традиционно придают подчеркнуто большее внимание элементам высшей школы, а в Германии школьным упражнениям. Судьи из этих стран соответственно строже или мягче относятся к ошибкам в разных упражнениях. Ну и конечно, к систематическим ошибкам относятся ошибки, связанные с квалификацией судьи. Каждый судья, хотя и на основе правил, считает идеальным какое-то свое видение исполнения какого-либо элемента, и естественно стабильное повторение именно этим судьей своей оценки за одинаковое исполнение одного и того же упражнения схемы, притом, что другие судьи, в силу своего видения эталона, ставят другие оценки.

Промахи.

Промахи или грубые ошибки это ошибки, связанные с процессом регистрации результата. Чаше всего это ошибки с наибольшей абсолютной величиной. Источник этих ошибок в невнимательности лиц, работающих с результатами. Человек, записывающий результаты может перепутать графы в протоколе, и коэффициент будет применен к другой оценке. Записи могут вестись в протокол другого спортсмена. После нескольких подряд удачно выполненных элементов, судья может механически повторить оценку 8, при выполнении элемента на 6.

Случайные ошибки.

Случайные это ошибки, величина которых различаетс даже при измерении одинаковым образом.

Своим происхождением этот тип ошибок связан с действием множества факторов, влияние которых в каждом случае различно. Неоднородность грунта манежа, отвлекающий судью посторонний звук, замечание читчика, настроение судьи, его опыт, авторитет всадника или тренера, экстерьер лошади, личное пристрастие судьи к выполнению какого-либо движения и множество других причин искажают результат спортсмена. Величина искажения, как и его знак непредсказуемы.

Методы борьбы с разными типами ошибок.

Наибольшую сложность в метрологии представляет собой борьба с систематическими ошибками. Лучшим считается метод перевода систематической ошибки в случайную. В выездке этот вопрос частично решен, во всяком случае, в отношении ошибок, связанных с различным пониманием эталона . Эта ошибка переведена в разряд случайных использованием в расчете оценок пяти судей.

Основное лекарство при борьбе с промахами это внимательность всех лиц, занятых в процессе судейства соревнований. Но не только. Применяются и методические приемы: двойной подсчет, публикаци промежуточных результатов, письменное разъяснение причин низких оценок. Как видим, без контроля остается такой важный этап, как занесение оценок в протокол. Для уменьшения вероятности промахов в этом звене технологической цепочки возможно применение судьями диктофонов, использование 2 читчиков или каких-нибудь других методов.

Лучше всего отработаны методы борьбы со случайными ошибками. Предположим, мы имеем несколько измерений одной и той же величины. Невозможно сказать, какой из результатов ближе всего к истинному значению. Каждый результат отличается от истинного на неизвестную величину. Если ошибка измерения или оценки не более 0.5 балла (точность 5%), то отклонение среднего арифметического полученных результатов заведомо не больше этой величины. Это связано с тем, что в процессе вычисления среднего, положительные и отрицательные ошибки частично компенсировались. Таким образом, увеличение количества измерений улучшает точность получаемого результата. В выездке это достигается наличием в схеме езд до 50 оцениваемых упражнений.

Вероятностные оценки ошибок.

Каждый фактор, вызывающий появление ошибки, может как увеличить, так и уменьшить оценку, т. е. элементарные случайные ошибки, из которых складывается случайная ошибка каждого измерения (каждая оценка), могут иметь и положительный и отрицательный знаки. Естественно считать, что вероятность появления отрицательных и положительных ошибок одинакова и равна 0.5. Следовательно, хотя теоретически случайная ошибка может иметь любое значение, но вероятность каждого будет неодинакова.

Например: Подсчитаем вероятность максимальной ошибки судьи при оценке исполнения Большого приза. Всего оценок 50. Считаем, что все ошибки имеют максимальное значение и различаются только знаком. Такое допущение только завышает общую ошибку, что в данном случае несущественно. Пусть при определении первой оценки судья завысил ее на 1 балл, вероятность чего равна 0.5. Вероятность того, что при определении второй оценки будет снова допущено завышение, равна, по правилу умножени вероятностей, (0,5)² или 0.25. Вероятность того, что и треть оценка окажется завышенной составляет (0.5)³ или 0.125. Вероятность того, что все 50 оценок окажутся завышенными и сумма будет отличаться от истинной на 50 баллов, (подчеркнем: вследствие действия случайных факторов, а не системных) равна (0.5)⁵⁰ или 8.88 Х 10^-16 т. е. практически невероятна (Что бы появилась такая ошибка хотя бы 1 раз, нужно провести не менее 100 миллиардов больших призов). И это при допущении, что все случайные ошибки максимальны и одинаковы по знаку.

Некоторые необходимые числовые характеристики ошибок.

Для выявления случайной ошибки измерения (оценки) необходимо повторить его несколько раз. Если каждое измерение дает несколько отличные от других измерений результаты, считается, что мы имеем дело с ситуацией, когда случайная ошибка играет существенную роль. Принимаем, что при оценивании судьей спортсмена, действует нормальный закон распределени ошибок. В этом случае теория ошибок дает нам возможность использовать некоторые числовые характеристики.

В математической статистике строго доказывается, что среднее арифметическое значение измеряемой величины является наиболее вероятным ее значением. Заметим, что процент набранных баллов, вычисляемый при обработке судейских протоколов, является именно средним арифметическим оценок, поставленных судьями.

Средняя квадратичная ошибка . С увеличением количества измерений n эта величина стремится к некоему постоянному значению . Квадрат этой величины называется дисперсией измерений. Относительная величина средней квадратичной ошибки, выраженная в процентах, называется коэффициентом вариации

Доверительная вероятность или коэффициент надежности - это вероятность того, что результат измерений отличается от истинного значения x на величину, не большую x. Эта характеристика означает, что с такой вероятностью истинное значение не выходит за пределы доверительного интервала

Для характеристики величины случайной ошибки необходимо задавать два числа: величину самой ошибки (доверительный интервал) и величину доверительной вероятности. Понятно, что доверительный интервал в SQRT 2 балла, который кажется вполне благоприятно характеризует точность оценки всего выступления, оказывается никуда не годной характеристикой при коэффициенте надежности 0.3. Это означало бы, что истинный результат спортсмена с вероятностью 30% попадет в интервал 1500SQRT 2 балла. Такая надежность судейской работы, конечно, не устроит спортсменов. Ничуть не лучше выглядело бы заявление, что с вероятностью 99,99% результат спортсмена составляет 1500SQRT 100 баллов. Ведь в этом интервале легко уместятся все участники соревнования.

Обычно в измерениях физических величин стараютс получить результат с доверительной вероятностью от 0.9 до 0.95.

Закон сложения случайных ошибок.

В теории ошибок доказывается, что двукратное увеличение точности измерения достигается четырехкратным увеличением количества измерений. Таким образом, каждый судья в малом призе проводит оценку спортсмена 43 раза, что увеличивает точность, ранее определенную как 0.5 балла, в раз. Среднеквадратичная ошибка каждой оценки составит 0.08 балла. Это значит, что хотя судья оценивает упражнения с точностью до 0.5 балла, увеличение количества измеряемых упражнений до 43 улучшает точность среднеарифметической оценки до 0.08 балла. Если бы процент набранных баллов вычислялся по одному судье, то результат выглядел бы как 60SQRT 0.8%. Среднеквадратичная погрешность при этом суммы баллов составит 3.3 балла (), где s=0.5 среднеквадратичное отклонение каждой оценки. Исследования формулы нормального распределения Гаусса позволяет интерпретировать полученный результат таким образом: из 1000 спортсменов, оцененных данным судьей (то есть одним судьей, полностью соответствующим правилам соревнований со среднеквадратической погрешностью измерения 0.5) около 320 результатов будут отличаться от истинного более, чем на 3.3 балла, около 50 более, чем на 6.6 баллов и около 3 более, чем на 9.9 балла в любую сторону. При этом, коэффициент вариации составит 1.2%.

Приведенный выше расчет приведен для случая, когда работает один судья. Однако, в силу необходимости учета возможной систематической ошибки, связанной с разным пониманием эталона , на соревнованиях используетс 5 судей. В этом случае среднеквадратичная ошибка суммы так же определяетс как корень квадратный из суммы дисперсий отдельных слагаемых. В наших случаях это соответственно балла. В этом случае из 1000 спортсменов, оцененных данной бригадой судей (то есть 5 судьями, полностью соответствующим правилам соревнований со среднеквадратической погрешностью измерения 0.5) около 320 результатов будут отличаться от истинного более, чем на 7.3 балла, около 50 более, чем на 14.6 баллов и около 3 более, чем на 21.9 балла в любую сторону. Увеличение количества оценок в 5 раз привело к увеличению абсолютного значения среднеквадратичного отклонени только в 2,2 раза. То есть точность улучшилась в 2,3 раза. При этом нам удалось частично решить проблему различной трактовки эталона разными судьями. Как показывалось выше, среднеарифметическая оценка 5 судей несет меньшую ошибку, чем максимальная ошибка судьи из этой бригады. Частичность решения этой проблемы связана с отсутствием случайного выбора судей дл назначения на судейство конкретного соревнования. Как правило, судейские бригады достаточно стабильны и придерживаются общих взглядов на предмет судейства.

Следует обратить внимание, что полученные результаты, в том числе и с отклонениями в 20 баллов, свидетельствуют о правильно произведенных измерениях или о добросовестной оценке судьями каждого упражнения.

Анализ методики определения первенства

Для примера вычислим точность определения результата спортсмена, участвующего в Большом призе. Количество оценок 250 (5 судей по 50 оценок). Погрешность измерения 5%. Среднеквадратичная погрешность определения средней оценки в процентах

Используя функцию Лапласа получаем следующие результаты:

Доверительный интервал, %	Доверительный интервал, баллы	Доверительная вероятность
0,01%	0,25	2,0%
0,05%	1,25	13,0%
0,10%	2,5	25,0%
0,22%	5,5	50,0%
0,40%	10	79,0%
0,50%	12,5	89,0%
1,00%	25	99,8%

Проведенные вычисления указывают, что вычисление результата спортсмена (суммы баллов) с точностью до 1 балла не имеет смысла, поскольку при существующем методе судейства вероятность того, что истинный результат выступления спортсмена будет находиться в интервале SQRT 1 балл, равна всего лишь 10%. Точность в 5 баллов позволяет увеличить вероятность попадания истинного результата в заданный интервал до 50%. 10 баллов дает вероятность в 79%, а 25 баллов увеличивает ее до 99.8%.

С уменьшением количества оцениваемых в схеме езды упражнений снижается и доверительная вероятность. Для схем, применяемых в настоящее время (кроме сокращенных), это уменьшение незначительно. Например, для Малого приза, точность в 5 баллов для суммы, означает 44% доверительной вероятности.

Таким образом, спортсмены, получившие результаты, отличающиеся друг от друга менее чем на 5 баллов, в пределах статистической достоверности показали одинаковый результат. Точно также как и при измерении времени по ручному секундомеру не имеет смысла фиксировать результат с точностью до сотых, а тем более до тысячных долей секудны, определение результата в выездке до 4 значащей цифры только вводит в заблуждение относительно истинного соотношения сил между спортсменами.

Некоторые выводы

Судейская оценка в выездке есть измерение качества выполнения всадником с лошадью какого-либо упражнения в схеме езды по сравнению с эталоном.

Без контроля остается такой важный этап, как процесс занесения оценок в протокол. Для уменьшения вероятности промахов в этом звене технологической цепочки возможно применение судьями диктофонов, использование 2 читчиков или других методов.

Спортсмены, получившие результаты, отличающиеся друг от друга менее чем на 5 баллов, в пределах статистической достоверности показали одинаковый результат.

Использованная литература:

А. Н. Зайдель, Элементарные оценки ошибок измерений, Л., Наука , Ленинградское отд., 1967.

И. П. Мацкевич, Г. П. Свирид, Высшая математика: Теория вероятностей и математическая статистика: Учеб.- Мн.: Выш. шк. 1993.

+ Н. А. Чебышев 1999.

СТАТЬЯ