Может ли искусственный интеллект качественно проверять домашние задания?

Образовательная платформа Coursera поделилась результатами эксперимента по проверке домашних работ с помощью ИИ.

Компания решила попробовать внедрить генеративный искусственный интеллект в процесс peer-to-peer оценивания (это когда оценку работ проводят сокурсницы и сокурсники) домашних работ учащихся, например эссе.

Эксперимент проводится не на всех, а на участницах и участниках из отдельных регионов. Также новинку пока не добавляли в курсы, которые позволяют получить университетскую степень (Degrees on Coursera).

Теперь вместо того, чтобы дожидаться, пока работу оценит кто-то из коллег или коллежанок, студенты и студентки получают мгновенный отклик от нейросети. В рамках бета-тестирования функции с помощью генеративного ИИ оценили 300 тысяч заданий.

Только 7% учащихся из тех, кого это коснулось, перешли обратно на взаимную оценку с другими студентами и студентками — то есть, очевидно, большинству оценки от нейросети показались вполне справедливыми. Среди тех, кто решили отказаться от ИИ-проверок, 84% получили от нейросетей за свои работы баллы ниже проходных. В компании сообщили, что перепроверили работы с особенно низкими оценками вручную, чтобы убедиться, что обошлось без ошибок.

Судя по представленным показателям, качество оценивания и “явка” при этом тоже повышаются. Доходимость до конца курса в экспериментальной группе увеличилась на 16,7%.

Учащиеся получали оценки от ИИ в среднем в течение всего одной минуты с момента отправки — в 900 раз быстрее по сравнению с 15 часами ожидания при проверке сокурсницами и сокурсниками.

Студентки и студенты в экспериментальной группе получили в среднем в 45 раз больше отзывов на свои работы, чем на всех остальных курсах платформы. Очевидно, далеко не все учащиеся Coursera обычно пишут отзывы на работы, и в результате многие не получали обратной связи. Искусственный интеллект закрыл этот пробел.

При этом разработчицы и разработчики позаботились о том, чтобы отзывы от нейросети были достаточно подробными и содержательными — промпты для этой задачи разработали с учётом лучших педагогических практик.

Конечно, не все так радужно. Обычно, у многих чат-ботов наблюдаются проблемы в обратной связи: в частности, в неверном решении они замечают только ошибки и не умеют отмечать то, что было сделано правильно.

У Coursera в процессе эксперимента некоторые показатели упали. Успешно сданных с первой попытки заданий стало меньше, выставленные оценки в среднем понизились. Нейросеть с меньшей вероятностью, чем люди, выставляла идеальный балл и с большей вероятностью выставляла 0%.

Несмотря на всё это, 90% тех учащихся, которые как-то отреагировали на полученные оценки, остались удовлетворены обратной связью от ИИ.

Однако студенты и студентки вузов по всему миру все же скептически относятся к тому, чтобы их оценивал ИИ: результаты опроса 3800 студентов и студенток из 16 стран мира показывают, что 60% из них обеспокоены справедливостью оценок, которые может выставлять искуственный интеллект.