Пользователь Google на китайском языке вводит запрос «Буддизм» и запускает поиск. Пользователь на французском языке ищет тот же термин, как и пользователь на английском языке. Получат ли все трое одинаковые результаты? Новое исследование Гарварда показывает, что не обязательно, так как результаты онлайн-поиска могут значительно различаться и даже противоречить друг другу в зависимости от темы и языка запроса.
Это разнообразие является следствием скрытой «языковой предвзятости», встроенной в алгоритмы поиска Google, ChatGPT, YouTube и Википедии, говорит Куини Луо, изучающая этику искусственного интеллекта и раннюю китайскую историю. Она является соавтором статьи вместе со своим научным руководителем Майклом Пуеттом, профессором китайской истории и антропологии, и Майклом Д. Смитом, бывшим деканом факультета искусств и наук, который теперь преподает в Школе инженерии и прикладных наук имени Полсона Гарварда.
Michael Puett (слева), Queenie Luo, Michael D. Smith. Photo by Grace DuVal
По мнению авторов, эта предвзятость искажает понимание пользователями поисковых тем, ограничивая их доступ к полному спектру информации и мнений, что ставит под сомнение более широкие последствия для отношений между нациями и народами.
The Harvard Gazette поговорила с Луо, которая получила степень магистра в области науки о данных в 2023 году в SEAS, о языковой предвзятости в поисках и возможных социальных и политических рисках, которые могут возникнуть из-за этого скрытого фильтра на основных платформах поиска.
Вы протестировали ряд поисковых запросов, но статья сосредоточена на двух очень сложных и абстрактных понятиях — буддизме и либерализме. Что вы нашли в Google?
Буддизм — это глобальная религия, которая развила свои культурные традиции в разных языковых сообществах по всему миру. Китайский буддизм очень отличается от японского, тайского и вьетнамского буддизма. По сути, западный буддизм развился в другую ветвь буддизма за последние два столетия.
Наше исследование показало, что при поиске фраз, связанных с буддизмом, в Google на разных языках веб-сайты с наивысшими рейтингами, как правило, отражают доминирующую буддийскую традицию языкового сообщества запроса. Общее предположение среди пользователей интернета состоит в том, что они могут получить доступ к глобальной информации через поисковые системы, причем Google часто воспринимается как предоставляющий объективные, нефильтрованные результаты.
Однако наше исследование показало, что Google и большинство онлайн-платформ используют язык поиска в качестве фильтра, поэтому пользователи разных языков в конечном итоге читают совершенно различную информацию в интернете.
Такие проблемы не ограничиваются только запросами о буддизме, но также охватывают широкий спектр тем, таких как либерализм и международная торговая политика. Например, если вы ищете либерализм на английском языке в Google, вы, как правило, получаете очень положительные взгляды на либерализм и почти не находите ссылок на неолиберализм. Концепции свободного рынка, прав человека и равенства, как правило, сильно подчеркиваются в результатах поиска на английском языке.
Однако если вы переключите язык поиска на китайский, результаты поиска Google по либерализму, как правило, будут негативными и часто связывают его с неолиберализмом. Аналогично, когда вы спрашиваете Google: «Что такое хорошая экономическая политика?» на европейском языке, таком как итальянский или французский, веб-сайты с наивысшими рейтингами подчеркивают такие аспекты, как защищающая рыночная экономика, тогда как сайты с наивысшими рейтингами при поиске на английском языке вместо этого сосредотачиваются на «свободной рыночной экономике» или «ограниченном вмешательстве правительства».
Эти идеи не являются взаимоисключающими, но могут быть противоречивыми в зависимости от контекста.
Что насчет других платформ, которые люди используют для поиска, таких как ChatGPT?
С ChatGPT все изменилось. Поскольку ChatGPT в основном обучен на данных на английском языке, он всегда по умолчанию представляет англо-американские перспективы. Версия, интегрированная с Bing, ведет себя аналогично Google, так как она ищет на сайтах на языке запроса и резюмирует основной контент для пользователя.
Википедия и YouTube — две основные платформы, которые часто упоминаются в Google. Мы обнаружили, что языковая предвзятость также существует на этих двух платформах. Например, если вы ищете на Википедии на английском языке информацию о буддийской медитации, английская статья дает вам обзор мировых традиций буддийской медитации.
Но если вы переключаетесь на французскую статью, она включает раздел «нейронаука и буддизм», которого нет в статьях на других языках. Это различие может быть частично обусловлено влиянием французского монаха Матьё Рикара, который участвовал в серии нейронаучных экспериментов, чтобы продемонстрировать преимущества медитации и привлек много внимания во франкоязычном сообществе.
Языковая предвзятость становится более явной на YouTube, потому что видео на YouTube, как правило, предоставляют высококонцентрированную и сосредоточенную информацию по одной узкой теме.
Например, при поиске на японском языке видео с наивысшими рейтингами включают буддийскую музыку, исполняемую японским монахом, тогда как английские видео обучают пользователей мудрости Будды. Впечатления, которые разные языковые пользователи получают от просмотра этих видео, очень различаются.
Таким образом, пользователи направляются к разной информации и видят только преобладающие мнения на языке поиска, не получая глобального представления о теме запроса?
Именно так. Такой эффект фильтрации может быть нейтральным или полезным для утилитарных вопросов, таких как требования для получения визы. Однако он может представлять собой значительную угрозу для нашего общества по чувствительным и сложным темам, таким как либерализм и международная торговая политика. В отличие от математики или компьютерных наук, которые имеют однозначные ответы, сложные темы требуют разнообразия и взаимных дебатов.
Мы используем басню о слепцах и слоне, чтобы описать этот феномен: каждое языковое сообщество похоже на слепого человека, касающегося небольшой части слона, при этом считая, что они видели все.
Поскольку алгоритм ранжирования Google предназначен для отражения «общего случая» и интересов большинства, а также фильтруется по языку, пользователи англоязычного контента, как правило, получают положительные мнения о либерализме, тогда как пользователи на китайском языке получают критику его через Google.
Со временем такие технологии становятся факторами социального разделения. Взаимное вовлечение становится невозможным, поскольку каждое языковое сообщество видит разные факты.
Что влияет на это?
Существует множество факторов, способствующих существующему паттерну. Во-первых, использование языкового фильтра — это алгоритмический выбор. Без хорошей системы перевода пользователи не могут читать информацию, написанную на других языках, поэтому языковой фильтр выполняет практическую функцию. Однако сейчас, с учетом машинного перевода, языковой фильтр может не быть необходимым.
Во-вторых, язык неразрывно связан с культурой, историей и групповой идентичностью, поэтому любое понятие, выраженное через определенную языковую систему, неотъемлемо от своих культурных корней. В отношении понятий, связанных с буддизмом и либерализмом, различные языковые корпуса действительно демонстрируют очень разные мнения и перспективы.
В-третьих, степень расхождения между различными языковыми поисками варьируется в зависимости от темы, которую вы ищете. Например, по темам вроде «Якобианская матрица» мы не наблюдали заметных различий между языками. «Якобианская матрица» — это относительно новый и очень технический термин с четким математическим определением, поэтому, когда вы ищете этот термин на разных языках, вы не видите больших различий.
Научные, математические и технические термины, особенно новые технические термины, так как они имеют четкие определения, как правило, имеют согласованные интерпретации. Однако для терминов с более длинной историей, таких как Первый закон Ньютона, веб-сайты с наивысшими рейтингами часто включают множество исторических нарративов, окружающих эти темы.
Почему языковая предвзятость проявляется в поисках, поддерживаемых ИИ?
Как уже упоминалось, современные большие языковые модели в основном обучены на данных на английском языке и всегда по умолчанию следуют англо-американским перспективам.
Существуют множество технических проблем, способствующих таким проблемам. Первый уровень связан с несбалансированными обучающими данными. Второй уровень касается методов устранения предвзятости, «выравнивания» и человеческой проверки. Предвзятости в существующих обучающих данных неизбежны — проблемы с гендерной предвзятостью и расовой предвзятостью очень распространены в моделях ИИ.
Однако поскольку предвзятости, встроенные в сложные темы, такие как либерализм и буддизм, не привлекали большого внимания в сообществе ИИ, люди не начали тестировать и работать над такими проблемами. Поэтому большинство современных больших языковых моделей, как правило, следуют доминирующим и наиболее популярным перспективам в своих обучающих данных, которые, как оказалось, являются англо-американскими взглядами. К счастью, эти проблемы можно смягчить способами, аналогичными тем, как решаются гендерные и расовые предвзятости.
В статье вы предупреждаете, что такая языковая предвзятость создает «сильный, невидимый культурный барьер, который имеет важные социополитические последствия для преодоления разногласий». Можете объяснить?
Общий пользователь интернета, как правило, приписывает авторитет Google и считает результаты поиска Google нейтральными и объективными, особенно по сравнению с социальными медиа-платформами. Они не осознают искаженные перспективы, которые они получают от Google.
Поскольку люди продолжают укреплять доминирующие взгляды в своем языковом сообществе, полагая, что они видели все, эта технология не служит нам хорошо как медиатор общения.
Опасность заключается в долгосрочной перспективе. По чувствительным и сложным темам, таким как то, что составляет хорошую рыночную экономику, если одна сторона укрепляется идеей, что свободная рыночная экономика хороша, в то время как другая сторона постоянно получает информацию о преимуществах защищенной рыночной экономики, обеим сторонам может быть довольно трудно достичь консенсуса.
Языковой фильтр в интернете устанавливает сильный барьер, который препятствует взаимопониманию, усиливая наши существующие убеждения и не позволяя услышать другую сторону.
Что могут сделать пользователи или даже технологические компании, чтобы минимизировать последствия языковой предвзятости в онлайн-поиске?
С точки зрения пользователя вы можете использовать Google Translate и перевести свою поисковую фразу на разные языки, а затем использовать переведенные фразы для поиска и снова переводить их на свой язык. Однако эти действия могут быть очень затратными для пользователя.
С технической стороны есть множество способов минимизировать языковую предвзятость, если цель заключается в том, чтобы помочь пользователям получить доступ к информации из различных языковых корпусов.
Во-первых, принятие системы рекомендаций — [которая бы работала] как рекомендации покупок Amazon — может помочь пользователям получить доступ к альтернативным мнениям. В данный момент «связанные запросы» в поиске Google не помогают, поскольку эти рекомендации поиска предполагают точку зрения большинства внутри одного языка.
Во-вторых, недавно запущенный Google AI Overview имеет потенциал для преодоления языковых барьеров. Поскольку он ищет и резюмирует контент для пользователей, он может идентифицировать спектр точек зрения из всей своей репозитории, независимо от языка, а затем резюмировать и переводить основные моменты обратно к пользователям, помогая им преодолеть языковой барьер.
Источник: The Harvard Gazette