Голоса, которых нет в датасетах: искусственный интеллект стирает языковое разнообразие английского

Современные генеративные ИИ обучаются примерно на 90 % на английском языке — но не на всех его формах. Как показывает исследование Bender et al. (2021), подавляющее большинство данных поступает из англоязычного сегмента интернета, в котором доминирует американский английский. В результате ИИ моделируют не «английский вообще», а конкретный его вариант — mainstream American English (мейнстримный американский английский).

(статья по материалам AI systems are built on English – but not the kind most of the world speaks +)

«The idea that there is one “good” or “correct” English is a myth.»
д-р Rachelle Johnson, лингвист и исследовательница языковой справедливости

Что такое mainstream American English?

Это стандартизированный, «нейтральный» вариант английского, характерный для образованных носителей из среднего класса США — без региональных особенностей, сленга или этнических черт. Именно он доминирует в американских СМИ, учебниках, корпоративной коммуникации и, конечно, в продуктах Silicon Valley. Он считается «нейтральным» — хотя на деле это социальный конструкт, закреплённый в образовании, СМИ и технологиях (Lippi-Green, 2012). Он отличается от других диалектов американского английского, таких как южноамериканские диалекты, афроамериканский английский (AAVE), аппалачский английский (АE) или латиноамериканский спэнглиш, которые также являются важными частями языкового ландшафта США. Про диалекты США и упоминать не буду, хотя интересно было бы узнать, какой из них больше использован в датасетах, и вообще, как-то это влияет на обучение ИИ?

Голоса, которых нет в датасетах: искусственный интеллект стирает языковое разнообразие английского

Что касается вообще глобальных вариантов, то, например британский английский, несмотря на статус «основного прародителя», тоже оказывается в тени у ИИ. Орфография («colour» vs «color»), лексика («lorry» vs «truck»), даже грамматические конструкции («have got» vs «have») часто воспринимаются языковыми моделями как «ошибки», потому что обучающие данные перегружены именно американским вариантом.

А еще люди во всем мире говорят, например, на:

Индийском английском (Hinglish) (включает большое количество заимствований из индийских языков, а также новые слова, образованные с помощью индийских суффиксов)
Сингапурском английском (Singlish) (креольский язык, в котором английский смешивается с малайским, китайским, тамильским и другими местными языками)
Нигерийском английском, насыщенном местной лексикой и ритмом с заимствованиями из пиджина («no wahala», «нет проблем», go slow = traffic jam, свои грамматические правила, например, особое использование предлогов)
Австралийском английском со своими особенностями в лексике и грамматике

Все эти формы — не «неправильный английский», а полноценные языковые системы с собственной грамматикой, историей и социальным значением, но LLM их либо не распознают (ибо необучены), либо автоматически «исправляют», как будто они дефектные.

OpenAI в целом понятно, тренировали ChatGPT на датасетах в основном американского инглиша. Что по DeepSeek? Говорят, из китайского конкурента торчат жепетовые уши, впрочем, на вопрос, каким вариантом английского тебя тренировали, Дипсик ответил предельно ясно:

От варианта языка зависит, услышат вас или проигнорируют

Уже в 1980-х лингвист John Baugh провёл знаменитый эксперимент: он звонил в агентства недвижимости, используя три акцента — «мейнстримный», афроамериканский (AAE) и латиноамериканский.
→ С «нейтральным» акцентом ему назначали просмотры недвижимости.
→ С AAE и латиноамериканским — отказывали или вообще игнорировали.

(А я уже писала про акцент, что, как ни крути, а все равно встречают в этом мире «по одежке», то есть по акценту или варианту английского)

«Accent discrimination is real, pervasive, and consequential.»
— John Baugh, Linguistic Profiling (2003)

Сегодня эту дискриминацию масштабируют алгоритмы:

Системы распознавания речи (вроде Siri или Google Assistant) показывают на 35% выше уровень ошибок для носителей AAE и неамериканских акцентов (Koenecke et al., PNAS, 2020).
AI-сканеры резюме (например, HireVue) понижают рейтинги кандидатов на работу, использующих индийский или нигерийский английский, потому что их лексика и синтаксис «отклоняются от нормы» (Raji & Smart, AI Now Institute, 2020).
В голосовых технологиях (ElevenLabs, Amazon Polly) доминируют «нейтральные» американские голоса — пользователи из Ганы, Сингапура или Ямайки жалуются: «Эти технологии созданы не для нас» (with other people in mind) (Elish, AI & Society, 2023).

Aboriginal English has its own structure, rules and the same potential as any other linguistic variety.»
— Glenys Collard (Noongar educator) & Rachelle Johnson

Индийский английский даёт миру слово «prepone» (назначить раньше). Сингапурский английский вплетает в речь частицы из малайского (lah), хоккиена (leh) и тамильского. Ямайский английский строит уникальные глагольные конструкции, унаследованные от креольского.

Это не «broken english», а легитимные языковые системы — результат «креативного присвоения языка колонизатора» (Canagarajah, Translingual Practice, 2013). Но в языковых моделях их считают «шумом».

«When training data is scraped from the web without critical curation, it encodes the biases of who had access to publish online — historically, white, Western, male, and affluent voices.»
— Emily M. Bender et al., On the Dangers of Stochastic Parrots (2021)

Как же должны выглядеть ИИ-системы, которые признают и уважают многообразие английского языка?

Нужен переход в мышлении: от навязывания единственно «правильного» языка — к включению множества его легитимных форм. Людям нужны технологии, которые учитывают языковое разнообразие, а не подавляют его.

Лингвисты, разработчики, педагоги и лидеры сообществ должны сотрудничать, чтобы обучение языковых моделей было основано на принципах лингвистической справедливости. Не «исправлять» язык, а создавать технологии, которые порождают справедливые результаты. Менять нужно технологию, а не человека.

Читать вдумчиво:

Baugh, J. (2003). Linguistic Profiling. In: Language in Society.
Bender, E. M., et al. (2021). On the Dangers of Stochastic Parrots.
Koenecke, A., et al. (2020). Racial disparities in automated speech recognition. PNAS.
Lippi-Green, R. (2012). English with an Accent: Language, Ideology and Discrimination in the United States.
Canagarajah, S. (2013). Translingual Practice: Global Englishes and Cosmopolitan Relations.
Raji, I. D., & Smart, A. (2020). Algorithmic Equity in Hiring. AI Now Institute.
Elish, M. C. (2023). Voices of Exclusion: Accent Bias in AI Speech Technologies. AI & Society.