Сайт Proof News рассказывает о наборе данных YouTube Subtitles, составленном компанией EleutherAI. В него входят субтитры к видеороликам более чем с 48 тыс. каналов YouTube — всего к 173536 тыс. видеороликам. YouTube Subtitles входит в гораздо более крупный набор данных под названием The Pile, вместе с документами Европарламента, статьями англоязычной Википедии, архивами электронной почты сотрудников корпорации Enron, опубликованных в ходе федерального расследования деятельности этой корпорации, и многими другими общедоступными материалами.
Хорошо известно, что набор The Pile (а следовательно, и YouTube Subtitles) использовался при обучении больших языковых моделей, в том числе компаниями Apple, Nvidia, Anthropic и Salesforce. Однако никто из авторов видеороликов — а среди них есть популярные каналы YouTube со многими миллионами подписчиков — не получил никакой компенсации, пишет Proof News, и у них не спрашивали разрешения на использование субтитров. Кроме того, при составлении YouTube Subtitles применялся скрипт для скачивания субтитров, хотя условия обслуживания YouTube запрещают доступ с помощью автоматических средств.