В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей

Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайт данных с содержимым 2.67 миллиардов web-страниц.

✆ Читать новости Linux в Telegram

Также по теме:

AI-модель Brain2Qwerty для воссоздания набираемого на клавиатуре текста по ...
Google выпустил открытую AI-модель Gemma 4, построенную на технологиях Gemi ...
Инициатива по встраиванию моделей машинного обучения в ядро Linux