AI Почему я стал ИТ-волонтером & Датасет новостей о противоречиях современного общества

AI

Редактор
Регистрация
23 Август 2023
Сообщения
3 753
Лучшие ответы
0
Реакции
0
Баллы
243
Offline
#1


Примерно 6 лет назад мой мир ограничивался работой, личной жизнью и компьютерными играми. Всё шло своим чередом, но в моей голове всё-таки вертелись 2 вопроса — обывательский и профессиональный. Почему цены растут быстрее зарплат? И почему наука в нашей стране «стагнирует», хотя в недавнем прошлом было огромное количество научно-технических достижений?

Попытка разобраться через популярные источники привела к когнитивному диссонансу. Простой пример с ценами на топливо: бензин дорожает и из-за роста цены на нефть, и из-за ее падения. Я начал копать глубже: изучать историю, политэкономию, сопоставлять данные. Выяснилось, что многие процессы в обществе, кажущиеся нелогичными, например, механизмы субсидирования или налоговые маневры, имеют четкие экономические причины.

Параллельно новости подкидывали новые вопросы и противоречия. Например, несмотря на рост прибыли в ИТ-секторе, идут сокращения в крупных ИТ-корпорациях и растет количество выгораний на работе. Новости о распространении голода соседствуют рядом с новостями об уничтожении не сбытых продуктов питания. Информация о подорожании ипотеки приходит почти одновременно с фактом об увеличении количества нераспроданных новостроек. А при технологических возможностях 21 века обеспечить всех всем необходимым, почему-то всё еще идут боевые действия в разных частях мира. «Меня опять терзают смутные сомнения...» и «кому-то это выгодно...» — сказал бы герой одного советского фильма.



На моей работе — интересные проекты. Но в какой-то момент я поймал себя на мысли, что не получаю удовлетворения от работы в формате «приносить прибыль акционерам». Осознание того, что твой труд увеличивает чью-то капитализацию, но не решает реальных проблем общества, видимых в быту и в новостях, подтолкнуло искать еще какую-то деятельность.

Еще простые рассуждения: общество вырастило и выучило меня, теперь я приношу пользу обществу через результаты своего труда на работе и налоги. Однако, результатами распоряжается частная компания, а налогами — правительство. Сомневаться в их стремлении улучшить жизнь обществу не приходится.

В общем, желание напрямую влиять на среду, а не просто существовать в ней, мотивировало искать гражданские и некоммерческие проекты, где был бы полезен мой профиль — ML. В последние несколько лет у меня получилось помочь нескольким коллективам — об этом читайте на Хабре в первом посте и втором посте.

Про НКО и волонтерство


Если некоммерческая организация была бы RL алгоритмом, то ее награда зависела бы от улучшения жизни людей и помощи обществу, а не от получения прибыли. Некоммерческие проекты существуют в социальной, благотворительной, правозащитной и во многих других сферах. НКО бывают разных размеров, они могут даже не являться организацией. Например, как низовая гражданская инициатива, несколько единомышленников собрались и решили сделать полезное дело — с такими небольшими коллективами я и взаимодействовал.

На личном опыте я убедился, что другие активисты тоже вкладываются в общее дело, не преследуя заработок денег. Свободный труд сильно отличается от труда для заработка и выживания. Свободный труд — это сознательный и добровольный труд; это труд, производимый по своему личному желанию, а не из-за нужды. Он приносит намного больше положительных эмоций, дух товарищества и настоящую причастность к результатам своего труда. Помогая обществу, волонтер улучшает свою жизнь, ведь он сам является частью общества.

Коллектив AMБ



Недавно я познакомился с коллективом «АМБ». Активисты коллектива АМБ занимаются системным анализом общественных процессов, ищут пути их улучшения, освещают острые гражданские проблемы, разоблачают исторические и экономические мифы. В планах — помогать людям, столкнувшимся с нарушением своих прав на работе. В коллективе есть профессиональные программисты, поэтому АМБ реализовывает ИТ проекты, контрибьютит в Open Source и по возможности помогает другим некоммерческим проектам.

Примеры вклада АМБ в Open Source — волонтеры разработали и выложили в открытый доступ telegram-бот обратной связи. Этот бот позволяет владельцу общаться со своей аудиторией без прямого контакта личным tg-аккаунтом. Бот будет полезен всем, кто активно развивает telegram-блог или ведет соцсети. Кроме того, благодаря АМБ появился уникальный датасет новостей с противоречиями современного общества на kaggle и github, далее о нем.

Датасет новостей о противоречиях современного общества


Активисты АМБ и волонтеры дружественных коллективов собрали и разметили датасет новостей, подсвечивающие те самые системные противоречия, о которых я задумывался ранее. Не знали, как его назвать: «Противоречия современного общества» — слишком длинно, «Социальные конфликты» — слишком узко. Поняли, что лучше всего подходит лаконичное и интернациональное название — «Новости капитализма», т.к. сейчас эта социально-экономическая формация, а в данных есть новости про бизнес и общество.

Датасет включает в себя 100 тысяч новостных предложений. Предложения брались из заголовка, абстракта, тела новости или из ее метаданных rss-фида. Новости собирались из разных СМИ по всему миру в период с 2019 по 2026 год. В датасете 20 тысяч предложений относятся к одному из 12 главных классов, а остальные 80 тысяч — к классу «0». Ниже показано количество новостей в главных 12 классах:


  1. Протест (966)


  2. Борьба трудящихся (3787)


  3. Трудовые отношения (3191)


  4. Условия жизни (4853)


  5. Упадок сфер (1756)


  6. Закредитованность (998)


  7. Неравенство (276)


  8. Репрессии (406)


  9. Будни Атлантов (1518)


  10. Экономические отношения (735)


  11. Боевые действия (232)


  12. Прочее (824)


Далее для наглядности привожу некоторые темы, частые слова и 3 примера из каждого главного класса:

 

1. Протест

Темы

Гражданские протесты, митинги, акции​

Частые слова

правительство, пройти, массовый, протест, демонстрация, митинг, акция, протестовать, против​

Пример А

Протесты в Эквадоре продолжаются с середины сентября из-за отмены субсидий на дизтопливо

Пример Б

Тысячи людей в столице Мексики вышли на улицы, протестуя против социальных бед в своей стране.

Пример В

Мамы Первоуральска выступили против закрытия детской поликлиники


 

2. Борьба трудящихся

Темы

Рабочие протесты, требования работников, создание профсоюзов, профсоюзные действия​

Частые слова

работник, рабочий, сотрудник, забастовка, митинг, профсоюз, обратиться, требовать, зарплата, против​

Пример А

Учителя Соснового Бора обратились в прокуратуру

Пример Б

Финский профсоюз вводит запрет на сверхурочную работу

Пример В

Забастовка бариста Starbucks Из-за Дресс-кода охватила 100 магазинов в США


 

3. Трудовые отношения

Темы

Условия труда, проявление эксплуатации, трагедии на работе, сокращения​

Частые слова

работник, рабочий, сотрудник, зарплата, увольнение, сокращение, работа​

Пример А

Рабочий получил травму при взрывных работах на шахте в Рудном

Пример Б

Приставы взыскали с работодателей 6 млрд рублей за долги по зарплате

Пример В

IT-гигант HP заявляет, что сократит от 4000 до 6000 рабочих мест к 2028 году из-за AI


 

4. Условия жизни

Темы

В каких условиях живут люди, стоимость товаров и услуг​

Частые слова

цена, вырасти, подорожать, стоимость, рост, инфляция, бедность, жилье, услуга​

Пример А

Согласно новому исследованию, каждый четвертый молодой человек живет в бедности.

Пример Б

В 2023 году в мире голодал каждый 11-й человек, а в Африке — каждый 5-й — доклад

Пример В

За последние 17 лет инфляция поднялась выше 39%, в то время как рост зарплат ниже 39%.


 

5. Упадок сфер

Темы

Дефицит, нехватка специалистов, проблемы ЖКХ, закрытие предприятий​

Частые слова

дефицит, нехватка, авария, вода, свет, производство, сократиться​

Пример А

В НАО прокомментировали проблему нехватки врачей и учителей

Пример Б

На Ставрополье из-за аварии более 14 тыс. абонентов остались без света

Пример В

Более 50 угольных предприятий в России остановлены или на грани закрытия


 

6. Закредитованность

Темы

Всё, что связано с кредитами: ставки, количество, долги​

Частые слова

долг, вырасти, банк, ипотека, кредитный, объем, должник, банкротство​

Пример А

Объем просроченных ипотечных платежей в России достиг 102 млрд рублей

Пример Б

Больше 3,5 миллионов граждан имеют долги от 50 до 500 тысяч рублей с просрочкой в три месяца

Пример В

Банкиры и коллекторы предложили ужесточить правила банкротства граждан


 

7. Неравенство

Темы

Богатство разных слоев общества, расслоение общества, недоступность товаров или услуг​

Частые слова

богатый, неравенство, самый, богатство, бедный, состояние, доход, миллиардер, рост​

Пример А

3% населения России владеют 90% всех денег страны

Пример Б

Имущественное неравенство в мире усиливается, 10 % самых богатых владеют 75 % имущества

Пример В

От Илона Маска до Дженсена Хуана, 20 самых богатых людей мира контролируют больше богатства, чем весь ВВП Франции.


 

8. Репрессии

Темы

Уменьшение прав и свобод, не демократические методы конкуренции, аресты, преследования, произвол​

Частые слова

протест, право, полиция, власть, нарушение, запретить, профсоюз, правительство, протестовать, подавление​

Пример А

В США пропалестинских протестующих угрожают не брать на работу

Пример Б

В Иране отменили смертный приговор для профсоюзной активистки

Пример В

В 2024 году зафиксировано около 200 случаев насилия и запугивания журналистов


 

9. Будни Атлантов

Темы

Бизнес успехи, лоббирование, государственная помощь бизнесу, влияние на экологию, перепроизводство, монополизация, национализация и приватизация​

Частые слова

прибыль, национализация, национализировать, крупный, чистый, приватизация, дивиденд, увеличить, банк, акционер, рекордный​

Пример А

Фермеры говорят, что продукт выгоднее просто уничтожить, чем продать

Пример Б

Apple и Foxconn пролоббировали изменение регионального трудового законодательства.

Пример В

У российских банков всё прекрасно: по данным ЦБ, в 2024 году они получили 3,8 трлн рублей чистой прибыли, на 15% больше, чем год назад


 

10. Экономические отношения

Темы

Международная торговля ресурсами и товарами, экономическая конкуренция, пошлины​

Частые слова

импорт, экспорт, поставка, увеличить, вырасти, товар, пошлина, нефть​

Пример А

Российские пивовары попросили увеличить пошлины на импортное пиво

Пример Б

Politico пишет о грядущей торговой войне между Европой и США

Пример В

Европейские страны увеличили импорт российских энергоресурсов


 

11. Боевые действия

Темы

Милитаризация, конфликты, следствия конфликтов​

Частые слова

война, увеличить, расход, оборонный, оружие, ввп, конфликт, ядерный, вооружение, армия, территория​

Пример А

Франция вдвое увеличила расходы на оборону

Пример Б

Forbes: Большая Ближневосточная Война неизбежна

Пример В

Семь стран разрабатывают новые системы оружия массового поражения


 

12. Прочее

Темы

Результаты опросов, мнения, вандализм памятников, законы об иммигрантах и мигрантах, политическая конкуренция​

Частые слова

мигрант, предложить, советский, памятник, власть, правительство, запретить, заявить, налог, считать​

Пример А

Крепкий рубль – проблема для экономики, считает Решетников

Пример Б

Российский бизнес призвал активнее завозить мигрантов

Пример В

Власти в Молдавии намереваются сносить памятники борцам с фашизмом и нацизмом.


Методология сбора и разметки датасета


  1. Шаг 1. Вручную аннотирована часть датасета GDDR на классы 0, 1, 2, ...12. Результат шага 1: ~10000 новостей с классом >0 и ~20000 новостей с классом =0 (все строчки, где в столбце class-validation == human).


  2. Шаг 2: Обучены 4 модели BERT на основе данных из шага 1 (2 бинарных классификатора [0 или >0] и 2 мультиклассовые модели [0, 1, ..., 12]).


  3. Шаг 3: Для увеличения класса 0 были взяты несколько новостных датасетов с Kaggle и размечены с помощью ансамбля из 2 бинарных классификаторов BERT (из шага 2). Результат шага 3: ~60000 новостей с классом =0 (все строчки, где в столбце class-validation == 2x-BERT-ensemble).


  4. Шаг 4: В течение всего 2025 года собирались новости из различных мировых СМИ с URL-ссылками, далее собранные новости были размечены с помощью ансамбля из 4 моделей BERT (из шага 2). Результат шага 4: ~10000 новостей с классом >0 (все строчки, где в столбце class-validation == 4x-BERT-ensemble).
Использование датасета


Кроме обучающих и исследовательских целей, датасет нужен для создания систем, способных автоматически находить новости представленных классов в актуальном новостном потоке. Они помогут:


  1. Правозащитным организациям в сборе статистики, выявлении трендов


  2. Исследователям общества в прогнозировании социальной напряженности


  3. Аналитическим компаниям в прогнозировании международных цен


  4. Инвестиционным фондам в анализе сфер и направлений
Скачать датасет


Датасет сохранен в эксель-файл для удобного просмотра программистами и обычными пользователями ПК. Датасет «Новости капитализма» расположен на 2 ресурсах:

Объявление


Идей и инициатив всегда больше, чем рук. Пользуясь случаем, хочу привлечь в технические проекты АМБ дополнительную экспертизу. Поэтому, если знаете, как сделать это круто, правильно, красиво на python, и готовы помочь — напишите в бот обратной связи АМБ:


  1. АМБ разрабатывает бота, помогающего в разоблачении исторических и экономических мифов прошлого и настоящего. В планах добавить LLM в формате RAG или через ее дообучение на собранных данных. Нужны специалисты по LLM, prompt-инженеры.


  2. Перед публикацией любого текста в интернете его необходимо очень хорошо проверять. Постоянно выходят законы, требующие пометки иноагентов, запрещенных организаций и т.д. АМБ планирует создать алгоритм для проверки текста и поиска подобных уязвимостей. Нужны специалисты по NLP, данные уже есть.


  3. АМБ помогает другим проектам. Для социалистического медиа «Диалектик», получившего лицензию и официальный статус СМИ, делается модель для улучшения заголовка новости. Это позволит повысить вероятность попадания в топ новостного агрегатора «Дзен». Тут тоже нужна NLP экспертиза, данные собираются.
Вместо заключения


В своих текстах на Хабре я стараюсь привлекать внимание к некоммерческим и гражданским проектам, делюсь личным опытом и мотивацией. Надеюсь, представленный в этом посте датасет поможет лучше узнать мир, в котором живем. Чем больше я узнавал устройство экономики и общества, тем яснее видел полную картину — это ощущение отлично передает заключительное изображение

 
Яндекс.Метрика Рейтинг@Mail.ru
Сверху Снизу