Применение машинного обучения и Data Science в промышленности
Все коды на Python и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.
Написал материал для своего проекта «Нейрон», в котором я рассказываю о машинном обучении, искусственном интеллекте и Data Science. И делаю так, чтобы всё это стало понятным.
Если среди читателей есть те, кто желает добавить свой интересный проект в любую из подотраслей, пожалуйста, свяжитесь со мной. Я добавлю его в список.
Итак, давайте начнём изучение.
1. Недвижимость и питание
1.1. Питание
- RobotChef — совершенствование рецептов еды на основе отзывов пользователей.
- Food Amenities — прогнозирование спроса на пищевые продукты с использованием нейронных сетей.
- Recipe Cuisine and Rating — предсказание названия кухни любого блюда на основе списка его ингредиентов.
- Food Classification — пищевая классификация еды с использованием библиотеки Keras.
- Image to Recipe — перевод изображения еды в рецепт его приготовления.
- Calorie Estimation — оценка калорийности по фотографиям еды.
- Fine Food Reviews — сегментационный анализ еды на основе отзывов с Amazon Fine Food.
1.2. Рестораны
- Restaurant Violation — прогнозирование нарушения правил проверки продуктов питания.
- Restaurant Success — предсказание, будет ли ресторан успешным.
- Predict Michelin — предсказание того, что ресторану дадут звезду Мишлен.
- Restaurant Inspection — анализ уровня лояльности к ресторану и популярностью на основе оценок по Yelp.
- Sales — прогнозирование продаж у ресторанов с LSTM.
- Visitor Forecasting — бронирование и прогнозирование количества посещений.
- Restaurant Profit — ресторанный регрессионный анализ.
- Competition — анализ конкурентоспособности ресторана.
- Business Analysis — проект по анализу ресторанного бизнеса.
- Location Recommendation — рекомендация о будущем местонахождении ресторана.
- Closure, Rating and Recommendation — три задачи прогнозирования с использованием данных Yelp.
- Anti-recommender — рекомендация ресторанов, которые вы (на основе ваших предпочтений) не захотите посещать.
- Menu Analysis — анализ ресторана на основе его меню.
- Menu Recommendation — рекомендация новых ресторанов на основе вашего любимого меню.
- Food Price — прогнозирование стоимости продуктов питания.
- Automated Restaurant Report — автоматический ресторанный отчёт на основе машинного обучения.
1.3. Недвижимость
- Peer-to-Peer Housing — влияние одноразовой аренды жилья на её состояние.
- Roommate Recommendation — рекомендация соседа по комнате.
- Room Allocation — распределение помещений.
- Dynamic Pricing — расчёты динамического ценообразования в отеле.
- Hotel Similarity — сравнение конкурирующих отелей друг с другом.
- Hotel Reviews — отзывы об отелях.
- Predict Prices — предсказание цен на номера в отелях.
- Hotels vs Airbnb — сравнение отелей с Airbnb.
- Hotel Improvement — анализ отзывов для отеля.
- Orders — прогноз отмены заказов для отелей.
- Fake Reviews — распознавание, являются ли отзывы поддельными или спамом.
- Reverse Image Lodging — нахождение нужного вам жилья по изображению.
2. Бухгалтерский учёт
2.1. Machine Learning
- Chart of Account Prediction — использование промеченных данных для имени учётной записи каждой транзакции.
- Accounting Anomalies — выявление аномалий в бухгалтерском учёте.
- Financial Statement Anomalies — обнаружение аномалий (используя R) перед подачей документов в налоговую.
- Useful Life Prediction (FirmAI) — прогнозирование срока полезного использования активов с помощью сенсорных наблюдений и разработки функций.
- AI Applied to XBRL — стандартизированное представление XBRL в AI и ML.
2.2. Аналитика
- Forensic Accounting — сборник тематических исследований по криминалистическому учёту с использованием анализа данных.
- General Ledger (FirmAI) — обработка данных в FirmAI.
- Bullet Graph (FirmAI) — визуализация Bullet Graph помогает отслеживать продажи, комиссионные и другие показатели.
- Aged Debtors (FirmAI) — пример анализа для выявления должников.
- Automated FS XBRL — набор файлов PDF, содержащих более 700 страниц информации о XBRL.
2.3. Текстовый анализ
- Financial Sentiment Analysis — анализ рычагов оптимизации в торговле.
- Extensive NLP — комплексные НЛП методы для бухгалтерского учёта.
2.4. Данные, парсинг и API
- EDGAR — пошаговое руководство по получению данных EDGAR.
- PyEDGAR — библиотека для загрузки, кэширования и доступа к файлам EDGAR.
- IRS — доступ и анализ файлов IRS.
- Financial Corporate — наборы корпоративных финансовых данных Rutgers.
- Non-financial Corporate — нефинансовый корпоративный набор данных Rutgers.
- PDF Parsing — извлечение полезных данных из документов PDF.
- PDF Tabel to Excel — создание файла Excel из данных в PDF.
2.5. Исследования и статьи
- Understanding Accounting Analytics — статья, посвящённая важности бухгалтерской аналитики.
- VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.
2.6. Веб-сайты
- Rutgers Raw — исследования в области цифрового бухгалтерского учёта от Rutgers.
2.7. Курсы
- Computer Augmented Accounting — видеоролик из Университета Rutgers, посвящённый использованию вычислений для улучшения бухгалтерского учёта.
- Accounting in a Digital Era — ещё одна серия статей Университета Rutgers, посвящённая влиянию цифрового века на бухгалтерский учёт.
3. Сельское хозяйство
3.1. Экономика
- Prices — первый прогноз цен на сельскохозяйственную продукцию.
- Prices 2 — второй прогноз цен на сельскохозяйственную продукцию.
- Yield — сельскохозяйственный анализ урожайности в Украине.
- Recovery — стратегическое использование земель в сельском хозяйстве с учётом восстановления экосистем.
- MPR — данные отчётности по ценам на сельхозпродукцию от Министерства сельского хозяйства США.
3.2. Разработка
- Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков.
- Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах.
- Assistant — ноутбуки от виртуального ассистента по сельскому хозяйству.
- Eco-evolutionary — эко-эволюционная динамика.
- Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям.
- Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.
4. Банковское дело и страхование
4.1. Потребительское финансирование
- Loan Acceptance — принятие решений о ссуде на основе классификации и анализа временных рядов.
- Predict Loan Repayment — прогнозирование погашения кредита с помощью функции автоматизированного проектирования.
- Loan Eligibility Ranking — система, которая помогает банкам проверять, может ли клиент получить данный (определённый) кредит.
- Home Credit Default (FirmAI) — прогнозирование дефолта по кредиту.
- Mortgage Analytics — обширная аналитика ипотечных кредитов.
- Credit Approval — система для одобрения кредитной карты.
- Loan Risk — прогнозная модель, помогающая уменьшить списания и потери процентов с кредитов.
- Amortisation Schedule (FirmAI) — простой график амортизации в Python.
4.2. Управление и операции
- Credit Card — оценка CLV клиентов кредитной карты.
- Survival Analysis — анализ LTV клиентов.
- Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции.
- Credit Card Churn — предсказание оттока клиентов с кредитными картами.
- Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии.
- CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.
4.3. Оценка
- Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.
- Real Estate — прогнозирование цен на городскую недвижимость.
- Used Car — прогноз цен на подержанный автомобиль.
4.4. Мошеничество
- XGBoost — обнаружение мошенничества путём настройки гиперпараметров XGBoost.
- Fraud Detection Loan in R — обнаружение мошенничества в банковских кредитах.
- AML Finance Due Diligence — поиск новостных статей для финансирования AML DD.
- Credit Card Fraud — обнаружение мошенничества с кредитными картами.
4.5. Страхование и риски
- Car Damage Detective — оценка повреждений автомобиля с помощью свёрточных нейронных сетей.
- Medical Insurance Claims — прогнозирование претензий по медицинскому страхованию.
- Claim Denial — прогнозирование отказа от страхового возмещения.
- Claim Fraud — прогнозные модели, позволяющие определить, какие претензии в отношении автомобилей являются мошенническими.
- Claims Anomalies — система обнаружения аномалий для данных страховых претензий.
- Actuarial Sciences — ряд актуарных инструментов в R.
- Bank Failure — предсказание банкротства.
- Risk Management — финансирование курсов по управлению рисками.
- VaR GaN — оценка стоимости управления рыночным риском с использованием Keras и TensorFlow.
- Compliance — управление соответствиями с требованиями банка.
- Stress Testing — ECB стресс-тестирование.
- Stress Testing Techniques — ноутбук с различными упражнениями на стресс-тестирование.
- BoE stress test — результаты стресс-теста и составление графика.
- Recovery — возмещение причитающихся денег.
- Quality Control — контроль качества банков с использованием LDA.
4.6. Полезное
- Bank Note Fraud Detection — аутентификация с использованием DNN Tensorflow Classifier и RandomForest.
- ATM Surveillance — использование банкоматов в банках.
5. Биотехнологии и наука
5.1. Общие
- Programming — программирование на Python для биологов.
- Introduction DL — учебник по углубленному изучению геномики.
- Pose — оценка позы животных с использованием DL.
- Privacy — обмен клиническими данными, с сохранением конфиденциальности.
- Population Genetics — DL для популяционного генетического вывода.
- Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике.
- Applied Stats — прикладная статистика для высокопроизводительной биологии.
- Scripts — скрипты Python для биологов.
- Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии.
- Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3.
- Cell Movement — LSTM для прогнозирования биологического движения клеток.
- Deepchem — демократизация глубокого обучения для открытия лекарств, квантовой химии, материаловедения и биологии.
5.2. Последовательность
- DNA, RNA and Protein Sequencing — новое представление для биологических последовательностей с использованием DL.
- CNN Sequencing — набор инструментов для изучения последовательности ДНК/РНК с использованием свёрточных нейронных сетей.
- NLP Sequencing — модель обучения языковой передаче для геномики.
5.3. Хемоинформатика и открытие лекарств
- Novel Molecules — свёрточная сеть, которая может изучать функции.
- Automating Chemical Design — создание новых молекул для эффективного исследования.
- GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением.
- RL — генерирующие соединения, предсказанные как активные.
- One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.
5.4. Геномные
- Jupyter Genomics — сборник ноутбуков по вычислительной биологии и биоинформатике.
- Variant calling — определение отклонений от эталонного генома в ДНК человека.
- Gene Expression Graphs — использование свёрток на изображениях.
- Autoencoding Expression — извлечение соответствующих шаблонов из больших наборов данных экспрессии генов.
- Gene Expression Inference — прогнозирование экспрессии указанных генов-мишеней из панели из примерно 1000 предварительно выбранных «ориентировочных генов».
- Plant Genomics — материал для презентаций и примеров для геномики растений и патогенов.
5.5. Наука
- Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения.
- Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры.
- Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы.
- Seedlings — растительная рассада, классификация от kaggle.
- Plant Stress — онтология, содержащая растительные стрессы.
- Animal Hierarchy — пакет для расчёта иерархий доминирования животных.
- Animal Identification — глубокое обучение идентификации животных.
- Species — анализ больших данных различных видов животных.
- Animal Vocalisations — генеративная сеть для вокализации животных.
- Evolutionary — инструмент стратегий эволюции.
- Glaciers — учебный материал о ледниках.
6. Строительная техника
6.1. Строительство
- DL Architecture — генератор изображений для построения архитектуры.
- Construction Materials — курс по строительным материалам.
- Bad Actor Risk Model — модель риска для повышения безопасности строительства.
- Inspectors — определение назначенных инспекций.
- Corrupt Social Interactions — выявление потенциальных коррумпированных взаимодействий между сотрудниками отрасли и сотрудниками DOB.
- Risk Construction — определение строительства высокого риска.
- Facade Risk — модель риска для прогнозирования небезопасных фасадов.
- Staff Levels — прогнозирование уровня персонала для передовых работников.
- Injuries — моделирование количества травм, связанных со строительством.
- Building Violations — прогнозирующий анализ нарушений у здания.
- Productivity — анализ и проверка производительности с помощью таблицы.
6.2. Инженерия
- Structural Analysis — 2D-структурный анализ в Python.
- Structural Engineering — структурные инженерные модули.
- Nusa — структурный анализ с использованием метода конечных элементов.
- StructPy — библиотека структурного анализа для Python на основе метода прямой жёсткости.
- Aileron — структурный анализ элеронов «Боинга 737».
- Vibration — образовательные вибрационные программы.
- Civil — сборник инструментов гражданского строительства в FreeCAD.
- GEstimator — подготовки сметы расходов на строительные и электромонтажные работы с подробным анализом тарифов.
- Fatpack — функции и классы для анализа усталости ряда данных.
- Pysteel — автоматизированное проектирование стальной конструкции.
- Structural Uncertainty — количественная оценка структурной неопределённости на основе глубокого обучения.
- Pymech — модуль Python для инженеров-механиков.
- Aerospace Engineering — астродинамика и статистика.
- Interactive Quantum Chemistry — объединение Psi4 и Numpy для образования и развития.
- Chemical and Process Engineering — различные ресурсы химической и технологической инженерии.
- PyTherm — прикладная термодинамика.
- Aerogami — аэродинамика с использованием самолётов.
- Electro geophysics — интерактивные приложения для электромагнетизма в геофизике.
- Graph Signal — учебник по обработке сигналов на графике.
- Mechanical Vibrations — механические вибрации в Университете Луизианы.
- Process Dynamics — динамика процесса и управления.
- Battery Life Cycle — прогнозирование срока службы батареи на основе данных.
- Wind Energy — Python для энергии ветра.
- Energy Use — стандартные методы расчёта нормированного потребления энергии.
- Nuclear Radiation — как люди подвержены воздействию радиации, излучаемой атомными электростанциями.
6.3. Материаловедение
- Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте.
- Materials Mining — скрипты для моделирования и анализа материалов.
- Emmet — создание баз данных свойств материалов.
- Megnet — графовые сети как каркас ML для молекул и кристаллов.
- Atomate — рабочие процессы для вычислительного материаловедения.
- Bylaws Compliance — предсказание штрафов на собственность.
- Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия.
- Awesome Materials Informatics — кураторский список известных работ в области материаловедения.
7. Экономика
7.1. Общее
- Trading Economics API — торговая экономика API, информация для 196 стран.
- Development Economics — микроэкономика развития.
- Applied Econ & Fin — прикладная вычислительная экономика и финансы.
- Macroeconomics — темы по макроэкономике с примерами из ноутбука.
7.2. Машинное обучение
7.3. Вычисления
- Quant Econ — курс количественной экономики от NYU.
- Computational — вычислительные методы в экономике.
- Computational 2 — малый курс по вычислительной экономике.
- Econometric Theory — ноутбуки по эконометрической теории для начинающих.
8. Образование и исследования
8.1. Студенты
- Student Performance — успеваемость студентов, рассчитанная на основе машинного обучения.
- Student Performance 2 — студенческий экзамен.
- Student Performance 3 — успеваемость учащихся в учреждениях среднего образования.
- Student Performance 4 — оценка успеваемости учеников с использованием Feature Engineering.
- Student Intervention — создание системы студенческого вмешательства.
- Student Enrolment — регистрация студентов и анализ результатов.
- Academic Performance — изучение демографических и семейных особенностей, которые влияют на успеваемость учащегося.
- Grade Analysis — анализ достижений учащихся.
8.2. Школа
- School Choice — анализ данных для выбора школы.
- School Budgets and Priorities — помощь школьному совету и директору в принятии стратегических решений относительно будущих школьных трат и приоритетов.
- School Performance — практика анализа данных с использованием данных из data.utah.gov о школьной успеваемости.
- School Performance 2 — использование Pandas для анализа школьной и ученической успеваемости в округе.
- School Performance 3 — Филадельфия Школа Performance.
- School Performance 4 — NJ Школа Performance.
- School Closure — определение школы, подверженной риску закрытия, по показателям успеваемости и другим характеристикам.
- School Budgets — инструменты и методы для школьного бюджетирования.
- School Budgets — инструменты и методы для школьного бюджетирования, вторая часть.
- PyCity — анализ школ.
- PyCity 2 — сопоставление школьного бюджета и школьных результатов.
- Budget NLP — классификация НЛП для бюджетных ресурсов.
- Budget NLP 2 — дальнейшая классификация упражнений.
- Budget NLP 3 — бюджетная классификация.
- Survey Analysis — анализ опроса в сфере образования.
9. Чрезвычайные ситуации
9.1. Профилактика
- Emergency Mapping — обнаружение разрушенных домов в Калифорнии.
- Emergency Room — поддержка принятия срочных решений.
- Emergency Readmission — скорректированный риск аварийной реадмиссии.
- Forest Fire — обнаружение лесного пожара с помощью изображений БПЛА с использованием CNN.
- Emergency Response — анализ аварийного реагирования.
- Emergency Transportation — транспортная подсказка на аварийные службы.
- Emergency Dispatch — сокращение времени отклика благодаря интеллектуальному моделированию, оптимизации и автоматизации.
- Emergency Calls — проект анализа экстренных вызовов.
- Calls Data Analysis — анализ данных звонков 911.
- Emergency Response — химический завод РЛ.
9.2. Преступления
- Crime Classification — анализ времени серьёзных нападений, неправильно классифицированных LAPD.
- Article Tagging — обработка естественного языка в новостной статье в Чикаго
- Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности
- Chicago Crimes — изучение публичных данных о преступлениях в Чикаго в Python
- Graph Analytics — гаагские преступления.
- Crime Prediction — классификация, анализ и предсказание преступности в городе Индор.
- Crime Prediction — разработаны прогностические модели уровня преступности.
- Crime Review — анализ данных обзора преступности.
- Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому.
- Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.
9.3. Скорая помощь
- Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория.
- Site Location — места расположения скорой помощи.
- Dispatching — применение теории игр и симуляции дискретных событий для нахождения оптимального решения диспетчеризации скорой помощи.
- Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего.
- Response Time — анализ улучшения времени отклика машины скорой помощи.
- Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи.
- Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.
9.4. Управление стихийными бедствиями
- Conflict Prediction — ноутбуки по прогнозированию конфликтов.
- Burglary Prediction — пространственно-временное моделирование для предсказания взломов.
- Predicting Disease Outbreak — прогнозирование вспышек заболевания.
- Road accident prediction — прогноз по типу жертв федеральных ДТП в Бразилии.
- Text Mining — управление стихийными бедствиями с использованием Text mining.
- Twitter and disasters — предсказание твитов о бедствиях.
- Flood Risk — влияние катастрофических наводнений.
- Fire Prediction — четыре алгоритма расчёта вероятности будущих пожаров.
10. Финансы
10.1. Торговля и инвестиции
- Deep Portfolio — предсказание объёма облигаций на основе глубокого обучения.
- AI Trading — современные методы торговли ИИ.
- Corporate Bonds — прогнозирование объёма покупки и продажи корпоративных облигаций.
- Simulation — исследование симуляции как части вычислительного финансирования.
- Industry Clustering — проект кластеризации отраслей по финансовым признакам.
- Financial Modeling — HFT-трейдинг и моделирование волатильности.
- Trend Following — фьючерсная тенденция после стратегии портфельных инвестиций.
- Financial Statement Sentiment — извлечение прогнозов из финансовой отчётности с использованием нейронных сетей.
- Applied Corporate Finance — изучение эмпирического поведения на фондовом рынке.
- Market Crash Prediction — прогнозирование рынка с использованием модели LPPL.
- NLP Finance Papers — составление количественных финансовых документов с использованием машинного обучения.
- ARIMA-LSTM Hybrid — гибридная модель для прогнозирования будущих коэффициентов ценовой корреляции двух активов.
- Basic Investments — основные инвестиционные инструменты в Python.
- Basic Derivatives — основные форвардные контракты и хеджирование.
- Basic Finance — исходные коды ноутбуков базовых финансовых приложений.
- Advanced Pricing ML — дополнительная реализация достижений в области финансового машинного обучения.
- Options and Regression — проект финансового инжиниринга для методов оценки опционов.
- Quant Notebooks — Обучающие ноутбуки по квантовым финансам, алгоритмической торговле и инвестиционной стратегии.
- Forecasting Challenge — задача финансового прогнозирования от G-Research.
- XGboost — торговый алгоритм, использующий XgBoost.
- Research Paper Trading — реализация стратегии на основе бумаги с использованием Alpaca Markets.
- Various — опции, распределение, моделирование.
- ML & RL NYU — машинное обучение и обучение в сфере финансов.
10.2. Данные
- Datastream — Datastrem от Thomson Reuters, доступный через Python.
- AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных.
- FSA — проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчётности.
- TradeConnector — связи с поставщиками рыночных данных.
- Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC.
- SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов.
- Open Edgar — OpenEDGAR.
- Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.
11. Здравоохранение
11.1. Общее
- zEpid — пакет эпидемиологического анализа.
- Python For Epidemiologists — учебное пособие по введению эпидемиологического анализа в Python.
- Prescription Compliance — анализ предписания и медицинского соответствия.
- Respiratory Disease — отслеживание респираторных заболеваний у спортсменов-олимпийцев.
- Bubonic Plague — бубонная чума и модель SIR.
12. Юстиция, закон и регламент
12.1. Инструменты
- LexPredict — контроль над своими контрактами.
- AI Para-legal — первый в мире ИИ-помощник адвоката.
- Legal Entity Detection — обнаружение юридического лица.
- Legal Case Summarisation — внедрение различных алгоритмов суммирования применительно к судебным решениям.
- Legal Documents Google Scholar — использование Google scholar для программного извлечения дел.
- Chat Bot — чат-бот и уведомления по электронной почте.
- Data Generator GDPR — генератор фиктивных данных для соответствия GDPR.
12.2. Политика и регулирование
- GDPR scores — прогнозирование показателей GDPR для юридических документов.
- Driving Factors FINRA — определение факторов, влияющих на решения арбитража FINRA.
- Securities Bias Correction — оценка влияния цены на судебные процессы по ценным бумагам.
- Public Firm to Legal Decision — публичная фирма для юридических решений.
- Night Life Regulation — ночная жизнь Австралии, её регулирование и полицейская деятельность.
- Comments — общественные комментарии по государственному регулированию.
- Clustering — кластеризация канадских правил.
- Environment — регулирование энергетики и окружающей среды.
- Risk — риск различных финансовых положений.
- FINRA Compliance — лучшее моделирование на соответствие.
12.3. Судебная практика
- Supreme Court Prediction — предсказание идеологического направления решений Верховного Суда.
- Supreme Court Topic Modeling — тематическое моделирование в Верховном суде.
- Judge Opinion — использование анализа текста и машинного обучения для анализа мнений судей по конкретным вопросам.
- ML Law Matching — производитель матчей по машинному обучению.
- Bert Multi-label Classification — мультибликовая классификация Берта.
13. Производство
13.1. Общее
- Green Manufacturing — Mercedes-Benz Greener соревнование на Kaggle.
- Semiconductor Manufacturing — анализ данных производственной линии Semiondutor.
- Smart Manufacturing — совместная работа по методологии моделирования.
- Bosch Manufacturing — производственный проект Bosch, Kaggle.
13.2. Техническое обслуживание
- Predictive Maintenance 1 — прогнозирование оставшегося срока использования авиационных двигателей.
- Predictive Maintenance 2 — время до отказа (TTF) или оставшийся срок полезного использования двигателя (RUL).
- Manufacturing Maintenance — моделирование обслуживания в производственных систем.
13.3. Ошибки
- Predictive Analytics — метод прогнозирования сбоев в оборудовании.
- Detecting Defects — обнаружение аномалий для дефектных полупроводников.
- Defect Detection — интеллектуальное обнаружение дефектов для производства таблеток.
- Manufacturing Failures — сокращение производственных сбоев.
- Manufacturing Anomalies — интеллектуальное обнаружение аномалий для производственной линии.
13.4. Качество
- Quality Control — обнаружение провалов в контроле качества.
- Manufacturing Quality — интеллектуальный прогноз качества производства.
- Auto Manufacturing — данные о продаже автомобилей на аукционе.
14. СМИ и издательство
14.1. Маркетинг
- Video Popularity — HIP-модель для прогнозирования популярности видео.
- YouTube transcriber — автоматически транскрибирует видео в YouTube.
- Marketing Analytics — маркетинговая аналитика, тематические исследования.
- Algorithmic Marketing — модели от введения до книги «Алгоритмический маркетинг».
- Marketing Scripts — приложения для маркетинга данных.
- Social Mining — майнинг социальных сетей.
15. Физика
15.1. Общее
- Gamma-hadron Reconstruction — инструменты, используемые в наземной астрономии гамма-излучений.
- Curriculum — ньютоновские ноутбуки.
- Interaction Networks — сети взаимодействия для изучения объектов, отношений и физики.
- Particle Physics — генерационный и аналитический код для изучения физики частиц.
- Computational Physics — хранилище вычислительной физики.
- Medical Physics — полезный Python для медицинской физики.
- Medical Physics 2 — общий, основной пакет Python для медицинской физики.
- Flow Physics — физика и аэроакустика с Python.
15.2. Машинное обучение
- Physics ML and Stats — машинное обучение и статистика для физиков.
- High Energy — машинное обучение для физики высоких энергий.
- High Energy GAN — генеративные состязательные сети для физики высоких энергий.
- Neural Networks — физика встречает нейронные сети.
16. Правительство
16.1. Социальная политика
- Triage — универсальный инструментарий по моделированию рисков и прогнозированию политических решений и социальных проблем.
- World Bank Poverty I — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности.
- World Bank Poverty II — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности, часть вторая.
- Overseas Company Land Ownership — определение иностранной собственности в Великобритании.
- CFPB — анализ жалоб Бюро по защите прав потребителей.
- Cannabis Legalisation Effect — влияние легализации каннабиса на преступность.
- Public Credit Card — идентификация потенциального мошенничества с кредитными картами.
- Recidivism Prediction — прозрачность и учёт оценки риска рецидивизма.
- Household Poverty — предсказание бедности домохозяйств в Коста-Рике.
- NLP Public Policy — пример варианта использования НЛП в публичной политике.
- World Food Production — сравнение ведущих производителей продуктов питания и кормов по всему миру.
- Tax Inequality — проект данных о налогообложении и неравенстве в Базеле.
- Sheriff Compliance — соответствие требованиям ICE.
- Apps Detection — обнаружение подозрительных приложений для детей.
- Social Assistance — актуальная информация о социальной помощи.
- Computational Social Science — курс летних школьных наук по социальным данным.
- Liquor and Crime — влияние спиртных напитков на уровень преступности.
- Animal Placement Kennels — оптимизация размещения животных в приютах.
- Staffing Wall — независимый исследовательский проект на мексиканской границе США.
- Worker Fatalities — карта несчастных случаев на производстве по данным OSHA.
16.2. Благотворительность
- Census Data API — извлечение переменных из пятилетнего опроса американского сообщества.
- Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности.
- Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.
16.3. Анализ выборов
- Election Analysis — анализ выборов и модели прогнозирования.
- American Election Causal — использование данных ANES с моделями причинно-следственных связей.
- Campaign Finance and Election Results — изучение связи между финансированием кампании и результатами последующих выборов.
- Voting System — методы голосования пропорционального представительства.
- President Vote — голосование по анализу уровня доходов.
16.4. Политика
- Congressional politics — палата представителей конгресса США.
- Politico — платформа для профилирования общественных деятелей в бразильской политике.
- Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов.
- Gerrymander tests — множество метрик для количественной оценки Gerrymandering.
- Sentiment — анализ газет на предмет их политической убеждённости с использованием субъективных настроений представителей партии.
- DL Politics — сравнение социалистической партии против народной в Бразилии.
- PAC Money — влияние денег PAC на политику США.
- Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей.
- Elite — политическая элита в США.
- Debate Analysis — программа для анализа политических дебатов.
- Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter.
- Political Ads — расследование в Facebook политических объявлений и таргетинга.
- Political Identity — многоосная политическая модель политической идентичности.
- YT Politics — отображение политики на YouTube.
- Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.
17. Недвижимость, аренда и лизинг
17.1. Недвижимость
- Finding Donuts — прогнозировании окрестностей.
- Neighbourhood — прогнозирование цен на недвижимость в городе.
- Real Estate Classification — классификация типа имущества с учётом недвижимости, спутниковой связи и просмотра улиц.
- Recommender — рекомендательная система топ-5 объектов недвижимости, которые соответствуют поиску пользователя.
- House Price — предсказание цены дома с использованием линейной регрессии и GBR.
- House Price Portland — предсказание цены на жильё в Портленде.
- Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.
17.2. Аренда и лизинг
- Analyzing Rentals — анализ и визуализация данных списков аренды.
- Interest Prediction — предсказание интереса людей к аренде конкретных квартир в Нью-Йорке.
- Housing Uni vs Non-Uni — The effect on university lodging after the GFC.
- Predict Household Poverty — прогнозирование бедности домохозяйств в Коста-Рике.
- Airbnb public analytics competition — конкурс публичной аналитики Airbnb.
18. Коммунальные услуги
18.1. Электроэнергия
- Electricity Price — сравнение цен на электроэнергию в Сингапуре.
- Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие.
- Electricity Capacity — анализ Los Angeles Times анализа дорогостоящей электроэнергии в Калифорнии.
- Electricity Systems — оптимальная система электроэнергии для европейских стран.
- Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям.
- Price Forecasting — прогнозирование цен на электроэнергию на сутки вперёд в немецкой зоне торгов с глубокими нейронными сетями.
- Carbon Index — расчёт интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года по настоящее время.
- Demand Forecasting — прогнозирование спроса на электроэнергию в Остине.
- Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств.
- Household power consumption — индивидуальное потребление электроэнергии в домашних хозяйствах.
- Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE).
- Renewable Power Plants — временные ряды совокупной установленной мощности.
- Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключённых к FUSED-Wind.
- Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за шесть лет (с 2006 по 2011 год).
18.2. Уголь, нефть и газ
- Coal Prediction — прогнозирование добычи угля.
- Oil & Gas — прогноз цены на нефть и природный газ с использованием ARIMA и нейронных сетей.
- Gas Formula — расчёт потенциального экономического эффекта формулы индексации цен.
- Demand Prediction — прогноз спроса на природный газ.
- Consumption Forecasting — прогнозирование потребления природного газа.
- Gas Trade — мировая модель торговли природным газом.
18.3. Загрязнение воды
- Safe Water — предсказание нарушения качества питьевой воды, основанное на здоровье людей в США.
- Hydrology Data — набор удобных функций для изучения данных о воде в Python.
- Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений.
- Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках.
- Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов.
- Drought Restrictions — анализ использования воды в Лос-Анджелесе.
- Flood Prediction — применение LSTM к данным об уровне воды в реке.
- Sewage Overflow — анализ санитарных переливов (SSO).
- Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.
18.4. Логистика
- Transdim — создание точных и эффективных решений для задач расчёта и прогнозирования пространственно-временных данных потоков трафика машин.
- Transport Recommendation — контекстно-зависимая рекомендация по мультимодальной транспортировке.
- Transport Data — данные и ноутбуки для транспорта Торонто.
- Transport Demand — прогнозирование спроса на общественный транспорт в Найроби.
- Demand Estimation — внедрение динамической оценки спроса отправителя-получателя.
- Congestion Analysis — анализ транспортных систем.
- TS Analysis — анализ временных рядов по транспортным данным.
- Network Graph Subway — анализ уязвимости для транспортных сетей.
- Transportation Inefficiencies — количественная оценка неэффективности транспортных сетей.
- Train Optimisation — оптимизация расписания поездов.
- Traffic Prediction — прогнозирование городского трафика.
- Predict Crashes — прогнозирования сбоев, использующее несколько источников данных.
- AI Supply chain — система оптимизации цепочки поставок.
- Transfer Learning Flight Delay — использование вариационных кодеров в Keras для прогнозирования задержки полёта.
- Replenishment — код для управления цепочкой поставок.
19. Оптовая и розничная торговля
19.1. Оптовая торговля
- Customer Analysis — анализ оптовых клиентов.
- Distribution — JB-оптовый анализ распределения.
- Clustering — кластеризация данных о затратах на продукт, собираемым для клиентов.
- Market Basket Analysis — публичный набор данных Instacart с информацией о том, какие продукты часто покупаются вместе.
19.2. Розничная торговля
- Retail Analysis — онлайн набор данных о розничной торговле.
- Online Insights — анализ онлайн-транзакций в Великобритании.
- Retail Cohort — когортный анализ.
На этом наш материал о применении ML и DS в промышленности подошёл к концу. Надеюсь, вы узнали для себя что-нибудь новое. Не забудьте поделиться с коллегами. Также если у вас есть то, чем вы можете поделиться сами, — пишите в комментариях.
Больше информации о машинном обучении и Data Science в Telegram-канале.
Всем знаний!