bookmate game
ru
Анналин Ын,Кеннет Су

Теоретический минимум по Big Data. Все что нужно знать о больших данных

Notify me when the book’s added
To read this book, upload an EPUB or FB2 file to Bookmate. How do I upload a book?
  • Андрей Алексеевhas quoted3 years ago
    Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
  • Catherinehas quoted3 years ago
    Процент верных прогнозов. Простейшая мера точности прогнозирования — это доля достоверно правильных предсказаний. Вернемся к примеру с гастрономическими покупками из табл. 1. Мы можем выразить результаты задачи по предсказанию покупки рыбы в таком утверждении: Наша модель с точностью 90 % предсказывает, будет ли покупатель брать рыбу. Хотя эта метрика не так сложна для понимания, она не дает представления о том, где именно происходят ошибки прогнозирования.
  • Catherinehas quoted3 years ago
    Одним из способов держать под контролем сложность модели является введение штрафного параметра в процессе регуляризации. Этот новый параметр штрафует модель за сложность, искусственно увеличивая погрешность и этим побуждая алгоритм находить оптимальное соотношение точности со сложностью. Тем самым сохраняя простоту модели, мы можем обеспечить ее масштабируемость.
  • Catherinehas quoted3 years ago
    На рис. 2, с алгоритм, наоборот, слишком нечувствителен и основные закономерности упустил. Эта проблема известна как недообучение (underfitting).
  • Catherinehas quoted3 years ago
    На рис. 2, а алгоритм слишком чувствителен и принимает случайные отклонения данных за закономерности. Эта проблема известна как переобучение (overfitting).
  • Catherinehas quoted3 years ago
    Регрессия предполагает выведение линии тренда, а классификация — разделение элементов данных на группы.
  • Catherinehas quoted3 years ago
    Когда мы предсказываем целые или непрерывные числа, такие как количество фруктов, мы решаем проблему регрессии (рис. 1, а). А когда мы предсказываем бинарное или категориальное значение, например, пойдет ли дождь, мы занимаемся проблемой классификации (рис. 1, b).
  • Catherinehas quoted3 years ago
    Лувенский метод — один из способов определения кластеров сети. Он подбирает различные кластерные конфигурации, чтобы: 1) максимизировать число и силу связей между узлами в одном кластере; 2) минимизировать при этом связи между узлами различных кластеров. Степень удовлетворения этим двум условиям известна как модулярность (modularity), и более высокая модулярность — признак более оптимальных кластеров.
  • Catherinehas quoted3 years ago
    Такое исследование включает четыре ключевых шага. Сначала обрабатываются и подготавливаются данные. Потом составляется краткий перечень соответствующих исследованию алгоритмов. Затем для улучшения результатов настраиваются параметры этих алгоритмов. И наконец, строятся модели для выбора лучшей из них.
  • Андрей Килуновhas quoted3 years ago
    Приближение. Если пропущено значение бинарного или категориального типа, его можно заменить самым типичным значением (модой) переменной. А для целочисленных или непрерывных переменных используется медиана. Применение этого метода к табл. 1 позволит нам предположить, что кот приобрел 5 фруктов, поскольку, согласно остальным семи записям, именно таково среднее число покупаемых фруктов
fb2epub
Drag & drop your files (not more than 5 at once)