Дешевые процессоры Intel получили «фишки» дорогих. Какие процессоры поддерживают avx

Лучшим в средней ценовой категории является Xeon Gold 6240. Этот приемный процессор LGA3647 имеет 18 ядер и выполнен по техпроцессу 14 нм. Кроме того, он имеет отличные частотные характеристики.

Intel добавит в CPU инструкции для глубинного обучения

Некоторые новейшие процессоры Intel поддерживают семейство векторных команд AVX-512. Они выполняются блоками по 512 бит (64 байта). Преимущество материальной поддержки этих больших команд заключается в том, что процессор может обрабатывать больше данных за тактовый цикл.

Если код загружен 64 битами (8 байтами) слов, он теоретически может работать в восемь раз быстрее, используя команды AVX-512, если не учитывать другие факторы.

Расширение AVX-512 к системе команд X86 включает восемь регистров масок, упакованные 512-битные формы для целых и дробных чисел и действий, тонкое управление режимами округления (возможность глобальных настроек), отправка фейдов, подавление дробных чисел, подавление плотности и Поддерживает концентрацию. /распределенное действие, быстрое математическое действие, компактное кодирование больших перемещений.

Оригинальный AVX-512 имеет восемь групп команд.

  • AVX-512 Conflict Detection Instructions (CDI)
  • AVX-512 Exponential and Reciprocal Instructions (ERI)
  • AVX-512 Prefetch Instructions (PFI)
  • AVX-512 Vector Length Extensions (VL)
  • AVX-512 Byte and Word Instructions (BW)
  • AVX-512 Doubleword and Quadword Instructions (DQ)
  • AVX-512 Integer Fused Multiply Add (IFMA)
  • AVX-512 Vector Byte Manipulation Instructions (VBMI)

Конечно, не весь код можно преобразовать в векторные команды, но Даниэлю Лемиру, профессору информатики в Университете Квебека, даже не нужно делать это со всем кодом. Он говорит, что важно оптимизировать «горячий код», который занимает больше всего ресурсов процессора. Во многих системах горячий код создается в серии циклов, которые выполняются миллиарды раз. Именно в этой точке она должна быть оптимизирована, и в этом ее главное преимущество.

Например, если такой Python-код перекомпилировать стандартными 64-битными командами на AVX-512 с использованием MKL Numpy, то время выполнения сокращается с 6-7 секунд до 1 секунды на том же процессоре.

Введение np.random.seed (1234) xx = np.random.rand (1000000).reshape (1000, 1000) %timeit np.linalg.eig (xx)

Аппаратная поддержка глубинного обучения

Нейронные сети и глубокое обучение — один из самых ярких трендов последнего времени. Google, Facebook и другие крупные компании стараются применять нейронные сети везде, где это возможно. Рекомендуемые системы включают распознавание лиц, перевод текста, распознавание речи, классификацию фотографий и даже настольные игры, такие как GO (хотя это делается по общественным соображениям. (не для коммерческой выгоды). Некоторые пытаются применить глубокое обучение в таких нетрадиционных областях.

В настоящее время среди инвесторов бизнес-капитала существует понимание того, что наиболее эффективным планом быстрого обогащения является создание Start -Up бизнеса, который быстро покупается одной из компаний «большой пятерки» (Facebook, Google, Apple, Microsoft, Amazon).. Поскольку эти предприятия жестко конкурируют за новейшие таланты, Start -Up предприятия конкурируют быстро и по высокой цене — не менее 10 миллионов долларов США за одного сотрудника. Такое бизнес-планирование становится еще проще, когда компании распространяют инструменты роста с открытым исходным кодом, как это сделала Google с Tensorflow.

К сожалению для Intel, компания стоит в очереди и практически не участвует в игре. Профессор Лемир признает, что графические процессоры Nvidia в настоящее время являются образцом для индустрии. Они выполняют код машинного обучения.

Инженеры Intel не остались в стороне от этой тенденции. Просто сами графические процессоры лучше подходят для вычислений глубокого обучения, без специальных команд.

Однако Intel готовит контратаку, которая может переломить ситуацию. В сентябре компания опубликовала новый справочник по программированию Intel Architecture Instructions Set Extens со всеми командами, поддерживаемыми будущими процессорами. Документ является приятным сюрпризом. Вы увидите, что семейство команд AVX-512 было разделено и расширено на различные группы.

Статья по теме:  Проблема высокой загрузки памяти системным файловым кэшем на Windows Server 2008 R2. Rammap как очистить память

В частности, есть две группы команд, нацеленные на глубокое обучение: AVX512_4VNNIW и AVX512_4FMAPS. судя по описанию, эти инструкции полезны не только для глубокого обучения, но и для многих других задач.

  • AVX512_4VNNIW: Vector instructions for deep learning enhanced word variable precision
  • AVX512_4FMAPS: Vector instructions for deep learning floating-point single precision

Сегодня я хотел бы поговорить о том, что такое команды AVX в процессоре и где они используются.

Средний покупатель приходит в магазин и хочет купить компьютер/ноутбук для работы или игр. На самом деле, мощнее и дешевле писать текстовые отчеты, а потом играть в игры. Что касается процессоров, то на прилавках лежат злые бревна, приравниваемые к альфа-тройкам. Является ли i3 маркетинговым заговором? Действительно ли Pentium «дешевеет сам»? И да, и нет. И в этом вся суть.

Для написания работы на WordPress достаточно самого дешевого Celeron (а если брать его на открытом рынке с доказательствами и оставшейся гарантией, то «процессорная вилка» может сделать еще дешевле). Если вы хотите играть во все игры после сочинения, подойдет Pentium с некоторыми возможностями A-3id (два ядра, четыре потока). Команды AVX не требуются для игр (если доступны команды SSE).

Для профессиональной работы желательно получить третий, минимальный I-RD, так как он полезен для виртуализации материала и поддержки AVX-команд.

Почему существуют команды AVX?

Улучшения

  • Новая схема кодирования инструкций VEX
  • Размер векторных регистров SIMD увеличивается со 128 (XMM) до 256 бит (регистры YMM0 — YMM15). Существующие 128-битные SSE инструкции будут использовать младшую половину новых YMM регистров, не изменяя старшую часть. Для работы с YMM регистрами добавлены новые 256-битные AVX инструкции. В будущем возможно расширение векторных регистров SIMD до 512 или 1024 бит.

В новой системе кодирования VEX используется префикс VEX. В настоящее время существует два префикса VEX: 2-байтовый и 3-байтовый. Для 2-байтового префикса VEX первый байт — 0xc5, а для 3-байтового префикса — 0xc4. В 64-битном режиме первый байт префикса VEX уникален. В 32-битном режиме существует конфликт с командами LES и LDS. Это важно только при 64-битной работе через неправильно сформированные команды LES и LDS. Длина существующих AVX-команд вместе с префиксом VEX не превышает 11 байт. Другие инструкции ожидаются в будущих версиях.

Теперь, когда мы знаем, когда можно использовать команду AVX, пришло время использовать ее. Программирование команд AVX не сильно отличается от программирования с помощью других наборов команд, но есть несколько моментов, о которых следует помнить.

Дешевые процессоры Intel получили «фишки» дорогих

Экономичные портативные процессоры Intel Pentium и Celeron семейства Tiger Lake имеют частичную поддержку команды AVX2 и AVX -512, а также частичную поддержку других «флагманских» функций — фишек, которые ранее были реализованы в более дорогих продуктах Является. Ядро микросхемы.

Последние мобильные процессоры Intel начального уровня поддерживают большинство «передовых» технологий, используемых в самых дорогих чипах Core Tiger Lake. В частности, Celeron 6305/6305E и Pentium Gold 7505 включают расширение системы команд AVX2 и одно из расширений AVX-512.

Как отмечает Tom’s Hardware, процессоры Celeron и Pentium Gold для недорогих ноутбуков, как правило, используют ядро одного поколения и точно такое же высокопроизводительное ядро. Intel намеренно ограничивает производительность различных «продвинутых» функций в чипах более низкой технологии, что приводит к низкой производительности в некоторых приложениях и создает проблемы для разработчиков программного обеспечения.

Статья по теме:  Nmm менеджер ведьмак 3. The witcher 3 mod manager как установить

Выбор такого подхода обусловлен маркетинговыми причинами. Таким образом, компания пытается более четко разграничить свою продукцию в различных ценовых сегментах.

int600.jpg

Новые ноутбуки Celeron и Pentium Gold поддерживают «передовые» технологии самых дорогих моделей

Выпустив новые недорогие модели своих ноутбуков 11-го поколения, Intel, похоже, решила отказаться от этой пагубной практики.

Различия стираются

Новые Celeron 6305 и Pentium Gold 7505 — это двухъядерные процессоры с базовой частотой 1,8 ГГц и 2 ГГц соответственно (последний поддерживает гиперпоточность), 4 МБ и двухканальными контроллерами памяти DDR4-3200 и LPDR. 4X-3733 кэш.

В отличие от предыдущих поколений процессоров Celeron и Pentium Gold, новые модели поддерживают AVX2, Deep Learning Boost (с использованием команд VNNI из набора AVX-512), Intel Gaussian и Neural Материал Accelerator 2.0 AI прилагается.

Кроме того, Intel Celeron 6305 и Pentium Gold 7505 оснащены графикой на базе архитектуры Intel XE-LP с 48 блоками исполнения. Таким образом, ноутбук Tom’s hardware справляется с графикой лучше, чем чипы Intel Core i7 предыдущих лет с графикой Iris Pro, и даже поддерживает до четырех экранов. Кроме того, новые Celeron и Pentium семейства Tiger Lake оснащены интерфейсом Thunderbolt 4. Наконец, Pentium Gold 7505 впервые включает поддержку Turbo Boost 2.0, который автоматически увеличивает скорость до 3,5 ГГц.

Однако при сравнении с последней моделью ядра семейства Tiger Lake — Core I3-1110G4 — на инновационном начальном уровне, первая все же выигрывает по многим параметрам. У «3» значительно выше тактовая частота (2,5 ГГц и 3,9 ГГц в режиме «Turbo»), более вместительный кэш (6 МБ), поддерживается более быстрая оперативная память LPDDR4X-4267 и поддерживается интерконнект PCIE 4.0. Кроме того, Core I3-1110G4 поддерживает больше команд AVX-512, что повышает производительность в приложениях, которые их используют.

Старт линейки Tiger Lake

Intel анонсировала первые процессоры 11-го поколения в серии Tiger Lake в начале сентября 2020 года. По словам компании, новые чипы для ноутбуков в несколько раз опережают конкурентные решения AMD в играх, графических процессорах и офисном ПО.

Первоначальная команда процессоров Intel Tiger Lake состояла из девяти ноутбуков: три ядра i7, два ядра i5 и четыре ядра i3. Семь из них имеют четыре ядра и поддерживают восемь потоков, в то время как два других (Core I3-1110G4 и Core I3-1115G4) имеют только два ядра и четыре потока.

Все процессоры серии имеют относительно низкий TDP — до 28 Вт, хотя у младших моделей он не превышает 15 Вт. Все новые модели отличаются увеличенным кэшем L3 (6-12 МБ) и поддерживают оперативную память DDR4-3200 и LPDDR4X 3733 или 4266.

Intel утверждает, что ее процессоры Tiger Lake обеспечивают на 20% лучшую производительность в реальной офисной работе по сравнению с AMD Ryzen 7 4800U.

Компания также обещает до 2,7 раз более высокую производительность обработки по сравнению с конкурентными решениями, а также вдвое большую скорость редактирования видео.

Intel сравнила производительность видеокарты Vega 8 на Ryzen 7 4800U с производительностью Xe на флагмане Core i7 в различных современных играх, включая Fortnite, The Witcher 3 и GTA V. В любом случае, процессоры AMD значительно отставали от конкурентов.

Новая система кодирования VEX предоставляет новый набор кодов предварительного нагрева, который расширяет пространство возможных кодов машины. Добавлены дополнительные команды, содержащие три или более операторов. Регистраторы SIMD-векторов могут превышать 128 бит.

Расширенные векторные расширения 2

Advanced Vector Extensions 2 (AVX2), также известные как Haswell New Instructions, являются расширением общего количества команд AVX, представленных в микрочипике Intel Haswell. AVX2 добавляет следующее

  • расширение большинства векторных целочисленных инструкций SSE и AVX до 256 бит
  • Получите поддержку, позволяющую загружать векторные элементы из несмежных ячеек памяти
  • DWORD- и QWORD-гранулярность от любого к любому перестановки
  • векторные сдвиги.
Статья по теме:  Флэш — самый быстрый человек на земле. Как флеш стал быстрым

Другое расширение может считаться частью AVX2, используя другой флаг CPUID. Эти инструкции приведены на отдельной странице, а не ниже.

Новые инструкции

Процессоры с AVX2

  • Intel
    • Процессор Haswell (только под брендами Core и Xeon), второй квартал 2013 г.
    • Процессор Haswell E, третий квартал 2014 г.
    • Процессор Broadwell, 4 квартал 2014 г.
    • Процессор Broadwell E, третий квартал 2016 г.
    • Процессор Skylake (только под брендами Core и Xeon), третий квартал 2015 г.
    • Процессор Kaby Lake (только под брендами Core и Xeon), третий квартал 2016 года (ULV для мобильных устройств) / первый квартал 2017 года (для настольных компьютеров / мобильных устройств)
    • Процессор Skylake-X, второй квартал 2017 г.
    • Процессор Coffee Lake (только под брендами Core и Xeon), 4 квартал 2017 г.
    • Процессор Cannon Lake, второй квартал 2018 г.
    • Процессор Cascade Lake, второй квартал 2019 г.
    • Процессор Ice Lake, третий квартал 2019 г.
    • Процессор Comet Lake (только под брендами Core и Xeon), третий квартал 2019 г.
    • Процессор Tiger Lake (под брендами Core, Pentium и Celeron), третий квартал 2020 г.
    • Процессор Rocket Lake, первый квартал 2021 года
    • Переработчик Alder Lake, 2021 г.
    • Процессоры Gracemont, 2021 г.
    • Экскаваторный процессор и новее, второй квартал 2015 г.
    • Процессор Zen, первый квартал 2017 г.
    • Процессор Zen +, второй квартал 2018 г.
    • Процессор Zen 2, третий квартал 2019 г.
    • Процессор Zen 3, 2020 г.
    • Nano QuadCore
    • Eden X4

    AVX-512

    AVX-512 — это 512-битное расширение 256-битных SIMD Advanced Vector Extensions командной архитектуры X86, предложенное Intel в июле 2013 года и поддерживаемое процессором Intel Knights Landing. AVX-512.

    Команды AVX-512 кодируются с новым префиксом EVEX. Он позволяет использовать четыре оператора, восемь новых 64-битных регистраторов масок, автоматический режим памяти передачи, явный контроль округления и методы сжатия памяти смещения. Ширина регистрового файла увеличивается до 512 бит, а общее количество регистраторов увеличивается до 32 (регистры ZMM0-ZMM31) в режиме X86-64.

    AVX-512 состоит из различных расширений и не обязан поддерживать все процессоры, реализующие их. Набор команд состоит из.

    Для всех реализаций требуется только расширение ядра AVX-512F (AVX-512 Foundation), но все процессоры сегодня поддерживают CDS (обнаружение столкновений). BW, IFMA, VBMI, VPOPCNTDQ, VPCLMULQDQ и др.

    AVX-512F обновленные SSE / AVX команды используют те же мнемоники, что и AVX версия и работают с 512-битными регистрами ZMM, 128 /256-битными регистрами XMM / YMM (AVX-512VL) и целыми числами, словами, двойными словами и четвертными словами (AVX-… 512BW / DQ и с VBMI).

    Процессоры с AVX-512

    Компиляторы, поддерживающие AVX-512

    • GCC 4.9 и новее
    • Clang 3.9 и новее
    • ICC 15.0.1 и новее
    • Компилятор Microsoft Visual Studio 2017 C ++

    AVX-VNNI

    AVX-VNNI — это VEX-вариант расширения набора команд AVX512-VNNI. Он предлагает тот же набор функций, но ограничен 256-битными векторами и не поддерживает дополнительные функции кодирования EVEX, такие как трансляция, регистратор OPMASK и доступ к более чем 16 регистраторам векторов. Это расширение позволяет поддерживать функции VNNI, даже если процессор не реализует полную поддержку AVX-512.

    Процессоры с AVX-VNNI

    Эта модель AMD пользуется популярностью у покупателей. Он имеет слот SP3 типа LGA и 16 ядер. В характеристиках процессора также выделяются 14 нм технология производства, тактовая частота 2,1 ГГц и максимально допустимый объем памяти 2048 Гб.

    Заключение

    В этой статье было показано, как разрабатывать программы с использованием набора команд AVX. Надеюсь, эти знания помогут вам иметь счастливых пользователей с программами, которые используют всю мощь вашего компьютера!

    Этот конкретный код в подпрограмме VEC4_DOT_AVX не является оптимальным с точки зрения производительности. Пожалуйста, попробуйте переписать его более оптимальным способом. Какова была задержка, зависящая от данных?

Оцените статью
emugame.ru