OSDev

для всех
Текущее время: 28 мар 2024, 14:12

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу Пред.  1, 2, 3, 4, 5  След.
Автор Сообщение
СообщениеДобавлено: 26 май 2012, 16:31 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
Ноутбуки класса домашний комплектуются двумя видюхами, причём переключение между ними иногда при переходе из режима от сети к аккамулятору, значит там энергопотребление больше. Так же как уже говорил встроенный ГП даёт параллельные процу вычисления.

Если не играеш в игры то навороченная видюха вовсе не нужна и можно взять комп класса оффис с одной встроенной интеловской, причём для игр она не подходит только сильно требовательных, а это 10% от всех игр.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 26 май 2012, 16:59 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
Кстати Intel Ivy Bridge обещает прирост производительности видео. Графика процессоров Ivy Bridge получит поддержку DirectX 11
"Турецкий ресурс Donanimhaber.com сообщает о том, что поддержка технологии DirectX 11 появится в 22-нм процессорах Ivy Bridge, анонс которых должен состояться ближе к концу следующего года. Вычислительные резервы IGP Ivy Bridge наверняка позволят запускать игры поколения DirectX 11 с вменяемым значением FPS."


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 26 май 2012, 18:30 

Зарегистрирован: 28 окт 2007, 18:33
Сообщения: 1418
У меня он как раз на тестирование лежит. Займусь, вероятно, на следующей неделе.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 14:06 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
Заходил сегодня на конференцию SoftLine и Intel. В отличие от прошлой было продемонстрировано устройство под названием Knights Corner, сопроцессор с тактовой частотой в 1ТФлопс и 50 ядрами на шине PCIE, я не отказался бы от такого дополнительного прироста производительности. Рассказали про смартфоны на intel Atom, на нем запускали несколько ОС кстати и обещали, что многие бренды уже готовят свои версии смартфонов на этой платформе. Хотя смысл был один и тот же, продвигали компилятор с возможностью распараллеливать задачи на CPU и GPU плюс новый сопроцессор.
Я задал вопрос, будет ли более производительна их система на ОС с многозадачностью реального времени, вопрос не был понят, хотя как я понял в линуксе сделать компилятор было проще. Если многозадачность ОС не будет разбивать задачу на части а целиком отправит на несколько свободных ядер, то мне кажется будет поудачнее, кстати говорили, что у Intel сон процессоров в спящем режиме у смартфонов будет крепче чем у ARMов и появится новая тема о энергосбережении.
Кстати из разговора я понял, что мою ОС и меня узнали, я был в шоке.
Сегодняшняя конференция мне понравилась больше, компилятор похоже действительно рулит и кстати известен на весь мир, и превосходит существующие. Обычные компиляторы получается не позволяют воспользоваться многопроцессорностью


Последний раз редактировалось Станислав 05 сен 2012, 04:15, всего редактировалось 1 раз.

Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 15:40 
Аватара пользователя

Зарегистрирован: 16 май 2007, 23:46
Сообщения: 1126
Ну и вопрос вы задали. Сходы и не поймёшь о чём он.
Сами подумайте как связанно реальное время и производительность?
По поводу ОС это вообще не её заботы. Вернее она могла бы что-то делать, но пока никто не придумал что. А выбор точек распаралеливания это удел компилятора и программиста.


На данный момент наблюдаем что все производители создают системы.
N - Ядер, K - потоковых обработчиков, M данных на команду.
На видео картах
N=4
K=16
M=16
интел
N=50
k=1-4 ???
M=16 ???
Итого 1024 прирост. Т.е на данный момент нет лидирующего направления.

по K,M как раз паралелится компилятором. А вот ОС по N может расскидывать задание, т.е её функция минимальна.

Что-то твои интеловци толи сами не втеме толи воду мутят.
Им надо делать моментальный перекомпилятор.
Мы имеем комьютер с разными процесорными архитектурами.
Вот им и нужно во время запуска произвести перекомпиляцию. При запуске будешь терять секуд 10. Но зато потом будет быстрый прирост.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 15:54 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
Заложенный прирост на ПК с присутствием доп CPU GPU будет присутствовать, а при их отсутствии будет тоже работать нормально. Про наследственность тоже говорили, обещали нормальную работоспособность древних программ на новых смартфонах.
Мне почему то кажется, что многозадачность влияет на производительность, причём больше, чем распаралеливание, т.к. ОС может остановить задачу и решит, что должна работать другая программа.
Кстати были представлены инструменты для отладки, которые показывали как выполняется задачи на каждом ядре и можно было посмотреть например ждут ли ядра одного ядра или загруженность ядер, чем равномернее загружены, тем лучше.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 16:07 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
pavia писал(а):
На данный момент наблюдаем что все производители создают системы.
N - Ядер, K - потоковых обработчиков, M данных на команду.
На видео картах
N=4
K=16
M=16
интел
N=50
k=1-4 ???
M=16 ???
Итого 1024 прирост. Т.е на данный момент нет лидирующего направления.

по K,M как раз паралелится компилятором. А вот ОС по N может расскидывать задание, т.е её функция минимальна.

Схема весьма объясняющая, только не понятно про 1024 и что за видео карта


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 17:26 

Зарегистрирован: 26 мар 2012, 17:32
Сообщения: 209
pavia писал(а):
по K,M как раз паралелится компилятором.

really? По M ещё куда ни шло, но по K реальных результатов нет. Есть всякие OpenMP, Intel CILK, но там много надо ручками указать, сам компилятор тут ничего не рас-//-ит. В случае Cuda|OpenCL компилятор раскинет по K, но там а) "ядра" синхронные, это очень важно б) всё равно надо много ручками указывать.
Ну и сами <N,K,M> как-то с потолка взяты, да ещё и без учёта всяких особенностей типа NUMA (а учитывать их надо, чтобы потом не удивляться (пример вот из жизни) "почему на 16 ядрах прирост производительности всего порядка 3" ).

pavia писал(а):
моментальный перекомпилятор.
Аж чаем поперхнулся. В общем, рекомендую прочесть про JIT и Binary translation, дабы потом уверенно использовать термины.

Станислав писал(а):
с тактовой частотой в 1ТФлопс
ОМГ. Нет, не тактовой частотой.

Станислав писал(а):
Обычные компиляторы получается не позволяют воспользоваться многопроцессорностью
Автоматически воспользоваться многопроцессорностью никакой компилятор не позволяет воспользоваться. Всякие HPF и языки с решётками померли, не успев родиться. А OpenMP, *MPI и прочее - от компилятора мало зависит, но а) требует много ручной работы б) результат плохо масштабируется.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 04 сен 2012, 18:32 
Аватара пользователя

Зарегистрирован: 16 май 2007, 23:46
Сообщения: 1126
Видео карта ATI 6750.

Хотя это не принципиально.
Первые видео карты умели выводить текстурированные треугольники. Правильное текстурированные требует деления. А деление выполнялось несколько тактов. Поэтому для ускорения применяют интерполяцию, короче одинаковые пиксели группируются в блоки по 16 пикселей.

Отсюда появились MMX который развился в SSE, а тот в AVL.
На видео картах это вылилось, в то что над 4 соседними пикселями выполняется одна операция. А так как в пикселе 4 канала RGBA, и операции однородные то и группируют данные в блок по 16 и выполняют 1 операцию.

Затем для спец эффектов NVIDIA предложила комбинировать операции. В последствие эта технология была переименовала в шейдеры.
Технологически это решалась в виде
Код:

   +---+   +---+   +---+
->|op1|->|op2|->|op3|->результат
   +---+   +---+   +---+


Поток или конвеер. Идея не новая.
Отсюда взялась потоковая обработка.
У Intеl к этому времени уже давно была своя технология. Они могли исполнять параллельно несколько команд, за счёт переупорядывачивания. Архитектурно это провал. Так как более чем 4-6 команд они не могут исполнять.
В отличие от архитектуры видео карты где такой поток спокойно наращивается. Сейчас 16 или 32.

Но у Intel есть плюс в них первоначально были заложены условные переходы и циклы. Виде карта на это не была рассчитана. Она могла выполнить достаточно сложную формулу много раз.
Циклы и условные переходы приходилось выполнять при помощи центрального процессора.

Следующий шаг был создание ядер. Intel пошла простому она взяла свой процессор и продублировало. Получила что может исполнять много разных потоков. Проблема ядер это синхронизация. Причем не только аппаратных но и программных. Разделить код по ядрам значительно труднее. Эффективность проявляется при достаточно больших циклах.

А вот в видеокартах ядра потребовались именно для эффективной реализации условных переходов. Но проблемы синхронизации остались.
Ядро - это группа вычислителей которая может работать независимо от других.
Наращивать число ядер физически можно.
Но у intel будут проблемы при конструирования компилятора. У них процессор не выполняет команды заданное число тактов, умудрились они это как-то сделать. Так что им долго надо будет всё тестировать. А вот видео карта выполняет команды заданное число тактов.

При разработки компилятора лучше физические ядра сгруппировать и использовать как расширение пакета данных одной инструкцией (ак MMX). Т.е регистры разных ядер использовать как один большой регистр.

А вообще говорят что LLVM для CUDA сделали. Вот SIMD оптимизацию доделают так хана интернетовскому компилятору.
Цитата:
Аж чаем поперхнулся.
А я за русские термины. :)

PS. Голова болит, болею.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 05 сен 2012, 04:50 
Заблокирован

Зарегистрирован: 28 окт 2011, 12:14
Сообщения: 555
Откуда: Новосибирск
Процессор нужен для последовательного выполнения кода, а графический для параллельных расчётов пикселей и на нём может быть больше транзисторов чем на всех, например 4 ядрах вместе взятых. http://www.ixbt.com/video3/cuda-1.shtml
В принципи там где нужно рассчитать много элементов и есть возможность это делать параллельно это ооочень ускоряет.
Цитата:
Но у Intel есть плюс в них первоначально были заложены условные переходы и циклы. Виде карта на это не была рассчитана. Она могла выполнить достаточно сложную формулу много раз.
Циклы и условные переходы приходилось выполнять при помощи центрального процессора.

Разные принципы работы оказывается.


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу Пред.  1, 2, 3, 4, 5  След.

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 5


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB