Постдокторантура

GeneROOT – иновативни подходи в биоинформатиката

Анотация

Извличането на човешкия геном исторически е поставяло значителни технологични и финансови предизвикателства, често надхвърлящи милиони долари. Последните подобрения в техниките за извличане значително намаляват тези разходи, което довежда до широкомащабно извличане и съхранение на геномни данни. За илюстрация, данните, извлечени от човешкия геном, обикновено възлизат на приблизително 500 GB. Анализирането на такива данни за различни изследователски цели често включва големи групи от субекти, което води до набори от данни, които достигат обем от порядъка на петабайти (PB). Това нарастване на обема на данните повдига критични проблеми, свързани със съхранението, извличането, обработката и визуализацията им.

От друга страна, CERN има богат опит в управлението на подобни обеми от данни и организацията разработва софтуерна система, известна като ROOT за работа с големи масиви от физични данни. Проектът GeneROOT включва адаптиране на ROOT за обработка на биологични данни. В определени аспекти ранните прототипи на GeneROOT демонстрират превъзходство над част от вече установените софтуери за работа с данни, свързани с биоинформатика. GeneROOT притежава значителен потенциал за по-нататъшни подобрения в компресирането, съхранението, извличането, обработката и визуализацията на данни. Трябва да се изследва и потенциалът на GeneROOT за работа в HPC (high performance computing) среда.

Агентното моделиране е незаменим инструмент за изучаване на сложни биологични системи. Съществуващите симулационни платформи обаче не винаги се възползват напълно от съвременния хардуер и често имат софтуерен дизайн, специфичен за дадено конкретно задание.

BioDynaMo е нова платформа за симулация, която намира решение и за двата проблема. Платформата разполага с модулено и високопроизводително симулационно ядро. BioDynaMo може да се използва за симулиране на сценарии в сферите на: неврологията, онкологията и епидемиологията. За всеки сценарии се валидират добитите резултати с експериментални данни или аналитично решение. Получените резултати от ефективността показват, че BioDynaMo работи до три порядъка по-бързо от най-съвременните алтернативи. Това подобрение прави възможно симулирането на сценарии на използване с над един милиард агенти на един сървър, демонстрирайки потенциала, който BioDynaMo има за изследвания в областта на изчислителната биология.


Необходимо време

1-2 години.

Съвременни генеративни подходи в Геометричното (3D) моделиране

Анотация

Геометричното (3D) моделиране е широко използвано за създаване на цифрови модели на реални или въображаеми обекти. Този процес използва много различни подходи, като някои от тях са явни - B-Rep (мрежи от точки свързвани в многоъгълници за да създадат апроксимации на обектите, сплайнови криви и повърхности и др.), облаци от точки (PCL) и др. Някои от подходите използват неявно задаване на геометрията на моделите - F-Rep, Iso Surfaces и др. 3D моделирането с такива представяния има приложения в широк спектър от области, като видеоигри, филми, архитектура, инженерство, медицина и др.

Невронните мрежи са математически модели, вдъхновени от невронните мрежи в човешкия мозък. Те са способни да извличат сложни модели от данни, включително изображения и 3D модели. В контекста на геометричното моделиране на 3D обекти, невронните мрежи могат да бъдат използвани за: Генериране на 3D модели (обучени невронни мрежи могат да създават нови 3D форми, като се базират на някакви входни данни), Оптимизация на форми (невронните мрежи могат да помогнат за оптимизиране на формите на 3D обектите, например за по-ефективно използване на материали или за подобряване на структурата им. Тези приложения са важни за създаването на сложни и реалистични 3D модели.), Сегментация на обекти и др.

Използването на невронни мрежи за геометрично моделиране на 3D обекти представлява интересно поле, защото то може да свърже явните и неявните подходи в моделирането. Невронните мрежи са "черни кутии", което затруднява разбирането на тяхната вътрешна логика и влиянието им върху модела, но това дава и някои предимства. Предизвикателствата пред областта са много: Сложност на моделите (какви трябва да са характеристиките на невронната мреже в зависимост от комплесността на модела), Обучение и оптимизация (Обучаването на невронни мрежи изисква голям обем данни и време. Оптимизацията на архитектурата и хипер параметрите е също предизвикателство), Интерпретируемост, Обработка на 3D данни (3D обекти може да са представени като облаци от точки, воксели, съвкупности от многоъгълници и други явни или неявни описания. Преобразуването на тези данни в подходящ формат за невронните мрежи и обратно е предизвикателство.), и т.н. Важно поле на изследвания е и използването на генеративните невронни мрежи и други подобни подходи, за получаване на "нова геометрия", при фиксирани параметри (с помощта на подходящо обучение на невронните мрежи) или пренасяне на желани характеристики от едни 3D модели върху други.

Необходимо време

1-2 години.

Incremental C++ - съвременни REPL решения и изследвания

Анотация

Интерактивният/Incremental C++ представлява възможност за изпълнение на C++ код в реално време, като потребителят може да въвежда и тества свои програми директно в среда, която поддържа интерактивност (REPL подход). Една от съвременните реализации на този подход в C++ е Clang-Repl - система базирана и разширяваща възможностите на Clang.

Въпреки възможностите си за висока производителност, C++ не е първият език за програмиране, който идва на ум за бързо разработване на надеждни приложения, главно поради дългите цикли редактиране-компилиране-изпълнение. Това се премахва от системи от рода на Cladg-Repl, което ги прави "C++ интерпретатора" Clang-Repl практически приложим за: Data Science (Интерактивно изследване на данни и интерфейси, което прави сложните библиотеки и данни по-достъпни за потребителите), CUDA (Разширението на Clang-Repl с CUDA пренася работата на Interactive C++ към GPU, без да губи производителност и съвместимост със съществуващия софтуер), Проучвателното програмиране (Бързо възпроизвеждане на резултатите, което е от решаващо значение по време на проучвателната фаза на проекта), Jupyter Notebooks (Interactive C++ може да се интегрира с Jupyter Notebooks, осигурявайки бързо прототипиране и визуално учебно съдържание за потребителите на C++) и др.

Текущите изследвания в проекти като Cling, Clang-Repl, Xeus-cpp и др. имат за цел да предоставят практически използваеми интерактивни възможности на езика за програмиране C++. Идеята е да се даде възможност за динамична оперативна съвместимост, за бързо създаване на прототипи и проучвателно програмиране, които са от съществено значение за научните изследвания и др.

Необходимо време

1-2 години.

Съвременни подходи при Автоматичното диференциране (AD)

Анотация

Автоматичното диференциране (AD) е полезна техника в области на научни изследвания като машинно обучение, изчислителна геометрия, физика, оптимизация и др. Този подход се различава от символичното диференциране и численото диференциране. AD позволява автоматично изчисляване на производни на функции (зададени най-често като код написан на ЕП от високо ниво, например C++) с висока точност и ефективност. Една от съвременните системи, реализираща AD е Clad. Тя позволява автоматично диференциране на C++ код, като се основава на инфраструктурата на LLVM и е плъгин за компилатора на Clang. Тя не само опростява процеса на диференциране, но също така подобрява производителността и точността на числените изчисления в научните приложения.

В научните изследвания, където преобладават сложните математически модели, използването на AD чрез инструменти като Clad носи ново ниво на възможна сложност и скорост на изчисленията. Използвайки AD в C++ компилаторите, изследователите могат да се съсредоточат повече върху научните аспекти на своята работа, вместо да затъват в ръчни задачи за диференциране. Тази автоматизация не само ускорява процеса на разработка, но също така гарантира, че изчисленията са без грешки и с възможно най-ниска цифрова нестабилност.

Въпреки многото възможности на Clad тук има и много широко поле за развитие и иновации в сферата на AD и нейните приложения.

Необходимо време

1-2 години.

Разпространи съдържание