Моя История Стажировки В Области Науки О Данных

Опубликовано: 10/01/2021 Время на прочтение: 7 минут

Фото Хемерсона Коэльо на Unsplash

Некоторый Контекст

Ближе к концу первого курса я познакомился с областью глубокого обучения и компьютерногозрения. Что привлекло мое внимание больше всего, так это их использование в биологии и медицине для ускорения их довольно насыщенного роста за последние несколько десятилетий. К концу второго курса я был вполне убежден, что буду работать на стыке медицины и искусственного интеллекта на последнем курсе интернатуры. Я успешно получил место в одном из ведущих мировых институтов медицинской робототехники во Франции для работы над проблемами компьютерного зрения. Но потом КОВИД ударил. Ограничения на поездки отменили мою цель работать в такой обстановке. Я чувствовал себя разбитым и немного встревоженным, потому что возможность была идеальной. Я не знал, что ждет меня впереди.

В апреле 2020 года я взял интервью у Дози, и вскоре через неделю мне предложили поработать с их исследовательской группой в качестве стажера по науке о данных. Сегодня я в восторге от того опыта, который у меня был, особенно от возможности испытать как исследовательскую, так и производственную сторону.

Если вы когда-нибудь упустите возможность, которая, по вашему мнению, была самым совершенным совпадением, которое могла предложить Вселенная, не волнуйтесь! Есть не менее хорошая (если не лучшая) возможность, ожидающая за углом. Все, что вам нужно сделать, это приложить усилия и раскопать его.

Ежедневно ПАЗ

Прежде всего, я хотел бы кратко рассказать о том, как выглядел мой ежедневный график. Благодаря гибкости таймингов я начал работать около 11 утра каждый день и заканчивал к 8 вечера. С пандемией, ограничивающей опыт работы из дома, мне не нужно было сильно беспокоиться о перерывах на обед или ужин.

Фото Лукаса Блазека на Unsplash

День обычно начинался с вызова scrum ровно в 10 утра. В ходе этого совещания группа обсудила последние изменения в их соответствующих вертикалях и предлагаемые планы на день. Обычно это длилось от 10 до 15 минут, и звонок, безусловно, задавал тон на весь день. В некоторые дни были задачи с высоким приоритетом, а в другие дни все сводилось к предстоящим встречам и дискуссиям.

Я разбил свои сеансы на три части (по крайней мере, попытался). С 11 утра до 2 часов дня я пытался закончить небольшие разрозненные задания, которые не занимали много времени. Например, обновление функции в соответствии с новыми требованиями, завершение ежедневного тестирования развернутых алгоритмов или написание сценариев для какой-либо задачи быстрой автоматизации. Затем я сделал паузу примерно на тридцать-сорок минут и снова включил slack. Перед тем как уйти на обед, я обычно оставлял некоторые задачи, отнимающие время, запущенные на наших графических процессорах. Между 2: 30 и 5: 30 вечера я проводил свое время, работая над основными задачами дня. Они включали в себя просмотр статей и исследовательских работ, формулирование решений и сбор всего, что требовалось для создания MVP для этой задачи. Это была самая интересная часть дня, так как я обнаружил и исследовал здесь больше всего. Обычно я проводил время с 6: 00 до 8: 00 вечера, Преобразуя логику и идею, разработанные в предыдущей сессии, в код. Это было довольно прямолинейно большую часть времени. Я попытался подготовить рабочий код, прежде чем назвать его днем, и оптимизировал его на следующее утро. В промежутках в течение дня раздавались звонки для обсуждения проекта и исправления ошибок. Тем не менее, расписание каждый день не было таким аккуратным и секционированным; иногда я проводил две трети дня, просто исправляя ошибки.

Кроме того, у нас были еженедельные обсуждения исследований и разработок по нашему текущему проекту в команде. Я любила их! Это была обширная открытая дискуссия, в ходе которой мы все обменялись идеями о различных подходах к препятствиям в наших проектах. Это были здоровые 2-3-часовые дискуссии, начиная от идеи нового проекта и заканчивая оптимизацией уже разработанных стратегий.

Мне нравилась идея еженедельных дискуссий по НИОКР. Это был отличный способ привлечь всех к участию в различных проектах, а также дать каждому возможность сотрудничать и вносить свой вклад. На самом деле идея очень фундаментальной части проекта, над которой я работал, сформировалась в ходе одной из наших дискуссий по НИОКР.

После тщательной работы над идеей мы обычно проводили презентационные сессии, где эксплицировали идею, ее эффективность и тщательно изучали возможность интеграции. Он консолидировал все соображения по проекту.

Разбивка Проекта

Говоря о проекте, я бы разбил его на три основных этапа: создание идеи, тестирование, производство, причем каждый из них важнее другого.

Фото Йо Щепански на Unsplash

Мысли

Кто-то может возразить, что это самая важная из всех стадий, поскольку идея будет определять исполнение на последних стадиях. Как стажер-Новичок, это была моя первая широкая задача. Мне дали формулировку проблемы, и я должен был найти способы ее решения. Поначалу это было просто ошеломляюще! Я помню, как целыми днями читал научные статьи, экспериментировал с существующими методами и другими предыдущими работами по этой теме. Интересным было то, что Dozee основан на Баллистокардиографии(БЦЖ), методе, при котором жизненно важные органы контролируются путем измерения реакции организма на сердечный выброс крови. Вокруг этой темы было проделано не так уж много работы, не говоря уже о моем конкретном проектном заявлении. Мне пришлось извлечь много идей из прошлых работ по ЭКГ и Актиграфии. Если вам интересно, как ваши умные часы могут измерять частоту сердечных сокращений, то это актиграфия запястья, интересная область конвергенции здравоохранения и машинного обучения. Мысль о том, что наша идея может быть первой в своем роде, поддерживала меня и подталкивала к более глубоким исследованиям.

Я столкнулся с двумя уровнями отказа от идеи. Первое было легко отвергнуть. После краткого анализа идеи или подхода и их совместимости с нашим продуктом мы можем легко отказаться от этой идеи. Может быть, у нас нет необходимых входных данных, а может быть, это невозможно представить в реальном времени. Второй тип идей был правдоподобным-те, которые могли работать. Единственный способ найти это-продолжить работу над идеей. Это требовало времени, и было крайне важно не тратить время на идеи, которые не подходят. В течение трех месяцев я работал над четырьмя перспективными идеями и стратегиями. Первые три оказались полным провалом. Мы достигали результатов ниже наших существующих контрольных показателей. Последний метод был тем, который пересек все наши ориентиры и, по сути, превзошел все работы по BCG с аналогичной постановкой задачи.

Стоит отметить, что если бы я не испробовал первые три метода, мне было бы трудно прийти к нашей нынешней успешной стратегии. Работа над каждой идеей помогла мне взглянуть на проблему с другой стороны и коллективно выработать концепцию причин их неудачи. Это также помогло мне глубоко погрузиться и понять, что именно мы пытаемся решить, почему это важно, не говоря уже о биологической стороне проблемы.

Тестирование

Было четыре подхода, которые итеративно добрались до стадии тестирования. Под итеративным я имею в виду, что второй подход был построен на основе изучения первого, или окончательный подход был основан на изучении предыдущих трех подходов. Этот этап отнимал много времени. Он включал в себя генерацию точек данных, ручное создание функций и обучение моделям глубокого обучения в течение нескольких часов или дней вместе. Нужно было построить конвейер, чтобы преобразовать необработанные сигналы, которые у меня были, в форму, которая может быть использована в качестве входных данных для модели. Строительство трубопровода для первого подхода было наиболее сложным, поскольку для других трех подходов тот же самый трубопровод мог быть модифицирован и использован. Общая процедура, которой я следовал, руководствуясь другими исследователями данных в нашей команде, состояла в следующем::

а) построить самую базовую архитектуру для бенчмаркинга.

б) поэкспериментируйте с различными пространствами объектов с помощью этой архитектуры.

в) приступайте к разработке лучших архитектур с наиболее перспективным пространством функций.

Это действительно помогло мне в активной и организованной оценке и сравнении функций, архитектур моделей. Мои первые два подхода были основаны на изображении как функции, и я помню, как нетерпеливо ждал, чтобы визуализировать и оценить причину плохой работы модели. В какой-то момент я построил так много моделей с различным пространством функций, что они перестали казаться черными ящиками, и мне казалось, что я знаю, почему они потерпели неудачу и что их исправит (и это оказалось правдой в 60% случаев :D). Этот этап был предпоследним испытанием для подхода, чтобы доказать свое современное исполнение. Обычно есть один победитель, и он переходит в финальное состояние. Однако он все еще может быть отклонен на заключительном этапе, если он не соответствует критериям сервера и производства.

Производство


Метки: ,


прокрутка вверх