Sergey is available for hire

谢尔盖Antopolskiy

验证专家 in Engineering

数据科学家和开发人员

Location

雷焦艾米利亚，意大利雷焦艾米利亚省

至今成员总数

2021年2月2日

谢尔盖是一位数据科学家和机器学习工程师. 他解决了数据分析问题, visualization, 对问题进行建模，为以数据为中心的工作流开发体系结构和管道. 他使用ML模型自动化了药物制造中的手工生产步骤, 这导致吞吐量增加了200%. Sergey拥有丰富的行业经验和科学背景，并深入了解复杂问题，以创造最合适的方法来产生商业价值.

科学数据分析数据可视化机器学习数据分析人工智能(AI)Python 3 Python Pandas Jupyter Git Azure Blob存储API Azure表存储 Clustering 数据报告深度学习

Portfolio

ClinicalMind,有限责任公司

Python, Google API，生成预训练变形器(GPT)， GPT...

IBM流程挖掘(以前的myInvenio)

数据报告，数据科学，Pandas, Java 8, 你只看一次(YOLO)， Conda...

CAMLIN Group

甘特图，项目管理，数据预处理，数据管道...

Experience

Python 3 - 8年木星- 7年特征工程- 6年机器学习- 6年数据可视化- 6年生物识别- 5年梯度增强- 3年 Azure - 2年

Availability

Part-time

首选的环境

Conda, Azure, Docker, Bash Script, Jupyter, PyCharm, MacOS, Linux, Python

最神奇的...

...我开发的项目是一个分布式云平台，用于ML模型的按需培训，以查找业务流程中异常的根本原因.

工作经验

数据科学顾问

2021 - 2022

ClinicalMind,有限责任公司

为各种来源开发数据收集管道, 比如PubMed, Twitter, 医学论坛, 开放支付数据库, 要求数据库, Google Books, and more. 使用专门的ML算法合并和删除这些数据.
构建了一个算法，用于在社交媒体上呈现和分析不同受众的词汇差异, 传统媒体, 以及科学出版物.
构建定制指标，用于在社交媒体中寻找数字意见领袖, 科学出版物, books, and trends. 名称消歧算法允许查找在所有领域或特定领域突出的意见领袖.

技术:Python, Google API，生成预训练变形器(GPT)， GPT, 自然语言处理(NLP), 工程数据, 关键绩效指标, APIs, 数据收集, 数据管道, 线性代数, Twitter API, PubMed & 门德利api, ELT

高级数据科学家

2019 - 2021

IBM流程挖掘(以前的myInvenio)

设计并实现了一个基于云的平台，用于按需培训和部署ML模型，用于流程挖掘和业务流程分析, 为进一步的基于ML的项目提供了一些新的ML算法和大量缩短的TTM.
Codesigned and implemented a novel AI/XAI algorithm for extracting the root causes of business process anomalies; this bleeding-edge algorithm led to advertising our product as AI-enabled, 针对大客户的多次销售, 与IBM合作.
使用ML模型的药物制造中的自动化手工生产步骤, 在保持人工成本的同时，吞吐量提高了200%. 建议的经济有效的改进估计可减少50%的人工介入.
设计并原型化了一个基于nlp的ML管道, which allowed unsupervised identification of business threads from screen capture and click-and-key log of PC user activity; implemented a POC of PC application to obtain the necessary data.
Created a data quality control pipeline for business process logs and designed a wizard-based UX to guide users in fixing issues with their data; it reduced the load on the helpdesk, 因为许多请求与客户未知的数据问题有关.
Implemented a simple yet powerful engine for business rule mining by extending the Java library for decision trees; designed UI/UX for presenting its results to the users; the sales department often cited the new feature as a major selling point.
创建了许多自动CD/CI管道, development, 以及数据科学团队内部使用的测试工具, 哪一个简化了工作流程，并将与测试相关的体力劳动减少了大约三倍, 据同事估计.

Technologies: 数据报告，数据科学，Pandas, Java 8, 你只看一次(YOLO)， Conda, DevOps, Azure DevOps, 业务规则, 决策树, 逻辑回归, Tokenization, 主题建模, WinAPI, Tesseract, OCR, 机器学习操作(MLOps), Git, Azure Tables, Azure表存储, SQL, 项目发现, 过程挖掘, 业务流程分析, 分类算法, Azure Blob存储API, Bash Script, Azure Kubernetes服务(AKS), Azure的功能, 可解释人工智能(XAI), LSTM Networks, 梯度增加, 渐变增强树, Azure机器学习, Azure Blobs, Azure, Python, 计算机视觉, Kubernetes, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, 随机森林, 人工智能(AI), 宁静的发展, REST APIs, MySQL, PostgreSQL, 根本原因分析, 异常检测, MLflow, Apache气流, XGBoost, ETL, 亚马逊网络服务(AWS)

高级研究科学家/高级数据科学家

2017 - 2019

CAMLIN Group

Discovered and fixed results-invalidating the bug in the previously used data analysis pipeline; without my involvement, 错误的结果将被发表在主要出版物上，并使申请的专利无效.
设计并实现了多维生物特征数据的数据预处理管道和从生物特征数据实时预测用户意图的深度学习模型.
在边缘设备Jetson TX2上移植了一个基于tensorflow的ML模型, 这使得模型训练成为可能, deployment, 以及便携式电池供电形式的实时预测.
共同领导一个多阶段项目, 规划和协调多方之间的工作, 包括一个科学研究实验室, industrial R&D和工程团队，并与利益相关者进行沟通.
参与发明专利申请, 包括一个ML模型, 作为脑机接口架构的端到端方法(http://patents).google.com/patent/WO2020211958A1).
为实习生和初级员工创建并教授为期三周的应用数据科学课程，并进行内部培训.

Technologies: 甘特图，项目管理，数据预处理，数据管道, 主成分分析(PCA), 无监督学习, 分类算法, 逻辑回归, 卷积神经网络, 深度学习, TensorFlow, 数据质量分析, 复杂数据分析, Time Series, 时间序列分析, 加速度计, 实验设计, Biometrics, HDF, MATLAB, Python 3, Keras, 人工智能(AI), 异常检测

Experience

数据不可知的按需机器学习培训、部署和服务的云平台

我们需要为机器学习实验和生产生命周期创建一个与数据无关的基于云的平台, 与主要业务分析软件分离.

我设计并实现了一个基于azure的分布式平台, 其中包括(1)无服务器Azure功能作为平台API和工作流编排器, (2) Azure Blob Storage作为数据湖, (3)用于存储状态和中间结果的MSSQL DB(后来为了方便而转移到Azure Tables), (4) Azure ML计算集群，用于运行ML算法和生成工件, (5) Azure Kubernetes集群用于部署模型和提供预测服务, (6) Git算法库，可按需运行, (7) CI/CD管道.

当用户创建项目并将数据集上传到主软件时, 该平台访问数据并运行一系列机器学习实验, 生产模型, 预测和解释. 预测和解释通过REST API提交回主软件, 在不同的场景中，它们在哪里显示给用户, 为他们提供对数据集的详细了解，从而做出更好的决策. 有些模型被自动部署为端点，以提供实时预测.

通过改进工艺模型提高药理学生产线的产量

客户生产厂药品生产的几个阶段的交货期为1.每批5小时，需要持续的人工干预, 阻碍了预期的生产规模. 客户和我认为根本原因是缺乏一个精确的模型，以确定每批产品需要添加多少化学物质才能达到预期的产品性能.

使用从客户端获得的历史过程数据, 我创建了一个精确的模型, 这样我就可以在没有人员直接参与的情况下把几个生产步骤结合起来. 我通过从生产线传感器的时间序列信号中提取必要的变量并将它们组合在多项式回归中实现了这一点. 这将瓶颈制造步骤的交货时间缩短到略低于30分钟, 导致吞吐量的相应增加(客户端估计为+200%)，同时还减少了技术人员的负载. 我对模型进行打包和发货，以满足特定的客户技术要求.

在做项目的时候, 我对生产线提出了几项经济有效的改进措施, 哪些产品可以在提高生产精度的同时减少200%的人工操作.

基于扩展决策树的数据不可知业务规则挖掘算法

The goal:
-提取描述流程从活动a到可能的下一个活动(B)的条件的业务规则, C, etc.)
—评估这些规则的一致性.
-以用户友好的形式呈现.
- Take <5 seconds on 1 million business cases.
-与主要Java软件轻松集成.

我决定在这个项目中使用Java 8. 我用许多必要的函数扩展了公开可用的基本决策树库, 比如修剪, 指标的评估, 跟踪组, 处理丢失的数据, and more. 再加上特征工程/增强管道, 该算法获得每个转换的分类模型，并将其转换为文本规则, such as "A to B: when X > 10, or X < 1 and Y > 100". 这些很容易被业务用户解释. 度量以一种用户友好的方式呈现, 允许判断所识别规则的一致性. 我设计了UX/UI，用于显示和探索见解，并根据特定用户的数据集进行调整.g.，如果用户愿意，可以将规则设置得更复杂、更精确)。.

BRM成为该软件的核心功能之一和关键销售点. 它成为过程模拟的基础，这是另一个核心功能.

神经菜单导航器的脑机接口

http://arxiv.org/pdf/2004.11978.pdf

我们创建并测试了一个脑机接口原型，该原型基于对汽车驾驶员头皮上的多维生物电信号(EEG)的实时分析。, 以完全免提的方式显示信息娱乐菜单中的选定项目.

设计并实现了脑电数据预处理流水线和ML模型(基于卷积神经网络架构), 它是根据驾驶员的数据进行训练的，并实时预测他们想要选择哪种信息娱乐功能(导航, music, etc.). ML模型被移植到电池供电的便携式边缘设备NVIDIA Jetson TX2上, 允许它在车内独立工作. 增加项目的商业价值, 我们还使用一组加速度计传感器收集了丰富的运动数据，以创建预测转向动作的未来模型.

I co-led this project; in particular, 我负责协调神经科学家之间的活动, engineers, 以及我们在丰田汽车欧洲的研究伙伴, 设计原型测试和数据收集.

这项工作产生了几篇论文(详细说明), 参见项目URL)和我参与撰写的专利(http://patents).google.com/patent/WO2020211958A1).

驾驶过程中与汽车控制相关的大脑活动的时频特征

http://www.sciencedirect.com/science/article/abs/pii/S000689931830461X

I analyzed the electroencephalographic (EEG) dataset to extract patterns related to the driving actions; braking, acceleration, and steering. 数据包括脑电图, accelerometer, 驾驶模拟器数据, 所有这些都是多维时间序列.

I was invited to the project at a late stage; however, 在分析前人工作的同时, 我在数据分析中发现了一个严重的错误, 是什么使即将发表的研究结果无效. Consequently, 我被要求全职加入这个项目来改进分析, 最终以科学论文的形式发表并获得部分专利. (Patents.google.com/patent/WO2019025000A1).

In particular, 我的工作包括同步来自不同设备的数据流, 提取和过滤事件触发器, 进行主成分分析, 基于独立分量的脑电信号分解(ICA), 随后进行时频统计分析.

Skills

Languages

Python 3, Python, Bash Script, SQL, Java 8

库/ api

Azure Blob存储API, Pandas, REST APIs, TensorFlow, 加速度计, cuDDN, WinAPI, Keras, Google API, Twitter API, PubMed & Mendeley api, XGBoost

Tools

Jupyter, Azure机器学习, Git, PyCharm, MATLAB, Azure Kubernetes服务(AKS), 你只看一次(YOLO), LabVIEW, Apache气流

Paradigms

Data Science, Azure DevOps, DevOps, 测试驱动开发(TDD), 宁静的发展, UX Design, UI Design, 异常检测, 关键绩效指标, ETL

Platforms

Azure的功能、Docker、Azure、Linux、MacOS、Kubernetes、亚马逊网络服务(AWS)

Storage

Azure blob, Azure表存储，Azure表，数据管道，MySQL, PostgreSQL

Other

数据可视化, 数据分析, 机器学习, Biometrics, 主成分分析(PCA), 工程特性, 生物医学技术, 实验设计, 复杂数据分析, 数据质量分析, 逻辑回归, 分类算法, 数据预处理, 渐变增强树, 梯度增加, 过程挖掘, 机器学习操作(MLOps), 决策树, Neuroscience, 数据准备, Health IT, 实验研究, 科学数据分析, 多项式回归, 线性回归, 人工智能(AI), Conda, 无监督学习, Clustering, 卷积神经网络, 时间序列分析, 非负矩阵分解(NMF), HDF, Time Series, 深度学习, Gantt Charts, 可解释人工智能(XAI), 业务流程分析, 项目发现, OCR, Tesseract, 业务规则, APIs, EEG, 面向Python的EEG库, 计算生物学, 计算统计数据, Statistics, 统计建模, Simulations, 合成数据生成, 数据报告, Sensor Data, 客户报告, 随机森林, 根本原因分析, Architecture, AI Design, 数字信号处理, LSTM Networks, 主题建模, Tokenization, 计算机视觉, 自然语言处理(NLP), MLflow, 工程数据, 数据收集, 线性代数, ELT, GPT, 生成预训练变压器(GPT)

行业专业知识

项目管理

Education

2011 - 2016

Ph.D. 在系统神经科学中

意大利的里雅斯特国际高级研究学校

2014 - 2014

计算神经科学课程(交换生)

法兰克福高级研究所-法兰克福，德国

2006 - 2011

生理学硕士学位

罗蒙诺索夫莫斯科国立大学-莫斯科，俄罗斯