谢尔盖Antopolskiy
验证专家 in Engineering
数据科学家和开发人员
谢尔盖是一位数据科学家和机器学习工程师. 他解决了数据分析问题, visualization, 对问题进行建模,为以数据为中心的工作流开发体系结构和管道. 他使用ML模型自动化了药物制造中的手工生产步骤, 这导致吞吐量增加了200%. Sergey拥有丰富的行业经验和科学背景,并深入了解复杂问题,以创造最合适的方法来产生商业价值.
Portfolio
Experience
Availability
首选的环境
Conda, Azure, Docker, Bash Script, Jupyter, PyCharm, MacOS, Linux, Python
最神奇的...
...我开发的项目是一个分布式云平台,用于ML模型的按需培训,以查找业务流程中异常的根本原因.
工作经验
数据科学顾问
ClinicalMind,有限责任公司
- 为各种来源开发数据收集管道, 比如PubMed, Twitter, 医学论坛, 开放支付数据库, 要求数据库, Google Books, and more. 使用专门的ML算法合并和删除这些数据.
- 构建了一个算法,用于在社交媒体上呈现和分析不同受众的词汇差异, 传统媒体, 以及科学出版物.
- 构建定制指标,用于在社交媒体中寻找数字意见领袖, 科学出版物, books, and trends. 名称消歧算法允许查找在所有领域或特定领域突出的意见领袖.
高级数据科学家
IBM流程挖掘(以前的myInvenio)
- 设计并实现了一个基于云的平台,用于按需培训和部署ML模型,用于流程挖掘和业务流程分析, 为进一步的基于ML的项目提供了一些新的ML算法和大量缩短的TTM.
- Codesigned and implemented a novel AI/XAI algorithm for extracting the root causes of business process anomalies; this bleeding-edge algorithm led to advertising our product as AI-enabled, 针对大客户的多次销售, 与IBM合作.
- 使用ML模型的药物制造中的自动化手工生产步骤, 在保持人工成本的同时,吞吐量提高了200%. 建议的经济有效的改进估计可减少50%的人工介入.
- 设计并原型化了一个基于nlp的ML管道, which allowed unsupervised identification of business threads from screen capture and click-and-key log of PC user activity; implemented a POC of PC application to obtain the necessary data.
- Created a data quality control pipeline for business process logs and designed a wizard-based UX to guide users in fixing issues with their data; it reduced the load on the helpdesk, 因为许多请求与客户未知的数据问题有关.
- Implemented a simple yet powerful engine for business rule mining by extending the Java library for decision trees; designed UI/UX for presenting its results to the users; the sales department often cited the new feature as a major selling point.
- 创建了许多自动CD/CI管道, development, 以及数据科学团队内部使用的测试工具, 哪一个简化了工作流程,并将与测试相关的体力劳动减少了大约三倍, 据同事估计.
高级研究科学家/高级数据科学家
CAMLIN Group
- Discovered and fixed results-invalidating the bug in the previously used data analysis pipeline; without my involvement, 错误的结果将被发表在主要出版物上,并使申请的专利无效.
- 设计并实现了多维生物特征数据的数据预处理管道和从生物特征数据实时预测用户意图的深度学习模型.
- 在边缘设备Jetson TX2上移植了一个基于tensorflow的ML模型, 这使得模型训练成为可能, deployment, 以及便携式电池供电形式的实时预测.
- 共同领导一个多阶段项目, 规划和协调多方之间的工作, 包括一个科学研究实验室, industrial R&D和工程团队,并与利益相关者进行沟通.
- 参与发明专利申请, 包括一个ML模型, 作为脑机接口架构的端到端方法(http://patents).google.com/patent/WO2020211958A1).
- 为实习生和初级员工创建并教授为期三周的应用数据科学课程,并进行内部培训.
Experience
数据不可知的按需机器学习培训、部署和服务的云平台
我设计并实现了一个基于azure的分布式平台, 其中包括(1)无服务器Azure功能作为平台API和工作流编排器, (2) Azure Blob Storage作为数据湖, (3)用于存储状态和中间结果的MSSQL DB(后来为了方便而转移到Azure Tables), (4) Azure ML计算集群,用于运行ML算法和生成工件, (5) Azure Kubernetes集群用于部署模型和提供预测服务, (6) Git算法库,可按需运行, (7) CI/CD管道.
当用户创建项目并将数据集上传到主软件时, 该平台访问数据并运行一系列机器学习实验, 生产模型, 预测和解释. 预测和解释通过REST API提交回主软件, 在不同的场景中,它们在哪里显示给用户, 为他们提供对数据集的详细了解,从而做出更好的决策. 有些模型被自动部署为端点,以提供实时预测.
通过改进工艺模型提高药理学生产线的产量
使用从客户端获得的历史过程数据, 我创建了一个精确的模型, 这样我就可以在没有人员直接参与的情况下把几个生产步骤结合起来. 我通过从生产线传感器的时间序列信号中提取必要的变量并将它们组合在多项式回归中实现了这一点. 这将瓶颈制造步骤的交货时间缩短到略低于30分钟, 导致吞吐量的相应增加(客户端估计为+200%),同时还减少了技术人员的负载. 我对模型进行打包和发货,以满足特定的客户技术要求.
在做项目的时候, 我对生产线提出了几项经济有效的改进措施, 哪些产品可以在提高生产精度的同时减少200%的人工操作.
基于扩展决策树的数据不可知业务规则挖掘算法
-提取描述流程从活动a到可能的下一个活动(B)的条件的业务规则, C, etc.)
—评估这些规则的一致性.
-以用户友好的形式呈现.
- Take <5 seconds on 1 million business cases.
-与主要Java软件轻松集成.
我决定在这个项目中使用Java 8. 我用许多必要的函数扩展了公开可用的基本决策树库, 比如修剪, 指标的评估, 跟踪组, 处理丢失的数据, and more. 再加上特征工程/增强管道, 该算法获得每个转换的分类模型,并将其转换为文本规则, such as "A to B: when X > 10, or X < 1 and Y > 100". 这些很容易被业务用户解释. 度量以一种用户友好的方式呈现, 允许判断所识别规则的一致性. 我设计了UX/UI,用于显示和探索见解,并根据特定用户的数据集进行调整.g.,如果用户愿意,可以将规则设置得更复杂、更精确)。.
BRM成为该软件的核心功能之一和关键销售点. 它成为过程模拟的基础,这是另一个核心功能.
神经菜单导航器的脑机接口
http://arxiv.org/pdf/2004.11978.pdf设计并实现了脑电数据预处理流水线和ML模型(基于卷积神经网络架构), 它是根据驾驶员的数据进行训练的,并实时预测他们想要选择哪种信息娱乐功能(导航, music, etc.). ML模型被移植到电池供电的便携式边缘设备NVIDIA Jetson TX2上, 允许它在车内独立工作. 增加项目的商业价值, 我们还使用一组加速度计传感器收集了丰富的运动数据,以创建预测转向动作的未来模型.
I co-led this project; in particular, 我负责协调神经科学家之间的活动, engineers, 以及我们在丰田汽车欧洲的研究伙伴, 设计原型测试和数据收集.
这项工作产生了几篇论文(详细说明), 参见项目URL)和我参与撰写的专利(http://patents).google.com/patent/WO2020211958A1).
驾驶过程中与汽车控制相关的大脑活动的时频特征
http://www.sciencedirect.com/science/article/abs/pii/S000689931830461XI was invited to the project at a late stage; however, 在分析前人工作的同时, 我在数据分析中发现了一个严重的错误, 是什么使即将发表的研究结果无效. Consequently, 我被要求全职加入这个项目来改进分析, 最终以科学论文的形式发表并获得部分专利. (Patents.google.com/patent/WO2019025000A1).
In particular, 我的工作包括同步来自不同设备的数据流, 提取和过滤事件触发器, 进行主成分分析, 基于独立分量的脑电信号分解(ICA), 随后进行时频统计分析.
Skills
Languages
Python 3, Python, Bash Script, SQL, Java 8
库/ api
Azure Blob存储API, Pandas, REST APIs, TensorFlow, 加速度计, cuDDN, WinAPI, Keras, Google API, Twitter API, PubMed & Mendeley api, XGBoost
Tools
Jupyter, Azure机器学习, Git, PyCharm, MATLAB, Azure Kubernetes服务(AKS), 你只看一次(YOLO), LabVIEW, Apache气流
Paradigms
Data Science, Azure DevOps, DevOps, 测试驱动开发(TDD), 宁静的发展, UX Design, UI Design, 异常检测, 关键绩效指标, ETL
Platforms
Azure的功能、Docker、Azure、Linux、MacOS、Kubernetes、亚马逊网络服务(AWS)
Storage
Azure blob, Azure表存储,Azure表,数据管道,MySQL, PostgreSQL
Other
数据可视化, 数据分析, 机器学习, Biometrics, 主成分分析(PCA), 工程特性, 生物医学技术, 实验设计, 复杂数据分析, 数据质量分析, 逻辑回归, 分类算法, 数据预处理, 渐变增强树, 梯度增加, 过程挖掘, 机器学习操作(MLOps), 决策树, Neuroscience, 数据准备, Health IT, 实验研究, 科学数据分析, 多项式回归, 线性回归, 人工智能(AI), Conda, 无监督学习, Clustering, 卷积神经网络, 时间序列分析, 非负矩阵分解(NMF), HDF, Time Series, 深度学习, Gantt Charts, 可解释人工智能(XAI), 业务流程分析, 项目发现, OCR, Tesseract, 业务规则, APIs, EEG, 面向Python的EEG库, 计算生物学, 计算统计数据, Statistics, 统计建模, Simulations, 合成数据生成, 数据报告, Sensor Data, 客户报告, 随机森林, 根本原因分析, Architecture, AI Design, 数字信号处理, LSTM Networks, 主题建模, Tokenization, 计算机视觉, 自然语言处理(NLP), MLflow, 工程数据, 数据收集, 线性代数, ELT, GPT, 生成预训练变压器(GPT)
行业专业知识
项目管理
Education
Ph.D. 在系统神经科学中
意大利的里雅斯特国际高级研究学校
计算神经科学课程(交换生)
法兰克福高级研究所-法兰克福,德国
生理学硕士学位
罗蒙诺索夫莫斯科国立大学-莫斯科,俄罗斯