借助 Video Intelligence API 实现视频智能检测识别

编者按：MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。LiveVideoStack邀请到了MeshCloud的陈满老师，为我们介绍如何借助谷歌云在视频智能检测识别方面的技术与能力，实现海外音视频业务的快速与高质量部署。

文/陈满

整理/LiveVideoStack

大家好，我是来自MeshCloud的陈满，今天我分享的主题是使用Google Cloud集成API实现视频智能检测识别。

首先介绍一下脉时云。脉时云主要从事谷歌云的出海业务，协助出海用户做视频和游戏，为用户提供解决方案和日常的技术支持，提供专业的咨询服务、迁移服务和运维服务。同时，我们也根据客户需求自研了产品账单系统，帮助客户使用GCP。

01 Cloud Video Intelligence API介绍

首先，介绍Cloud Video Intelligence API。

在GCP上不需要过多的配置，可以通过SDK，比如Python或Go，来调用API，实现对视频对象、地理位置和动作捕获的分析。然后，可以实现帧级别、镜头级别和视频级别的视频元数据采集，其中，帧级别可以达到秒级。同时，我们也支持流式视频和基于对象的事件触发，这意味着我们可以基于事件的触发方式根据云原生的服务构建出流式的数据分析。此外，我们可以基于内容实现精彩片段、标签功能等，打造优质客户体验。

这个API可以实现的功能如图所示。首先，它可以识别镜头切换，当镜头从A对象转向B对象时，其可以识别出来。然后，可以根据内容进行标签化处理、实现目标跟踪和Logo识别，目前可以识别两万种以上的Logo。同时，还可以做到视频文字内容识别和音频转录，达到字幕识别的效果。此外，还可以做到人脸检测与识别和人物识别，在日常生活中，这主要用于交通识别和小区出入的牌照识别。最后，还可以做到露骨内容检测。

接下来具体介绍每个功能，首先是镜头切换识别。基于镜头切换识别功能，可以对整个视频、片段视频或帧级别的视频进行内容摘要方面的分析。获得摘要后，可以基于摘要生成缩略图，或基于摘要判断视频内容情况。

其次，可以基于视频获取标签。图中展示的demo分析了动物世界中的场景，可以看到，获取的标签有动物世界、树、叶子、动物等。同时，可以对特定的片段进行识别和分析。此外，可以选择不同的模式，比如整段视频或帧级别的视频。

接下来，介绍目标跟踪功能。图中的右下角有一个蚂蚱，可以使用目标跟踪功能识别该对象，然后打开对应的时间段进行标记，通过标签关联和识别框对视频进行识别。

Logo识别功能可以识别出常见的Logo，比如Google Maps。同时，可以基于识别的数据信息实现视频的标签化和数据的收集。

如图所示，可以识别视频中出现的文字。完成文本识别后，可以进行标签化处理。同时，可以进行关联操作，实现真实的影像识别。

音频转录功能基于谷歌的API，可以自动识别常见的语言，并将其转录为视频文字，基于此完成字幕要求。

露骨内容识别功能可以基于API对视频的前十帧进行分析，判断视频是否包含敏感内容。同时，该功能也可对帧、视频流和视频片段进行分析，判断其是否包含敏感信息。

02 Video Intelligence API Beta 功能

接下来，介绍目前API预先发布的一些功能。

第一个功能是流式传输。首先，将预存的文件组合成一定大小的文件，以视频流的方式传给API，API会对其进行分析和标签化处理，还会检测镜头变化、创建元数据信息和跟踪对象。同时，可以基于另一个API实现动态内容的跟踪与识别，比如在体育赛事中，识别运动员的进球动作等。

第二个功能是直播，可以对常见的直播的视频流，比如RTMP，进行实时流式分析和标签化检测。同时，将内容放在对象存储或谷歌的BigQuery里，实现元数据的管理，并基于事件的方式实现视频内容的分析和识别。最后，根据标签和内容向客户推荐相关视频。

以上就是我今天分享的内容，感谢大家的倾听。

展开阅读全文

页面更新：2024-03-06

标签：转录视频片段镜头级别对象标签功能智能内容数据

1 2 3 4 5

借助 Video Intelligence API 实现视频智能检测识别

持续推进智能汽车与智慧城市融合创新-科协界别建议：打造“双智”新高地

比亚迪海鸥实车曝光，外观很年轻运动，5门4座，车长3780mm

破解1000亿美元库存“损耗”难题，英伟达推出3个零售AI工作流

2022年，水滴保上线帮帮赔，开启线上线下协赔新模式

ACS Energy Letters：水系铵离子电池终于等来高性能负极

嘿哇说：做了个挂机项目，被人骗了3万多！

新能源车同增90%、汽车驾驶人达4.64亿｜封面天天见·封火轮

降噪+双设备+LHDC：小米/xiaomi Buds4真无线蓝牙耳机开箱实测

陈吉栋｜人工智能法的理论体系与核心议题

荣耀80 Pro将推出《三体》动画定制版，这也是计划的一部分

Python爬虫-面向知乎的答案提取和图片下载

python100天 60pie 函数画饼图基础介绍

可控超薄磷酸锌保护层助力锌负极稳定性

你会买吗？苹果考虑在2025年首次亮相触摸屏MacBook Pro

留学小程序开发给生活带来了哪些便利？-广州微信小程序开发

持续推进智能汽车与智慧城市融合创新-科协界别建议：打

陈吉栋｜人工智能法的理论体系与核心议题

2022年汽车动力电池数据出炉宁德时代独吞半壁江山？

谷歌新旗舰Nest智能音箱将预装Fuchsia系统

视频怎么压缩大小不影响画质？这两个压缩视频教程要收藏

最终还是有老哥的硬盘暴露了，我要不现在开始删视频？

联想阿木：加速数实融合，以智能生产力推动经济高质量发展

语音人工智能公司SoundHound解雇近一半员工并提供"可

开源鸿蒙OpenHarmony已适配支持红旗小牛智能超充设备

数据出炉，台积电狂赚5000亿，失去华为后，台积电为何越来越