Tesseract.js是一个JavaScript库,是由谷歌开源的一个库,是Tesseract的js版本。可以从图像中获取几乎任何语言的单词。包括:图像识别、视频实时识别。
Tesseract.js包装了Tesseract OCR引擎的Webassembly端口。 它在浏览器中使用 webpack 或带有 CDN 的纯脚本标签,并使用 Node.js 在服务器上工作。
以下是识别效果
Tesseract.js通过本地副本或CDN使用标签,通过Node和在Node上使用webpack.js使用。
npm方式 方式1: 方式2: 在浏览器环境中,只需提供 API 层。在内部,它会打开一个 Web Worker 来处理请求。该工作线程本身从 Emscripten 构建的代码加载代码,该代码本身托管在 CDN 上。然后,它会动态加载托管在另一个 CDN 上的语言文件。tesseract.jstesseract.js-core 因此,我们建议从 CDN 加载。但是,如果您确实需要将所有文件放在本地,则可以传递额外的参数来指定工作线程、语言和核心的自定义路径。tesseract.jsTesseractWorker 在 Node.js 环境中,您可能想要自定义的唯一路径是 languages/langPath。 或# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
安装后使用
import Tesseract from 'tesseract.js';
Tesseract.recognize(
'https://tesseract.projectnaptha.com/img/eng_bw.png',
'eng',
{ logger: m => console.log(m) }
).then(({ data: { text } }) => {
console.log(text);
})
import { createWorker } from 'tesseract.js';
const worker = await createWorker({
logger: m => console.log(m)
});
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
console.log(text);
await worker.terminate();
})();
Tesseract.recognize(image, langs, {
workerPath: 'https://unpkg.com/tesseract.js@v4.0.1/dist/worker.min.js',
langPath: 'https://tessdata.projectnaptha.com/4.0.0',
corePath: 'https://unpkg.com/tesseract.js-core@v4.0.1/tesseract-core.wasm.js',
})
const worker = await createWorker({
workerPath: 'https://unpkg.com/tesseract.js@v4.0.1/dist/worker.min.js',
langPath: 'https://tessdata.projectnaptha.com/4.0.0',
corePath: 'https://unpkg.com/tesseract.js-core@v4.0.1/tesseract-core.wasm.js',
});
页面更新:2024-04-23
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号