Tesseract (perangkat lunak)

Tesseract
Edit nilai pada Wikidata
Tesseract 3.02 running on Gnome Terminal 3.8.0. "input_image.tif" is the input document which will be rendered as "output_text.txt" by Tesseract.
TipeOCR software (en) Terjemahkan dan perangkat lunak bebas dan sumber terbuka Edit nilai pada Wikidata
Versi stabil
5.4.1 (11 Juni 2024) Edit nilai pada Wikidata
GenreOptical character recognition
LisensiApache License 2.0
Bahasa
Daftar bahasa

Interface: English
Recognition: Afrikaans, Albanian, Arabic, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Catalan, Czech, Cherokee, Croatian, Danish, Dutch, English, Esperanto, Estonian, Finnish, French, Galician, German, Greek, Hindi, Hungarian, Indonesian, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Malayalam, Macedonian, Maltese, Malay, Norwegian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Telugu, Thai, Turkish, Ukrainian & Vietnamese (more can be added using included training files)

Karakteristik teknis
Sistem operasiLinux, Windows, and macOS (x86)
Bahasa pemrogramanC++ Edit nilai pada Wikidata
Format kode
Daftar
hOCR (en) Terjemahkan, Berkas teks, PDF, ALTO (en) Terjemahkan dan tab-separated values (en) Terjemahkan Edit nilai pada Wikidata
Format berkas
Daftar
TIFF, Portable Network Graphics, JPEG File Interchange Format (JFIF) (en) Terjemahkan, JP2 (en) Terjemahkan dan WebP Edit nilai pada Wikidata
Informasi pengembang
PembuatRay Smith, Hewlett-Packard[1]
PengembangGoogle
Sumber kode
Kode sumberPranala Edit nilai pada Wikidata
Debiantesseract-ocr Edit nilai pada Wikidata
Arch Linuxtesseract Edit nilai pada Wikidata
Ubuntutesseract-ocr Edit nilai pada Wikidata
Gentooapp-text/tesseract Edit nilai pada Wikidata
Snappytesseract Edit nilai pada Wikidata
Informasi tambahan
Situs webgithub.com… (Inggris) Edit nilai pada Wikidata
Stack ExchangeEtiqueta Edit nilai pada Wikidata
SourceForgetesseract-ocr Edit nilai pada Wikidata
Free Software Directorytesseract Edit nilai pada Wikidata
Panduan penggunaLaman panduan Edit nilai pada Wikidata
GitHub: tesseract-ocr
Sunting di Wikidata Sunting di Wikidata • Sunting kotak info • L • B
Info templat
Bantuan penggunaan templat ini

Dalam perangkat lunak komputer, Tesseract adalah mesin pengenal karakter optik gratis. Tesseract pada awalnya dikembangkan sebagai perangkat lunak berpemilik di Hewlett-Packard antara tahun 1985 hingga 1995. Setelah sepuluh tahun tanpa perkembangan apapun yang terjadi, Hewlett Packard dan UNLV merilis Tesseract sebagai sumber terbuka pada tahun 2005. Tesseract saat ini sedang dikembangkan oleh Google dan dirilis di bawah Lisensi Apache, Version 2.0.

Tesseract dianggap salah satu perangkat lunak mesin OCR bebas yang paling akurat yang tersedia saat ini.[3]

Lihat pula

  • OCRopus
  • Document Layout Analysis

Referensi

  1. ^ Google (2008). "tesseract-ocr". Diakses tanggal 2016-03-08. 
  2. ^ "Releases - tesseract-ocr/tesseract". Diakses tanggal 5 January 2020 – via GitHub. 
  3. ^ Willis, Nathan (2006). "Google's Tesseract OCR engine is a quantum leap forward". Diakses tanggal 2008-07-18.  Parameter |month= yang tidak diketahui akan diabaikan (bantuan)

Pranala luar

  • Tesseract OCR Project page on Google Code
  • Information Science Research Institute at the University of Nevada, Las Vegas Diarsipkan 2010-03-14 di Wayback Machine. Information Science Research Institute at the University of Nevada, Las Vegas
  • http://tesseract-ocr.repairfaq.org/ - C/C++ structure of Tesseract extracted from Doxyfied source code (based on Tesseract V1.03)
  • Archivista Box - A complete GPL document management system based on Tesseract and Linux.
  • Tesseract - Summary - some patches for training on a 64-bit machine.
  • Tesseract OCR Engine Diarsipkan 2010-02-16 di Wayback Machine. What it is, where it came from, where it is going.
  • VietOCR - Java/.NET GUI frontend for Tesseract OCR engine
  • l
  • b
  • s