画像ファイルからテキストデータを抽出
要するにOCR(Optical Character RecognitionまたはOptical Character Reader)ツールということ。
文字の誤認識による誤字・脱字の発生する可能性がありますので、読み取り結果画面にて画像ファイルと見比べて校正作業を行ってください(画像ファイルをクリックすると、別画面に拡大表示されます)。
無料で利用できる『お試しユーザ』では、無料のOCRエンジン(Tesseract-OCR)しか利用できませんが、有料会員は有料のOCRエンジン(Google Vision API)を利用できます(有料と言っても、会員の皆様に別途料金の徴収が行われるわけではありません)。
『有料OCRエンジン』につきましては、有料会員の皆様には毎月1,000回の利用が認められています(利用カウンターは毎月1日にリセットされます)。
一度『お試しユーザ』でご利用いただき、継続的に利用する価値があると判断していただければ、『会員登録』及び『会費お支払い』をお願い申し上げます(Webサイト運営費用として活用させていただきます)。
余談ですが、個人がGoogleのクラウドサービスを利用するためのハードルというのは結構高いです(手続きがかなり面倒くさい)。
このWebツールは、(面倒な手続き無しに)Googleの高度なサービスを利用できるものであると考えると、割と便利なものだと思っています。
【初期画面】
(お試しユーザ)
(有料会員)
【テスト画像】
【読み取り結果画面】
(無料OCRエンジン)
※かなりの頻度で誤字・脱字が発生します。フリーのOCRエンジンだから仕方ない…。
(なお、空白文字はプログラム内で削除しています)
(有料OCRエンジン)
※こちらの読み取り精度は驚異の100%です。さすがはGoogle!…いや、本来は存在しないはずの空白文字が所々に入っているため、100%とは言えないか。
(もちろん、元の画像ファイルによっては、誤字・脱字が発生することはあります)
【上記のテスト画像を明朝体とゴシック体のそれぞれで、10ポイントと12ポイントのフォントで試した結果】
(テスト画像データ)
明朝体 10ポイント | |
---|---|
明朝体 12ポイント | |
ゴシック体 10ポイント | |
ゴシック体 12ポイント (先に示した『読み取り結果画面』 の例と同じもの) | |
手書き | ※「誰の字だよ、この下手な字は?」って、書いたのは私です(笑) |
(読み取り結果)
フォント種 | フォントサイズ | 読み取り結果 (無料OCRエンジン) ※下記の赤字は誤字脱字 | 読み取り結果 (有料OCRエンジン) ※下記の赤字は誤字脱字 |
---|---|---|---|
明朝体 | 10ポイント |
著作権法 BoM著作者の権利 第二節著作者 (職務上作成する著作物の著作者) 第十五条法人その他使用者(以下この条において「法人等」という。)の発意に基づき の法人等の業務に従事する者が臓務上作成する著作物(ブログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。 2法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。 |
著作権法 第二章 著作者の権利 第二節 著作者 (職務上作成する著作物の著作者) 第十五条 法人その他使用者(以下この条において 「法人等」という。)の発意に基づき その法人等の業務に従事する者が職務上作成する著作物 (プログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 2 法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 |
12ポイント |
著作権法
第二章著作者の権利
第二節著作者
(職務上作成する著作物の著作者)
第十五条法人その他使用者(以下この条において「法人等」という。)の発意に基づき
その法人等の業務に従事する者が職務上作成する著作物(プログラムの著作物を除く。)で、
その法人等が自己の著作の名義の下に公表するものの著作者は、
その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。
2法人等の基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、
その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。
|
著作権法 第二章 著作者の権利 第二節 著作者 (職務上作成する著作物の著作者) 第十五条 法人その他使用者(以下この条において「法人等」という。)の発意に基づき その法人等の業務に従事する者が職務上作成する著作物 (プログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 2 法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 | |
ゴシック体 | 10ポイント |
苦作権法 i=著作者の権利 om著作者 CRBLETSEEMOSES) 第十五条法人その他使用者(以下この条において「法人等」という。)の発意に基づき その法人等の業務に従事する者が職務上作成する著作物(プログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、動務規則その他に別段の定めがない限り、その法人等とする。 2法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、勤務坦加その他に別段の定めがない限り。、その法人等とする。 |
著作権法 第二章 著作者の権利 第二節著作者 (職務上作成する著作物の著作者) 第十五条 法人その他使用者(以下この条において 「法人等」という。)の発意に基づき その法人等の業務に従事する者が職務上作成する著作物 (プログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 2 法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 |
12ポイント (先に示した『読み取り結果画面』の例) |
著作権法
第二章著作者の権利
第二節著作者
(職務上作成する著作物の著作者)
第十五条法人その他使用者(以下この条において「法人等」という。)の発意に基づき
その法人等の業務に従事する者が職務上作成する著作物(プログラムの著作物を除く。)で、
その法人等が自己の著作の名義の下に公表するものの著作者は、
その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。
2法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、
その作成の時ける契約、勤務規則その他に別段の定めがない限り、その法人等とする。
|
著作権法 第二章 著作者の権利 第二節 著作者 (職務上作成する著作物の著作者) 第十五条 法人その他使用者(以下この条において 「法人等」という。)の発意に基づき その法人等の業務に従事する者が職務上作成する著作物 (プログラムの著作物を除く。)で、 その法人等が自己の著作の名義の下に公表するものの著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 2 法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、 その作成の時における契約、 勤務規則その他に別段の定めがない限り、 その法人等とする。 | |
手書き |
“B24Fh#4)
BaBE
AERISBELAEX)
AeJAMBBBOTcokBotSd,0REESE
FORAAAISASIRBENES3BieSabOME.)U.
FSBCOBOLRDRCLES3LOA&、
1BVS2245,HIER)ZoeSnRSs20%)4と33。
SDE)SDEBIMAISESRBLESISLOBEDDERE
BAD.HBAS20HRO}HaORI),OEGLIS。
|
著作權法
第二章 著作者の権利
第二節 著作者
(職務上作成する著作物の著作者)
第十五条 法人その他使用者(以下この条において「法人等」という。)の発意に基づき
その法人等の業務に従事する者が職務上作成する著作物(プログラムの著作物を除く。)で、
その法人等が自己の著作の名義の下に公表するものの著作者は、
その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。
2 法人等の発意に基づきその法人等の業務に従事する者が職務上作成するプログラムの著作物の著作者は、
その作成の時における契約、勤務規則その他に別段の定めがない限り、その法人等とする。
| |
総括 | フォントサイズが12ポイント以上であれば、かなりの精度で読み取り可能 (ただし、読み取り精度は100%ではない) また、手書き文字の認識は全くできていない! |
・改行が削除されていること ・『、』の後に半角空白文字が入っていること 以外の不具合が見当たらない上、フォントサイズが小さくてもしっかりと読み取れているのが素晴らしい! さらに、手書き文字に関してもほぼ完璧に認識できている(一文字だけ誤認識) |