<div dir="ltr">That would probably take a *very long time*, longer than just having someone digitize what OCR can't accomplish automatically.<br><br><div class="gmail_quote">On Thu, Sep 20, 2012 at 10:49 AM, Sean Brewer <span dir="ltr"><<a href="mailto:seabre986@gmail.com" target="_blank">seabre986@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">That's what reCAPTCHA is doing, yeah. But as far as I know, they aren't accepting collections outside of the New York Times and the books in Google's collection for Google Books.<div>

<br></div><div>Basically it would go like this:</div>

<div><br></div><div>Scan items -> automatically extract word images from scans and store them (not sure how to do this) -> pair unknown words from scans with known ones for user to digitize and repeat until certain requirements are met</div>



<div><br></div><div>I'd have to check Von Ahn's paper for more details, but that's the gist. </div><div><br></div><div>There's also distributed proofreaders: <a href="http://www.pgdp.net/c/" target="_blank">http://www.pgdp.net/c/</a>, that would be another way to do it.<div>

<div class="h5"><br>

<br><div class="gmail_quote">On Thu, Sep 20, 2012 at 8:40 AM, Nate Hill <span dir="ltr"><<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



isn't that what CAPTCHA is doing now?  I thought that was the genius behind it... that every time you fill one out you are helping with character correction in a digitization project.<div><br></div><div><div>This would be an interesting thing to make.  A lot of libraries and businesses have a 'labs' division.  I'm sort of toying with giving our library a 'public labs' division that could meet and work on things like this during regular events like this 'Hack the Library' thing I'm sort of cooking up right now (stay tuned).</div>




<div><br></div><div>What kind of resources might go into making something like this?</div><div><div><div><br><br><div class="gmail_quote">On Wed, Sep 19, 2012 at 11:29 PM, Sean Brewer <span dir="ltr"><<a href="mailto:seabre986@gmail.com" target="_blank">seabre986@gmail.com</a>></span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I wish there was an open source reCAPTCHA. This would be a great way for libraries to digitize their archives easily.<div>




<br><div class="gmail_quote"><div><div>On Wed, Sep 19, 2012 at 3:40 PM, Nate Hill <span dir="ltr"><<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a>></span> wrote:<br>

</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>Hi all,<div>Over at the library in our local history department we've got some pretty neat oral histories.</div>




<div>

The transcripts are all typed out on paper and the content is all burned to CDs.</div><div>I'd love to find an intern, perhaps a student, who would be interested in OCRing all of those transcripts and making everything accessible on the web.</div>







<div>If you have experience with this kind of thing and want to take on a project, please drop me a note.</div><div>Thanks</div><span><font color="#888888"><div>Nate<br clear="all"><div><br></div>-- <br>Nate Hill<br>

<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a><div>
<a href="http://4thfloor.chattlibrary.org/" target="_blank">http://4thfloor.chattlibrary.org/</a><br><a href="http://www.natehill.net" target="_blank">http://www.natehill.net</a><br></div><br>
</div>
</font></span><br></div></div><div>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org" target="_blank">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></div></blockquote></div><br></div>
<br>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org" target="_blank">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Nate Hill<br><a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a><div><a href="http://4thfloor.chattlibrary.org/" target="_blank">http://4thfloor.chattlibrary.org/</a><br>




<a href="http://www.natehill.net" target="_blank">http://www.natehill.net</a><br></div><br>
</div></div></div></div>
<br>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org" target="_blank">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></blockquote></div><br></div></div></div>
<br>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>" ' With the first link, the chain is forged. The first speech censured, the first thought forbidden, the first freedom denied, chains us all irrevocably.' Those words were uttered by Judge Aaron Satie as wisdom and warning... The first time any man's freedom is trodden on we’re all damaged." - Jean-Luc Picard, quoting Judge Aaron Satie, Star Trek: TNG episode "The Drumhead"<br>

- Alex Smith (K4RNT)<br>- Dulles Technology Corridor (Chantilly/Ashburn/Dulles), Virginia USA<br>
</div>