That's what reCAPTCHA is doing, yeah. But as far as I know, they aren't accepting collections outside of the New York Times and the books in Google's collection for Google Books.<div><br></div><div>Basically it would go like this:</div>

<div><br></div><div>Scan items -> automatically extract word images from scans and store them (not sure how to do this) -> pair unknown words from scans with known ones for user to digitize and repeat until certain requirements are met</div>

<div><br></div><div>I'd have to check Von Ahn's paper for more details, but that's the gist. </div><div><br></div><div>There's also distributed proofreaders: <a href="http://www.pgdp.net/c/">http://www.pgdp.net/c/</a>, that would be another way to do it.<br>

<br><div class="gmail_quote">On Thu, Sep 20, 2012 at 8:40 AM, Nate Hill <span dir="ltr"><<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

isn't that what CAPTCHA is doing now?  I thought that was the genius behind it... that every time you fill one out you are helping with character correction in a digitization project.<div><br></div><div><div>This would be an interesting thing to make.  A lot of libraries and businesses have a 'labs' division.  I'm sort of toying with giving our library a 'public labs' division that could meet and work on things like this during regular events like this 'Hack the Library' thing I'm sort of cooking up right now (stay tuned).</div>


<div><br></div><div>What kind of resources might go into making something like this?</div><div><div class="h5"><div><br><br><div class="gmail_quote">On Wed, Sep 19, 2012 at 11:29 PM, Sean Brewer <span dir="ltr"><<a href="mailto:seabre986@gmail.com" target="_blank">seabre986@gmail.com</a>></span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I wish there was an open source reCAPTCHA. This would be a great way for libraries to digitize their archives easily.<div>


<br><div class="gmail_quote"><div><div>On Wed, Sep 19, 2012 at 3:40 PM, Nate Hill <span dir="ltr"><<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a>></span> wrote:<br>

</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>Hi all,<div>Over at the library in our local history department we've got some pretty neat oral histories.</div>


<div>

The transcripts are all typed out on paper and the content is all burned to CDs.</div><div>I'd love to find an intern, perhaps a student, who would be interested in OCRing all of those transcripts and making everything accessible on the web.</div>





<div>If you have experience with this kind of thing and want to take on a project, please drop me a note.</div><div>Thanks</div><span><font color="#888888"><div>Nate<br clear="all"><div><br></div>-- <br>Nate Hill<br>

<a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a><div>
<a href="http://4thfloor.chattlibrary.org/" target="_blank">http://4thfloor.chattlibrary.org/</a><br><a href="http://www.natehill.net" target="_blank">http://www.natehill.net</a><br></div><br>
</div>
</font></span><br></div></div><div>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org" target="_blank">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></div></blockquote></div><br></div>
<br>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org" target="_blank">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Nate Hill<br><a href="mailto:nathanielhill@gmail.com" target="_blank">nathanielhill@gmail.com</a><div><a href="http://4thfloor.chattlibrary.org/" target="_blank">http://4thfloor.chattlibrary.org/</a><br>


<a href="http://www.natehill.net" target="_blank">http://www.natehill.net</a><br></div><br>
</div></div></div></div>
<br>_______________________________________________<br>
Chugalug mailing list<br>
<a href="mailto:Chugalug@chugalug.org">Chugalug@chugalug.org</a><br>
<a href="http://chugalug.org/cgi-bin/mailman/listinfo/chugalug" target="_blank">http://chugalug.org/cgi-bin/mailman/listinfo/chugalug</a><br>
<br></blockquote></div><br></div>