<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:Courier New,courier,monaco,monospace,sans-serif;font-size:10pt"><div>sure, I'll take a crack at it.   are the audio recordings already digitized?   I can digitize the recordings if they are not already digitized.   <br><br>I'm thinking I'd write a script to process the digitized file...<br>use sox to break the file into small chunks<br>feed the small audio chunks to google speech-to-text<br>save the text to a file, append mode<br>repeat until entire audio file is converted to text<br><br>once I get a script that works, I'll share the code, perhaps other folks could jump in and we can turn this into a distributed, parallel processing project ;-)<br></div><div style="font-family:Courier New, courier, monaco, monospace, sans-serif;font-size:10pt"><br>what kind of "volume" are we looking at?  (how many oral histories, how
 long is a typical recording, etc)<br><br><br><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><font face="Tahoma" size="2"><hr size="1"><b><span style="font-weight: bold;">From:</span></b> Nate Hill <nathanielhill@gmail.com><br><b><span style="font-weight: bold;">To:</span></b> Chattanooga Unix Gnu Android Linux Users Group <chugalug@chugalug.org><br><b><span style="font-weight: bold;">Sent:</span></b> Wed, September 19, 2012 3:19:40 PM<br><b><span style="font-weight: bold;">Subject:</span></b> Re: [Chugalug] intern<br></font><br>
Great idea! They are. Ed, are you volunteering? :)<span></span><br><br>On Wednesday, September 19, 2012, Ed King  wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div><div style="font-family:Courier New, courier, monaco, monospace, sans-serif;font-size:10pt;">instead of OCR, I wonder if this project would be a good way to (ab)use Google's speech-to-text api.   Are the original audio recordings availabe?<br>
<br><div style="font-family:Courier New, courier, monaco, monospace, sans-serif;font-size:10pt;"><br><div style="font-family:times new roman, new york, times, serif;font-size:12pt;"><font face="Tahoma"><hr size="1"><b><span style="font-weight:bold;">From:</span></b> Nate Hill <<a rel="nofollow">nathanielhill@gmail.com</a>><br>
<b><span style="font-weight:bold;">To:</span></b> CHUGALUG <<a rel="nofollow">chugalug@chugalug.org</a>><br><b><span style="font-weight:bold;">Sent:</span></b> Wed, September 19, 2012 2:41:16 PM<br>
<b><span style="font-weight:bold;">Subject:</span></b> [Chugalug] intern<br></font><br>
Hi all,<div>Over at the library in our local history department we've got some pretty neat oral histories.</div><div>The transcripts are all typed out on paper and the content is all burned to CDs.</div><div>I'd love to find an intern, perhaps a student, who would be interested in OCRing all of those transcripts and making everything accessible on the web.</div>

<div>If you have experience with this kind of thing and want to take on a project, please drop me a note.</div><div>Thanks</div><div>Nate<br clear="all"><div><br></div>-- <br>Nate Hill<br><a rel="nofollow">nathanielhill@gmail.com</a><div>

<a rel="nofollow" target="_blank" href="http://4thfloor.chattlibrary.org/">http://4thfloor.chattlibrary.org/</a><br><a rel="nofollow" target="_blank" href="http://www.natehill.net">http://www.natehill.net</a><br></div><br>

</div>
</div></div>



</div></div></blockquote><br><br>-- <br>Nate Hill<br><a rel="nofollow" ymailto="mailto:nathanielhill@gmail.com" target="_blank" href="mailto:nathanielhill@gmail.com">nathanielhill@gmail.com</a><div><a rel="nofollow" target="_blank" href="http://4thfloor.chattlibrary.org/">http://4thfloor.chattlibrary.org/</a><br>
<a rel="nofollow" target="_blank" href="http://www.natehill.net">http://www.natehill.net</a><br></div><br>
</div></div>



</div></body></html>